메타의 AI, 비감독으로 한 걸음 더 나아가다
인간 수준의 지능형 AI를 추구하기 위해 Meta는 자기 지도 학습에 베팅 중.
메타의 수석 AI 과학자인 얀 르쿤은 지금 당장 구체적인 단계를 이야기할 때에도 먼 목표를 놓치지 않습니다. "우리는 동물과 인간처럼 학습하는 지능형 기계를 만들고 싶습니다."라고 LeCun은 IEEE Spectrumin과의 인터뷰에서 말합니다.
오늘 소개할 구체적인 단계는 Facebook의 전신인 Meta에서 AI 시스템을 위한 일종의 자기 지도 학습(SSL)에 관한 일련의 논문입니다. SSL은 AI 시스템이 레이블이 지정된 데이터 세트에서 학습하는 지도 학습과는 대조적입니다(레이블은 AI 시스템이 작업을 확인할 때 정답을 제공하는 교사 역할을 함). 르쿤은 "세계 모델"을 구축하여 이성, 상식, 한 맥락에서 다른 맥락으로 기술과 지식을 전달하는 능력 등 인간과 같은 능력을 갖추기 시작할 수 있는 AI 시스템에는 SSL이 필수 전제 조건이라는 강한 믿음을 자주 이야기해 왔습니다. 새로운 논문은 마스킹 자동 인코더(MAE)라는 자가 감독 시스템이 매우 불완전하고 불규칙한 데이터에서 이미지, 비디오, 심지어 오디오까지 재구성하는 방법을 학습하는 방법을 보여줍니다. MAE는 새로운 아이디어는 아니지만, Meta는 이 작업을 새로운 영역으로 확장했습니다.
정적 이미지나 비디오 또는 오디오 시퀀스에서 누락된 데이터를 예측하는 방법을 알아내려면 MAE 시스템이 월드 모델을 구축해야 한다고 르쿤은 말합니다. "비디오에서 무슨 일이 일어날지 예측하려면 세계가 3차원이라는 점, 어떤 물체는 무생물이고 스스로 움직이지 않는다는 점, 다른 물체는 움직이고 예측하기 어렵다는 점, 심지어 움직이는 사람의 복잡한 행동을 예측하는 것까지 이해해야 합니다."라고 그는 말합니다. AI 시스템이 정확한 세계 모델을 갖추면 그 모델을 사용하여 행동을 계획할 수 있습니다.
"자연계의 신호인 이미지는 중복성을 제거하도록 구성되지 않았습니다. 그렇기 때문에 JPG를 만들 때 압축을 잘 할 수 있습니다."
-로스 거식, Meta
"지능의 본질은 예측하는 법을 배우는 것입니다."라고 LeCun은 말합니다. 그는 Meta의 MAE 시스템이 인공 일반 지능에 가깝다고 주장하지는 않지만, 중요한 단계라고 생각합니다.
모든 사람이 메타 연구진이 인간 수준의 지능을 향한 올바른 길을 가고 있다는 데 동의하는 것은 아닙니다. 요슈아 벤지오 역시 튜링상 공동 수상자인 르쿤과 제프리 힌튼과 함께 심층 신경망 개발의 공로를 인정받고 있으며, 가끔 르쿤과 인공지능의 큰 아이디어를 놓고 우호적인 스파링을 벌이기도 합니다. 벤지오가 IEEE 스펙트럼에 보낸 이메일에서 두 사람의 목표에 대해 몇 가지 차이점과 유사점을 설명했습니다.
"저는 현재의 접근 방식(자가 학습이든 아니든)이 인간 수준의 지능에 도달하기에는 충분하지 않다고 생각합니다."라고 벤지오가 썼습니다. 그는 이 분야의 '질적 발전'이 이루어져야만 인간 수준의 AI에 근접할 수 있을 것이라고 덧붙입니다.
세상을 추론하는 능력이 지능의 핵심 요소라는 르쿤의 의견에 동의하지만, 벤지오의 팀은 예측할 수 있는 모델보다는 자연어 형태로 지식을 표현할 수 있는 모델에 초점을 맞추고 있습니다. 이러한 모델은 "이러한 지식을 결합하여 새로운 문제를 해결하고, 사실과 반대되는 시뮬레이션을 수행하거나, 가능한 미래를 조사할 수 있게 해줍니다."라고 그는 말합니다. 벤지오의 팀은 엔드투엔드 학습(초기 입력 단계와 최종 출력 결과 사이의 모든 단계를 학습하는 모델)을 연구하는 르쿤이 선호하는 것보다 더 모듈화된 특성을 가진 새로운 신경망 프레임워크를 개발했습니다.
트랜스포머 열풍
Meta의 MAE 작업은 트랜스포머라고 불리는 일종의 신경망 아키텍처에 대한 트렌드를 기반으로 합니다. 트랜스포머는 자연어 처리에 처음 도입되어 Google의 BERT와 OpenAI의 GPT-3와 같은 모델의 성능을 크게 향상시켰습니다. Meta AI 연구원인 로스 거식은 트랜스포머의 언어 성공으로 인해 컴퓨터 비전 커뮤니티의 사람들이 자신의 분야에서 이러한 결과를 재현하기 위해 "열렬히 노력"하게 되었다고 말합니다.
메타의 연구원들이 시각 작업에 트랜스포머를 성공적으로 적용한 것은 메타가 처음은 아니며, Girshick은 비전 트랜스포머(ViT)에 대한 Google의 연구가 메타 팀에 영감을 주었다고 말합니다. "ViT 아키텍처를 채택함으로써 일부 아이디어를 실험하는 데 걸림돌이 되었던 장애물을 제거할 수 있었습니다."라고 그는 Spectrum에 말합니다.
Girshick은 정적 이미지를 다루는 MAE 시스템에 관한 Meta의 첫 번째 논문을 공동 집필했습니다. 그 훈련은 BERT 및 기타 언어 변환기가 훈련되는 방식과 유사했습니다. 이러한 언어 모델에는 단어의 일부가 누락된, 즉 "마스킹된" 거대한 텍스트 데이터베이스가 표시됩니다. 모델은 누락된 단어를 예측하려고 시도한 다음 누락된 텍스트의 마스크를 해제하여 모델이 작업을 확인하고 매개변수를 조정한 다음 새로운 텍스트 덩어리로 다시 시도할 수 있도록 합니다. 시각에서도 비슷한 작업을 수행하기 위해 팀은 이미지를 패치로 나누고 일부 패치를 마스킹한 다음 MAE 시스템에 이미지에서 누락된 부분을 예측하도록 요청했다고 Girshick은 설명합니다.
팀의 혁신 중 하나는 이미지의 많은 부분을 마스킹하면 최상의 결과를 얻을 수 있다는 사실을 깨달은 것인데, 이는 단어의 15%만 마스킹하는 언어 변환기와는 큰 차이가 있습니다. "언어는 매우 밀도가 높고 효율적인 커뮤니케이션 시스템입니다."라고 Girshick은 말합니다. "모든 기호에는 많은 의미가 담겨 있습니다. 하지만 자연계의 신호인 이미지는 중복성을 제거하도록 만들어지지 않았습니다. 그렇기 때문에 JPG 이미지를 만들 때 압축을 잘 할 수 있습니다."라고 말합니다.
이미지의 75% 이상의 패치를 마스킹함으로써 이미지에서 훈련에 너무 사소한 작업이 될 수 있는 중복성을 제거한다고 Girshick은 설명합니다. 두 부분으로 구성된 MAE 시스템은 먼저 인코더를 사용하여 훈련 데이터 세트에서 픽셀 간의 관계를 학습한 다음, 디코더가 마스크된 버전에서 원본 이미지를 재구성하는 데 최선을 다합니다. 이 훈련이 완료되면 인코더를 분류 및 물체 감지와 같은 비전 작업에 맞게 미세 조정할 수도 있습니다.
"궁극적으로 우리가 흥분하는 이유는 다운스트림 작업에 대한 전이 학습에서 볼 수 있는 결과 때문입니다."라고 Girshick은 말합니다. 그는 물체 인식과 같은 작업에 인코더를 사용할 때 "바늘을 움직일 정도로 상당한 이득을 보고 있습니다."라고 말합니다. 그는 모델을 확장하면서 성능이 향상되었으며, 이는 SSL이 "수동 주석 없이도 많은 데이터를 사용할 수 있는 잠재력을 가지고 있기 때문에 향후 모델에 대한 희망적인 신호"라고 말합니다.
큐레이션되지 않은 대규모 데이터 세트에 대한 학습에 올인하는 것은 SSL의 결과를 개선하기 위한 Meta의 전략일 수 있지만, 점점 더 논란이 되고 있는 접근 방식이기도 합니다. 팀닛 게브루와 같은 AI 윤리 연구자들은 대규모 언어 모델이 학습하는 큐레이션되지 않은 데이터 세트에 내재된 편향성에 대해 주의를 촉구했으며, 때로는 비참한 결과를 초래하기도 합니다.
비디오 및 오디오의 자기 지도 학습
비디오용 MAE 시스템에서 마스킹은 각 비디오 프레임의 최대 95%를 가려냈는데, 이는 프레임 간의 유사성으로 인해 비디오 신호가 정적 이미지보다 훨씬 더 많은 중복성을 가지고 있기 때문입니다. 메타 연구원인 크리스토프 파이텐호퍼는 비디오에 대한 MAE 접근 방식의 큰 장점 중 하나는 비디오는 일반적으로 연산 요구량이 매우 높다는 점이라고 말합니다. 하지만 MAE는 각 프레임의 최대 95%를 마스킹함으로써 계산 비용을 최대 95%까지 절감할 수 있다고 그는 말합니다.
이 실험에 사용된 클립은 몇 초 길이에 불과했지만, 파이히텐호퍼는 긴 동영상으로 AI 시스템을 훈련시키는 것은 "매우 활발한 연구 주제"라고 말합니다. 그는 가상 비서가 집의 비디오 피드를 가지고 있고 한 시간 전에 열쇠를 어디에 두었는지 알려줄 수 있다고 상상해 보세요. (이런 가능성이 놀랍거나 소름 끼치는 일이라고 생각하시더라도 안심하셔도 됩니다.)
보다 즉각적으로는 이미지와 동영상 시스템이 Facebook과 Instagram의 콘텐츠 중재에 필요한 분류 작업에 유용하게 활용될 수 있다고 상상할 수 있으며, Feichtenhofer는 '무결성'이 가능한 응용 분야 중 하나라고 말합니다. 그는 "제품 팀과 확실히 이야기하고 있습니다."라며 "하지만 매우 새로운 기술이고 아직 구체적인 프로젝트는 없습니다."라고 말합니다.
곧 arXiv 프리프린트 서버에 게시될 오디오 MAE 작업을 위해 메타 AI 팀은 마스킹 기술을 적용하는 영리한 방법을 찾아냈습니다. 사운드 파일을 신호 내 주파수 스펙트럼을 시각적으로 표현한 스펙트로그램으로 변환한 다음, 해당 이미지의 일부를 마스킹하여 학습에 활용했습니다. 재구성된 오디오는 매우 인상적이지만, 현재 이 모델은 단 몇 초 분량의 클립만 처리할 수 있습니다.
오디오 예측
메타의 오디오용 마스킹 자동 인코더는 마스킹이 심한 데이터에 대해 학습한 후 인상적인 충실도로 오디오 파일을 재구성할 수 있었습니다.
오디오 시스템을 개발한 버니 황은 분류 작업, 패킷이 끊어졌을 때 손실되는 오디오를 채워 VoIP 통화를 지원하거나 오디오 파일을 더 효율적으로 압축하는 방법을 찾는 등의 잠재적 응용 분야가 있다고 말합니다.
메타는 이러한 MAE 모델과 같은 연구를 오픈소싱하고 연구 목적으로 사전 학습된 대규모 언어 모델을 AI 커뮤니티에 제공하는 등 AI의 매력에 빠져들고 있습니다. 그러나 비평가들은 이러한 연구 측면의 개방성에도 불구하고 메타가 뉴스피드, 추천, 광고 게재 위치를 제어하는 핵심 상업 알고리즘을 연구용으로 제공하지 않았다고 지적했습니다.
Comments