[4월2주] 메타가 공개한 AGI로 가는 방법,
'V-제파'란
얀 르쿤 메타 AI 수석과학자가 생성 AI의 기반인 '트랜스포머'와는 다른 새로운 아키텍처의 모델, '제파(JEPA)'를 개발 중이라고 밝혔습니다. 이를 통해 기존 대형언어모델(LLM)의 한계를 넘어 인간처럼 추론하고 계획하는 인공일반지능(AGI)으로 가는 길을 열어줄 것이라고 설명했습니다.
하지만 제파는 이번 발표가 나오기 전까지는 제대로 조명받은 적이 없는데, AI타임스는 지난 2월 'V-제파(Video Joint Embedding Predictive Architecture)'라는 연구를 소개한 바 있습니다. 이를 다시 간단하게 정리해 봤습니다.
메타는 이 모델을 "세상에 대한 기초적인 이해를 통해 기계 지능을 발전시키는 데 중요한 단계"라고 소개합니다.
이 모델은 인간이 주변 세계를 배우는 경우와 같이 인공지능(AI) 모델도 물리적인 세계를 경험함으로써, 수천권의 책을 읽는 것보다 더 실질적이고 유용한 지식을 얻게 한다는 의도입니다. 이를 가능하게 하기 위해 비디오, 즉 시각으로 세계를 학습하는 방식을 채택했습니다.
V-제파는 간단하게 말하면 추상적인 표현 공간에서 비디오의 누락되거나 가려진 부분을 예측해 학습하는 비생성 모델입니다. 이는 기존 생성 AI처럼 이미지의 픽셀을 채우려는 대신, 이미지의 개념을 이해하고 나머지 부분을 예측하는 방법입니다.
이를 통해 현실 세계에서 일어나는 개체 간 상호작용을 이해하고 예측할 수 있다는 설명입니다. 여기에 V-제파에게 어떤 비디오를 보여줘도 스스로 학습하고 이해할 수 있다고 합니다.
기존 LLM을 학습하려면 데이터에 라벨, 즉 인간이 설명을 달아줘야 했습니다. 하지만 V-제파는 그럴 필요가 없다는 것입니다. 이는 누가 옆에서 설명해 주지 않아도, 아이들이 지켜보는 것만으로 상황을 학습하는 것과 마찬가지입니다.
2022년에 처음으로 제파를 제안한 르쿤 수석은 이처럼 "V-제파는 스스로 개념을 이해하기 위해 추론하고, 이에 따라 가려진 부분을 예측하는 모델"이라고 강조합니다. "우리의 목표는 인간처럼 더 많은 것을 배울 수 있는 고급 기계 지능을 구축해 효율적으로 학습하고, 적응하고, 계획을 세우는 모델을 만드는 것"이라고 설명합니다.
또 이런 능력 때문에 인간의 지시를 이해하고 스스로 계획을 짜서 수행하는 AI 에이전트를 만들 수 있다고 밝혔습니다.
이처럼 제파에는 ▲'트랜스포머'가 아닌 비생성 구조 ▲물리 세계를 이해하는 AI ▲스스로 추론하고 계획하는 AI 에이전트 등의 개념이 혼합돼 있습니다. 이는 많은 전문가들이 지적한 차세대 AI의 조건들이 포함돼 있습니다. 자세한 내용은 메타 블로그에서 확인할 수 있습니다.
아직 AGI까지는 아니더라도, 최근 LLM 도입으로 비약적으로 발전하는 로봇 공학의 새로운 대안이 될 수 있을 것이라는 분석입니다. 르쿤 수석이 이를 바탕으로 어떤 발전을 이룰지 주목됩니다.