|
미래의 일반 에이전트를 위한 무한한 다양한 교육 환경 구축
오늘 우리는 Genie 2를 소개합니다. 이것은 구현된 에이전트를 훈련하고 평가하기 위한 무한한 다양한 액션 제어 가능하고 플레이 가능한 3D 환경을 생성할 수 있는 기초 세계 모델입니다. 단일 프롬프트 이미지를 기반으로 키보드와 마우스 입력을 사용하여 인간 또는 AI 에이전트가 플레이할 수 있습니다.
비디오 재생
게임은 인공지능(AI) 연구 분야에서 핵심적인 역할을 합니다. 게임의 매력적인 특성, 독특한 도전의 조합, 측정 가능한 진전은 AI 역량을 안전하게 테스트하고 발전시키기에 이상적인 환경을 제공합니다.
실제로 게임은 Google DeepMind가 설립된 이래로 중요했습니다. Atari 게임을 통한 초기 작업 부터 AlphaGo 와 AlphaStar 와 같은 획기적인 성과 , 게임 개발자와 협력한 일반 에이전트 에 대한 연구에 이르기까지 게임은 우리 연구의 중심이었습니다. 그러나 보다 일반적인 구체화된 에이전트를 훈련하는 것은 충분히 풍부하고 다양한 훈련 환경의 가용성으로 인해 전통적으로 병목 현상이 발생했습니다.
우리가 보여주듯이, Genie 2는 미래의 에이전트가 새로운 세계의 무한한 커리큘럼에서 훈련되고 평가받을 수 있도록 할 수 있습니다. 우리의 연구는 또한 대화형 경험을 프로토타입화하기 위한 새롭고 창의적인 워크플로우의 길을 열어줍니다.
기초 세계 모델의 새로운 역량
지금까지 세계 모델은 대체로 좁은 도메인을 모델링하는 데 국한되었습니다 . Genie 1 에서 우리는 다양한 2D 세계를 생성하는 접근 방식을 도입했습니다. 오늘 우리는 일반성에서 상당한 도약을 나타내는 Genie 2를 소개합니다. Genie 2는 방대한 다양성의 풍부한 3D 세계를 생성할 수 있습니다.
Genie 2는 월드 모델 로 , 모든 행동(예: 점프, 수영 등)의 결과를 포함하여 가상 세계를 시뮬레이션할 수 있습니다. 대규모 비디오 데이터 세트에서 학습되었으며 다른 생성 모델과 마찬가지로 객체 상호 작용, 복잡한 캐릭터 애니메이션, 물리 및 다른 에이전트의 행동을 모델링하고 예측하는 기능과 같은 다양한 새로운 기능을 대규모로 보여줍니다.
아래는 사람들이 Genie 2와 상호작용하는 예시 영상입니다. 모든 예시에서 모델은 GDM의 최첨단 텍스트-이미지 모델인 Imagen 3 에서 생성된 단일 이미지로 프롬프트됩니다 . 즉, 누구나 텍스트로 원하는 세계를 설명하고, 그 아이디어의 가장 마음에 드는 렌더링을 선택한 다음, 새로 만든 세계에 들어가서 상호작용할 수 있습니다(또는 AI 에이전트가 그 안에서 훈련되거나 평가받도록 할 수 있음). 각 단계에서 사람이나 에이전트는 키보드와 마우스 동작을 제공하고, Genie 2는 다음 관찰을 시뮬레이션합니다. Genie 2는 최대 1분 동안 일관된 세계를 생성할 수 있으며, 표시된 대부분의 예시는 10~20초 동안 지속됩니다.
액션 컨트롤
Genie 2는 키보드의 키를 눌러 캐릭터를 식별하고 올바르게 움직이는 동작에 지능적으로 반응합니다. 예를 들어, 우리 모델은 화살표 키가 나무나 구름이 아닌 로봇을 움직여야 한다는 것을 알아내야 합니다.
비디오 재생
숲속의 귀여운 인간형 로봇.
비디오 재생
고대 이집트의 인간형 로봇.
비디오 재생
보라색 행성에 있는 로봇의 1인칭 시점.
Pause video
대도시의 로프트 아파트에 있는 로봇의 1인칭 시점.
반사실적 사실 생성
우리는 동일한 시작 프레임에서 다양한 궤적을 생성할 수 있으며, 이는 에이전트를 훈련하기 위한 반사실적 경험을 시뮬레이션할 수 있다는 것을 의미합니다. 각 행에서 각 비디오는 동일한 프레임에서 시작하지만 인간 플레이어가 취하는 다른 행동이 있습니다.
비디오 재생
비디오 재생
긴 지평선 기억
제니 2는 더 이상 시야에 들어오지 않는 세계의 일부를 기억해 두었다가, 다시 시야에 들어오면 정확하게 렌더링할 수 있습니다.
비디오 재생
비디오 재생
비디오 재생
새로 생성된 콘텐츠를 사용한 긴 비디오 생성
Genie 2는 즉석에서 새로운 가능한 콘텐츠를 생성하고 최대 1분 동안 일관된 세계를 유지합니다.
비디오 재생
비디오 재생
다양한 환경
Genie 2는 1인칭 시점, 아이소메트릭 시점, 3인칭 운전 비디오 등 다양한 관점을 만들 수 있습니다.
비디오 재생
비디오 재생
비디오 재생
3D 구조
지니 2는 복잡한 3D 시각적 장면을 만드는 법을 배웠습니다.
비디오 재생
객체의 가능성과 상호작용
Genie 2는 풍선 터뜨리기, 문 열기, 폭발물 쏘기 등 다양한 물체 간 상호 작용을 모델링합니다.
비디오 재생
비디오 재생
비디오 재생
캐릭터 애니메이션
지니 2는 여러 유형의 캐릭터가 서로 다른 활동을 하는 모습을 애니메이션으로 표현하는 방법을 배웠습니다.
비디오 재생
비디오 재생
비디오 재생
NPC
Genie 2는 다른 에이전트와 이들과 복잡한 상호 작용을 모델링합니다.
비디오 재생
비디오 재생
비디오 재생
물리학
제니 2는 물 효과를 모델링합니다.
비디오 재생
비디오 재생
연기
Genie 2는 연기 효과를 모델링합니다.
비디오 재생
비디오 재생
중력
제니 2는 중력을 모델로 합니다.
비디오 재생
비디오 재생
조명
Genie 2는 포인트 조명과 방향 조명을 모델링합니다.
비디오 재생
비디오 재생
반사
Genie 2는 반사, 꽃 및 컬러 조명을 모델링합니다.
비디오 재생
비디오 재생
실제 세계 이미지에서 재생
Genie 2는 실제 세계의 이미지를 사용하여 바람에 흔들리는 풀이나 강물에 흐르는 물을 모델링할 수도 있습니다.
비디오 재생
비디오 재생
Genie 2는 실제 사진으로 만들어졌습니다.
Genie 2는 빠른 프로토타입 제작을 가능하게 합니다.
Genie 2를 사용하면 다양한 대화형 경험을 빠르게 프로토타입화하여 연구자가 새로운 환경에서 빠르게 실험하고 구현된 AI 에이전트를 훈련하고 테스트할 수 있습니다.
예를 들어, 아래에서는 Imagen 3에서 생성한 다양한 이미지를 사용해 Genie 2에게 종이비행기, 용, 매, 낙하산을 날리는 모습의 차이점을 모델링하고 Genie가 다양한 아바타를 얼마나 잘 애니메이션으로 표현할 수 있는지 테스트합니다.
비디오 재생
비디오 재생
비디오 재생
비디오 재생
Genie 2를 사용하면 다양한 대화형 경험을 빠르게 프로토타입으로 제작할 수 있습니다.
Genie 2의 배포 외 일반화 기능 덕분에 컨셉 아트와 도면을 완전히 상호 작용적인 환경으로 전환할 수 있습니다. 이를 통해 아티스트와 디자이너는 빠르게 프로토타입을 제작할 수 있으며, 환경 디자인을 위한 창의적 프로세스를 부트스트랩하여 연구를 더욱 가속화할 수 있습니다.
여기서는 컨셉트 아티스트가 만든 연구 환경 컨셉의 예를 보여드립니다.
Max Cant의 환경 컨셉
비디오 재생
지니2
Max Cant의 환경 컨셉
비디오 재생
지니2
세계 모델 내부에서 작동하는 AI 에이전트
Genie 2를 사용하여 AI 에이전트를 위한 풍부하고 다양한 환경을 빠르게 생성함으로써, 저희 연구자들은 에이전트가 훈련 중에 보지 못했던 평가 과제를 생성할 수도 있습니다. 아래에서는 게임 개발자와 협력하여 개발한 SIMA 에이전트의 예를 보여드리며, Genie 2가 단일 이미지 프롬프트를 통해 합성한 보이지 않는 환경에 대한 지침을 따릅니다.
Imagen 3에서 생성된 이미지
프롬프트: "3인칭 오픈 월드 탐험 게임의 스크린샷. 플레이어는 숲을 탐험하는 모험가입니다. 왼쪽에 빨간색 문이 있는 집이 있고, 오른쪽에 파란색 문이 있는 집이 있습니다. 카메라는 플레이어 바로 뒤에 배치됩니다. #사실적 #몰입형"
SIMA 에이전트는 자연어 지시를 따라 다양한 3D 게임 세계에서 작업을 완료하도록 설계되었습니다. 여기서 우리는 Genie 2를 사용하여 파란색과 빨간색의 두 개의 문이 있는 3D 환경을 생성하고 SIMA 에이전트에게 각 문을 여는 지침을 제공했습니다. 이 예에서 SIMA는 키보드와 마우스 입력을 통해 아바타를 제어하는 반면 Genie 2는 게임 프레임을 생성합니다.
비디오 재생
"파란색 문을 열어"라는 프롬프트
비디오 재생
"빨간 문을 열어"라는 메시지를 표시합니다.
SIMA를 사용하여 Genie 2의 기능을 평가할 수도 있습니다. 여기서 우리는 SIMA에 주변을 둘러보고 집 뒤를 탐험하라고 지시하여 일관된 환경을 생성하는 Genie 2의 능력을 테스트합니다.
비디오 재생
"뒤돌아보세요"라는 메시지를 표시합니다.
비디오 재생
"집 뒤로 가세요"라는 메시지
이 연구는 아직 초기 단계이며 에이전트와 환경 생성 기능 모두에서 개선의 여지가 많지만, Genie 2는 AGI로 발전하는 데 필요한 폭과 일반성을 달성하는 동시에 구현된 에이전트를 안전하게 훈련하는 구조적 문제를 해결할 수 있는 길이라고 믿습니다.
Imagen 3에서 생성된 이미지
프롬프트: "거칠게 다듬은 돌 동굴이나 광산 내부의 장면을 보여주는 컴퓨터 게임 이미지. 시청자의 위치는 플레이어 아바타 위에 있는 3인칭 카메라로 아바타를 내려다보고 있습니다. 플레이어 아바타는 검을 든 기사입니다. 기사 아바타 앞에는 돌로 된 아치형 문이 x3개 있고 기사는 이 문 중 하나를 선택합니다. 첫 번째 문을 지나 안쪽으로 들어가면 터널에 빛나는 꽃이 있는 이상한 녹색 식물이 보입니다. 두 번째 문 안과 그 너머에는 동굴 벽에 못으로 고정된 가시가 있는 철판 복도가 있으며, 더 나아가면 불길한 빛이 보입니다. 세 번째 문을 통해 신비한 목적지로 올라가는 거칠게 다듬은 돌계단을 볼 수 있습니다."
비디오 재생
"계단을 올라가세요"라는 프롬프트
비디오 재생
“식물이 있는 곳으로 가세요”라는 메시지를 표시합니다.
비디오 재생
“중간 문으로 가세요”라고 말하세요
확산 세계 모델
Genie 2는 대규모 비디오 데이터 세트에서 학습된 자기 회귀 잠재 확산 모델 입니다. 자동 인코더를 통과한 후 비디오의 잠재 프레임은 대규모 언어 모델에서 사용하는 것과 유사한 인과 마스크로 학습된 대규모 변압기 역학 모델로 전달됩니다.
추론 시점에 Genie 2는 자기 회귀 방식으로 샘플링되어 개별 액션과 과거 잠재 프레임을 프레임별로 취할 수 있습니다. 우리는 분류자 없는 안내를 사용하여 액션 제어성을 개선합니다.
이 블로그 게시물의 샘플은 무엇이 가능한지 보여주기 위해 증류되지 않은 기본 모델에서 생성되었습니다. 우리는 출력의 품질이 저하된 증류된 버전을 실시간으로 재생할 수 있습니다.
책임감 있는 기술 개발
Genie 2는 다양한 3D 환경을 만들고 에이전트 연구를 가속화하기 위한 기초적인 세계 모델의 잠재력을 보여줍니다. 이 연구 방향은 초기 단계에 있으며, 우리는 일반성과 일관성 측면에서 Genie의 세계 생성 기능을 계속 개선하기를 기대합니다.
SIMA와 마찬가지로 , 저희의 연구는 사람들에게 온라인과 현실 세계에서 도움이 되는 방식으로 광범위한 작업을 이해하고 안전하게 수행할 수 있는 보다 일반적인 AI 시스템과 에이전트를 구축하는 데 중점을 두고 있습니다.
흥미로운 아웃테이크
Pause video
아무런 행동도 취하지 않은 상태에서 정원에 유령이 나타난다
Pause video
이 캐릭터는 스노보딩보다 파쿠르를 더 선호합니다.
Pause video
큰 힘에는 큰 책임이 따른다.
|