|
SNS 기사보내기
SNS 기사보내기페이스북(으)로 기사보내기 트위터(으)로 기사보내기 카카오톡(으)로 기사보내기 네이버블로그(으)로 기사보내기 AI타임스 유튜브
최대 1분짜리 고 퀄리티 동영상 생성...라이벌 런웨이 "게임 시작"
서라가 생성한 비디오. “한 세련된 여성이 네온사인과 간판으로 가득한 도쿄 거리를 걷고 있다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있으며, 선글라스를 쓰고 빨간 립스틱을 발랐다. 그녀는 자신감 있고 자연스럽게 걷는다. 길은 축축하고 반사된 화려한 조명이 거울 효과를 만들어 내며, 많은 보행자가 걸어다니고 있다"라는 프롬프트를 사용했다. (사진=오픈AI)
오픈AI가 처음으로 비디오 생성 인공지능(AI) 모델을 내놨다. 놀라운 영상 퀄리티에 이 분야 선두인 런웨이의 CEO는 "게임이 시작됐다"라는 코멘트를 남겼다. 치열한 경쟁이 펼쳐지는 동영상 생성 AI 분야에 지각 변동을 일으킬만하다는 평가다.
벤처비트는 15일(현지시간) 오픈AI가 텍스트를 입력하면 최대 1분 길이의 동영상을 생성해 주는 AI 모델 '소라(Sora)'를 공개했다고 보도했다.
오픈AI는 "여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 동영상을 빠르게 제작할 수 있다"라며 "언어를 깊게 이해하고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다"라고 밝혔다.
현재 대부분 동영상 생성 AI의 결과물은 15~20초에 불과하다. 게다가 소라가 생성한 이미지 퀄리티도 대단하다.
관련 영상이 공개되자 크리스토발 발렌수엘라 런웨이 CEO는 X(트위터)에 ‘게임 시작(game on)’이라는 짤막한 글을 올렸다. 런웨이는 동영상 생성 AI의 선두로 평가받는 업체다.
크리스토발 발렌수엘라 런웨이 CEO의 게시물 (사진=X)
소라는 '챗GPT'와 마찬가지로 트랜스포머(Transformer) 아키텍처 기반이다. 오픈AI는 소라를 이미지 생성 AI '달리'와 GPT 모델에 대한 과거 연구를 기반으로 개발했다고 설명했다. 소라는 동영상과 이미지를 '패치'라는 작은 데이터 단위 모음으로 표현하며, 각 패치는 언어모델의 '토큰'과 유사한 방식으로 작동한다.
전체 동영상을 한번에 생성하거나 생성된 동영상을 확장해 더 길게 만들 수 있다. 한번에 여러 프레임을 예측할 수 있는 기능을 제공한다. 이에 따라 피사체가 일시적으로 시야에서 사라져도, 동일하게 유지하는 까다로운 문제도 해결했다.
소라는 텍스트 설명만으로 또는 기존의 정지 이미지를 통해서도 동영상을 생성할 수 있다. 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채우는 기능도 갖췄다.
물론 대부분 동영상 AI가 그렇듯, 아직 소라도 완벽하지는 않다. 오픈AI는 복잡하고 물리적인 장면을 묘사하는 데 어려움을 겪을 수도 있고, 인과관계를 이해하지 못하는 경우도 발생한다고 밝혔다.
예를 들어 사람이 쿠키를 한입 베어 무는 장면에 이어 쿠키를 깨문 자국이 나타나지 않을 수 있다는 설명이다. 또 왼쪽과 오른쪽을 혼동하거나, 특정 카메라 궤적을 따라가는 동안 발생하는 이벤트에 대해 시간 순서를 헷갈리기도 한다고 전했다.
현재 오픈AI는 당분간 소라를 시각 예술가, 디자이너, 영화 제작자 등 제한된 수의 크리에이티브 전문가에게만 공개하고 피드백을 받고 있다.
특히 본격 출시에 앞서 AI 시스템의 결함과 취약점을 찾는 ‘레드팀’에 맡겨 안전성 여부를 평가할 계획이다. 소라와 같은 동영상 생성 서비스가 가짜뉴스나 딥페이크 등에 악용될 가능성이 있기 때문이다.
아울러 오픈AI는 소라가 생성한 영상이 식별되도록 하는 도구도 개발 중이라고 밝혔다.
소라로 생성한 비디오 (사진=오픈AI)
오픈AI의 가세로 동영상 생성 AI 개발 경쟁이 뜨겁게 달아오를 전망이다.
런웨이는 지난해 6월 획기적인 기능을 갖춘 ‘젠2’를 출시하며 단번에 업계 선두로 지목됐다. 11월에는 스태빌리티 AI가 ‘스테이블 비디오 디퓨전’을, 메타가 ‘에뮤’ 비디오 생성기를 공개했다. 미드저니도 조만간 비디오 모델을 내놓을 것으로 알려졌다.
또 지난달에는 구글이 새로운 시공간 확산 모델 ‘루미에르’를 발표했으며, MS가 비디오 프레임의 움직임을 조작하는 비디오 생성 모델 ‘드래그누와’를, 바이트댄스는 ‘매직비디오-V2)'를 공개했다.
심지어 애플도 전날 대형언어모델(LLM)을 활용해 동영상을 생성하는 ‘키프레이머(Keyframer)’를 공개했다.
박찬 기자 cpark@aitimes.com
1 구글, LLM이 스스로 성능 향상하는 '자기 발견' 프롬프트 방식 공개
2 'AI 안경' 또 등장...AR보다는 AI 기능에 집중
3 오픈AI, 첫 동영상 생성 AI '소라' 공개...동영상 분야 지각변동 예고
4 애플, '언어 모델'만으로 동영상 만들어주는 획기적 기술 공개
6 "AI가 생성한 잘못된 자료 포함"...과학 저널서 논문 삭제
7 스태빌리티 AI, 효율·품질 향상한 이미지 생성 AI '스테이블 캐스케이드' 출시
8 엔비디아, AI PC에서 맞춤형 챗봇 만드는 도구 공개
9 "영농형 태양광, 단독 태양광·농업 시설보다 더 많은 가치 창출"
10 KAIST, 100큐비트 양자컴퓨터 계산데이터 전격 공개
|