특이점이 와버린 동영상 생성 AI

<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin" data-link="http://cafe.daum.net/subdued20club/ReHf" data-link-newwindow="_blank"><a href="http://cafe.daum.net/subdued20club/ReHf" target="_blank" class="ke-link"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/db3bc991cc811264a000cb9ff8aa909ffe0048c9" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/db3bc991cc811264a000cb9ff8aa909ffe0048c9" data-origin-width="474" data-origin-height="227"></a></div>출처 : <a href="https://www.fmkorea.com/6727119102" target="_blank" class="ke-link">https://www.fmkorea.com/6727119102</a>  <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/b13ea0ee43d3d4dd14caa55fa4de585750168846" class="txc-image" width="1108" height="463" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/b13ea0ee43d3d4dd14caa55fa4de585750168846" data-origin-width="1108" data-origin-height="463"></div>챗GPT를 만든 오픈AI가 어제 공개한 동영상 생성 AI sora 오픈AI의 컴퓨팅 성능과 막대한 자본 그리고 그들의 능력까지 고려한다면 큰 기대가 되는 모델이었음.  그 결과... <div class="figure-video" data-ke-type="video" data-video-url="https://kakaotv.daum.net/embed/player/cliplink/rvvkthnyliwko3ej50glxcyz5@my?service=daum_cafe" data-video-host="kakaotv" data-video-play-service="daum_cafe" data-video-width="712" data-video-height="400" data-ke-style="alignCenter" data-video-thumbnail="https://thumb.kakaocdn.net/dna/kamp/source/rvvkthnyliwko3ej50glxcyz5/thumbs/2.jpg?credential=TuMuFGKUIcirOSjFzOpncbomGFEIdZWK&expires=33265209374&signature=0O5HdwIDs79NU7kKrdvR70Y7exM%3D" data-ke-mobile-mobileStyle="widthFull" data-video-origin-width="712" data-video-origin-height="400"><iframe src="https://kakaotv.daum.net/embed/player/cliplink/rvvkthnyliwko3ej50glxcyz5@my?service=daum_cafe&ptoken=v2_d773d70c001542ecb76b29e8a89a82fe983ad831081bada5b699d3d457d30dc890a09c0da581a3fb043b985b2d136d92e972ce5f14bb3563e0f7b99a81" width="712" height="400" frameborder="0" scrolling="no" allowfullscreen="" allow="encrypted-media"></iframe><div class="figcaption"></div></div>??? 간판 글자, 반사 이상한거 외에는 실제 동영상이라고해도 믿을 수 있을 정도 결과물이 나왔음.   AI야 무한루프되는 산에서 자전거 타는 영상 만들어줘!<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/11df355061ab54ff79bb7c80aa96d16abf994ad2" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/11df355061ab54ff79bb7c80aa96d16abf994ad2" data-origin-width="372" data-origin-height="210"></div> 자전거 타는 영상인데 무한루프되는 영상도 만들 수 있음  AI야 마인크래프트 영상 만들어줘! <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/90f2cdf7763cb0c40fb05a8c276ab9386d589ac6" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/90f2cdf7763cb0c40fb05a8c276ab9386d589ac6" data-origin-width="320" data-origin-height="180"></div> 뭔가 이상한 마인크래프트도 만들 수 있음   AI야 전철 안에서 동영상 찍은거 만들어줘!  <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/23a4c461334938da77d0e953c60bf387e211c65a" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/23a4c461334938da77d0e953c60bf387e211c65a" data-origin-width="492" data-origin-height="276"></div>    짜잔   특이점이 왔다 라고 끝내려고 했는데 이미 다른 글들이 <a style="color: #0189dd;" href="https://www.fmkorea.com/6726666103" target="_top" class="ke-link">포텐</a> 가버려서기술적 부분에 집중한 글을 더 써드리도록 하죠.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/60c9723061dcbdd43e584dd1a652a0f90419123a" class="txc-image" width="1280" height="238" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/60c9723061dcbdd43e584dd1a652a0f90419123a" data-origin-width="1280" data-origin-height="238"></div> 오픈ai의 접근도 여타 다른 AI 비디오 생성 접근 방식과 크게 다르지는 않은 것 같음. 비디오에서 특징을 추출해서 잠재공간(특징을 컴퓨터가 이해할 수 있는 함수 형태로 바꿔놓고 펼쳐놓은 공간)으로 전개를 해놨음.또 잠재공간만으로는 해결 할 수 없는 일관성을 해결하기 위해서 patches라는 일시적 연속성 정보를 담고 있는 형태로 압축한 잠재공간을 도입했음.  그래서 작동 원리를 간단하게 말하자면이제 사용자가 글자로 인풋을 써주면, gpt같은 언어를 이해하는 모델이 글을 이해해서 적절한 잠재공간을 생성함. 그리고 그 잠재공간 사이에 패치를 이용해서 연속성을 확보하고 점점 그럴듯해지는 영상을 만드는 것임. (물론 이런 설명으로는 부족하지만 오픈AI가 기술 백서를 대충 써놨음) 그 결과 위와 같은 결과가 나왔는데, 저게 사실은 엄청난 컴퓨팅 능력으로 구현된 결과라는 점이 개인 입장에서는 아직까지는 아쉬운 점임. 오픈 AI가 사용하는 GPU가 H200인데H200 한대가 RTX 4090의 대략 25배의 성능, 6배 메모리임. 근데 그거 한대가지고 만드는 영상은 <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1IHuH/51f260560dee9083e303c16f68fe9719dbf02d63" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1IHuH/51f260560dee9083e303c16f68fe9719dbf02d63" data-origin-width="520" data-origin-height="520"></div> 이런 이상한 영상밖에 못만듦.  저런 H200 16대를 사용해야지만 (대략 4090의 400배 성능, 150배 메모리) 위에서 봤던 그럴듯한 동영상이 나오는것임. 즉, 개인이 집안에서 개인용 컴퓨터로 퀄리티 있게 만들려면 10년은 기다려야 한다는 점 끝!