https://www.itfind.or.kr/streamdocs/view/sd;streamdocsId=3dFS29b1e3YG3BnKJlhmoWMwjixBZOTk2FZH56YXx5M
[ ITFIND Vol.2127ㆍ
2024년 3월 27일 발행본에서 발췌했음 ]
발췌일; 2024 3 27 수ㆍ오전07시45분ㆍ
생성형 AI 현황 및 전망
I. 서론
생성형 AI(Generative AI)는 크게 텍스트 생성(text generation), 이미지 생성(image generation), 비디오 생성(video generation)으로 나누어 볼 수 있고, 텍스트 생성에서는 챗GPT LLM(Large Language Model), 이미지 생성에서는 Midjourney의 텍스트로 이미지 생성(text-to-image), 비디오 생성에서는 Runaway Gen의 텍스트로 영상 생성(text-to-video) 및 이미지로 영상 생성(Image-to-video)를 대표적으로 이야기하고 있다.
많은 놀라움과 활용성을 보여준 챗GPT뿐만 아니라 이미지 생성, 비디오 생성에 이어 멀티모달까지 빠르게 변화하고 있으며, 해외 빅테크들, 특히 미국과 중국에서 2023년 하반기에 LLM뿐만 아니라 이미지, 비디오, 사운드/뮤직, 3D, 멀티모달(multi modal)까지 엄청나게 많은 기술 발표들이 쏟아져 나오며, 기술 경쟁까지 벌이는 모습을 보여주고 있다.
생성형 AI 글로벌 시장은 2028년 77조로 확대되고 10배 성장할 것이며, 혁신적이고 파괴적이라고 파이낸셜타임스가 옴디아 보고서를 통해 보도하였고[1],
AI 에이전트가 2028년 이내 컴퓨팅을 완전히 변경하고 사람들은 말만 하면 모든 작업을 처리할 수 있으며,
개인의 생활과 비즈니스, 사회까지 혁신할 것이라고 빌 게이츠는 말하였다[2].
본 고에서는 2021년부터 시작된 이미지 생성 DALL-E를 시작으로 2022년 말 텍스트 생성 챗GPT, 2023년 비디오 생성 Runway Gen 그리고 이어지는 최신 멀티모달까지 국내외 생성형 AI 기술들과 서비스들을 살펴보고, 향후 전망에 대해서 제시한다.
II. 이미지 생성 기술:
2021년 1월~챗GPT보다 먼저 OpenAI에서 2021년 1월에 텍스트로 이미지를 생성하는 AI 달리(DALL-E)와 텍스트, 이미지를 연결해 주는 CLIP을 발표하였다. 달리는 텍스트를 통해 이미지 생성이 가능함을 보여주었으며, 텍스트-이미지 쌍의 데이터 세트를 사용하여 텍스트 설명에서 이미지를 생성하도록 훈련된 120억 개의 파라미터를 가진 모델이었다. 2022년 4월에 DALL-E 2를 발표하며 좀 더 향상된 이미지 품질을 보여주었고,
특정 일부분을 수정하는 inpaint, 이미지 외부 영역을 확장 생성해 주는 outpaint 등으로 발전되었다.
2023년 9월에는 DALL-E 3를 발표하며 높은 이미지 품질 향상을 이루었으며, 챗GPT와 연동하여 주목받았다.
이후 마이크로소프트와의 제휴로 빙 이미지 크리에이터(bing image creator)에서 사용되었다.
성공적인 이미지 생성 상용 서비스는 2022년 7월에 나온 미드저니(Midjourney)였다.
미드저니는 택스트를 기반으로 이미지를 생성하는 서비스로, 디스코드를 통해 기본요금제는 월 10달러에 이용할 수 있다.
미드저니는 VC 투자도 거부하고 유니콘으로 성공한 것으로도 유명하며 많은 사람들이 이미지 생성을 사용하게 하였다. ~
{이하 원문 (링크) 참조 바랍니다}
----
감사합니다ㆍ