|
챗GPT가 쏘아 올린 AI 전쟁의 신호탄, 승자는 누가 될 것인가?
KDI 경제정보센터 자료연구팀2023년 02호
다운로드
글로벌 AI 기술 동향
챗GPT가 쏘아 올린 AI 전쟁의 신호탄,
승자는 누가 될 것인가?
- 초거대 AI 기반 생성 AI 기술 동향 - 2023년은 ‘AI 격전의 해’라고 해도 과언이 아닐 것이다. 생성 AI 시장을 선점한 OpenAI는 퍼스트 무버를 넘어 시장 지배자가 될 것인가? 챗GPT의 거센 열풍 속에서 기술 발전 동향과 각 플레이어의 행보를 살펴본다.
KDI 경제정보센터 자료연구팀
구분선
2022년 말, 전(全) 세계를 뒤흔들 새로운 게임 체인저가 등장했다. 바로 ‘챗GPT’가 그 주인공이다. 블록체인, 메타버스, NFT 열풍을 거쳐 단순히 다음 차례로 넘어온 걸까? [그림 1] 구글 검색 트렌드에서는 2022년 초 정점을 찍은 NFT 검색량이 서서히 감소하고, 2022년 말부터 챗GPT가 빠르게 치고 올라오는 모습을 볼 수 있다.
[그림 1] 전세계 구글트렌드 검색량 추이
출처: 구글 트렌드
이처럼 뜨고 지기를 반복하는 기술 트렌드에 보폭을 맞추기란 여간 어려운 일이 아니다. 다만, 챗GPT의 경우 등장과 동시에 빠른 속도로 일상 곳곳에 녹아들었다는 점에서 조금 다른 양상을 보인다. 제프리 A. 무어(Geoffrey A. Moore)의 캐즘 이론주1)에 따르면 한 기술 혹은 서비스가 대중화되려면 초기 시장과 주류 시장 사이에 있는 틈(chasm)을 뛰어넘어야 한다. 이를 넘지 못한다면 쇠퇴하지만, 넘는 순간 관련 서비스가 대거 등장하며, 그 확산 속도도 가속화된다고 설명한다. 실제로 투자은행 UBS 자료에 따르면 챗GPT의 활성 사용자 수(MAU)주2)가 두 달 만에 1억 명을 돌파한 것으로 나타났다. 틱톡(TikTok)은 9개월, 인스타그램(Instagram)은 30개월이 소요된 것과 비교했을 때, 그 확장성은 가히 무궁무진하다.
주1) 캐즘(chasm)은 지층 사이의 틈을 가리키는 용어로, 첨단 기술과 서비스가 대중화되기 전에 겪는 침체기를 비유
주2) 월 단위로 한 번이라도 접속한 사람 수
[그림 2] 기술 수용 주기 및 캐즘 이론
출처: Rogers(1963), Geoffrey A. Moore & Regis McKenna(1991)
그렇다면 기존의 AI와는 무엇이 다른 것일까? 챗GPT는 대규모 언어 모델(Large Language Model, LLM) 기반의 생성 인공지능(Generative AI) 인터페이스에 속한다. 간단히 말해 인간의 뇌 구조를 모방한 인공신경망이 다량의 데이터를 학습해 마치 사람처럼 응답하는 챗봇이라고 할 수 있겠다. 이들은 단순히 정해진 일정 범위 내에서 응답하던 수준에서 벗어나 일반 검색 기능을 제공하는 건 물론이고 학교 과제, 자기소개서, 업무 보고서를 의도에 맞게 작성하고, 심지어 요청에 따라 이미지나 동영상을 생성하기도 한다. 이처럼 범용성을 지닌 AI의 등장에 위기를 느낀 구글(Google), 메타(Meta) 바이두(Baidu), 네이버 등 국내외 주요 IT 기업들은 서둘러 관련 기술을 다듬어 시장에 내놓거나 출시일을 예고한 상황이다. 과연 2023년은 ‘AI 격전의 해’라고 해도 과언이 아니다. 챗GPT의 거센 열풍 속에서 기술의 발전 과정과 더불어 각 플레이어의 행보를 살펴본다.
사전 훈련 언어 모델, 파운데이션 모델, 초거대 AI… 개념과 범위의 확장
소위 ‘초거대 AI’로 불리는 인공지능에 대한 정의를 찾아보면, ‘사전 훈련 언어 모델(Pre-trained Language Model, PLM)’, ‘대규모 언어 모델(Large Language Model, LLM)’, ‘파운데이션 모델(Foundation Model)’, ‘생성 AI(Generative AI)’ 등의 용어가 통상적으로 등장한다. 물론 국내외 쓰임새가 다르고, 개념적으로 혼재돼 있어 이들 간의 관계를 명확히 설명하기에는 한계가 있다. 그럼에도 하나의 중론은 자연어 처리(Natural Language Processing, NLP) 분야주3)의 언어 모델(Language Model)이 기술적 진보에 따라 대규모화되며, 그 개념과 범위가 확장됐다는 점이다. 여기서 언어 모델이란 단어 시퀀스(sequence)에 확률을 부여하는 모델로, 쉽게 말해 하나의 단어 다음에 등장할 단어를 예측하는 모델을 말한다. 즉, ‘사전 훈련 언어 모델’ 내지는 ‘대규모 언어 모델’은 방대한 문장 데이터로 다음 단어 찾기 훈련을 거친 모델을 일컫는 용어다.
주3) 자연어를 분석하고 인공어로 처리하는 기술
어릴 적 독서를 많이 한 친구가 독해나 작문 역량도 뛰어나듯이, 대규모 언어 모델은 약간의 추가 학습(transfer learning)을 거치면 질문 응답, 번역, 정보 요약 등 다양한 일(task)을 수행하는 독특한 능력이 발현됐다주4). 해당 특성을 포착한 美 스탠퍼드대는 2020년「On the Opportunities and Risks of Foundation Models」 논문을 통해 ‘파운데이션 모델(Foundation Model)’이라는 새로운 개념을 탄생시켰다. 연구진들은 파운데이션 모델이 이미지, 동영상, 음성 등 다른 분야로 확장될 수 있다는 점에서 자연어 처리 한 분야에 국한된 것이 아니라 AI 패러다임(general paradigm of AI) 그 이상의 의미를 지닌다고 설명한다.
주4) 논문에서는 인공지능이 예상외의 능력을 발휘하는 것을 ‘창발(emergence)’로 표현함.
국내에서는 파운데이션 모델을 ‘초거대 AI’로, 자연어에서 이미지 처리까지 확장된 모델을 ‘초거대 멀티모달 AI’로 부르고 있다. 아울러, 초거대 AI에 기반해 텍스트, 이미지, 동영상 등을 만들어 내는 기술과 서비스를 지칭하는 용어로 ‘생성 AI’가 통용되고 있다. 이를 정리하면 아래 <표 1>과 같다.
<표 1> 자연어 처리(NLP) 분야 용어 정리
출처: KDI 경제정보센터 자료연구팀
초거대 AI ‘규모 → 효율’로 개발 트렌드 변화, 맞붙는 첫 격전장은 AI 챗봇…
초거대 AI를 둘러싼 쟁탈전은 이미 시작되었다. 초거대 AI 개발은 방대한 데이터와 고성능 컴퓨팅 파워가 필수인 만큼, 이를 감당할 수 있는 빅테크 기업을 중심으로 이뤄져 왔다. 초거대 AI 경쟁이 본격화된 시점은, 2020년 OpenAI가 1,750억 개에 달하는 매개변수를 가진 GPT-3를 선보이면서다. GPT-3의 등장으로 매개변수가 많을수록 성능이 뛰어나다는 통념이 자리 잡으며, 점차 크기 경쟁에 불이 붙게 됐다. 2021년 구글의 Switch-C는 1.6T, 중국 베이징 AI 아카데미(BAAI)의 Wu Dao 2.0은 무려 1.75T에 달한다([그림 3] 참조). 문제는 역시 비용이다. GPT-3(175B) 훈련 1회에 1,200만 달러가 소요된다고 했을 때, 규모를 키울수록 천문학적인 비용이 따를 수밖에 없는 구조다. 이러한 한계로 인해 최근에는 모델의 크기보다 효율성을 높이는 방향으로 트렌드가 변화하고 있다주5).
주5) 2023년 2월 Meta는 적은 매개변수로도 우수한 성능을 보이는 대규모 언어 모델 LLaMA(65B) 공개
[그림 3] 초거대 AI 개발 동향(파라미터 수)
출처: KDI 경제정보센터 자료연구팀
<표 2> 주요 초거대 AI 현황
출처: KDI 경제정보센터 자료연구팀
그렇다면 기업들이 초거대 AI에 주목하는 이유는 무엇일까? 바로 산업 전반에 걸친 ‘범용성’이다. GPT-3.5를 챗봇으로 구현한 챗GPT만 하더라도 검색엔진 시장의 게임 체인저로 거론되는 등 상당한 사회적 파장을 몰고 왔다. 특히, AI 챗봇은 초거대 AI가 맞붙은 첫 격전장인 만큼 시사하는 바가 크다. 현재 OpenAI의 ‘챗GPT’와 구글의 ‘바드(Bard)’가 AI 최전선에서 힘겨루기를 하고 있고, 이에 질 수 없는 중국의 바이두, 한국의 네이버 등에서도 관련 서비스 출시를 예고한 상황이다. 이처럼 초거대 AI는 더 이상 체감할 수 없는 기술이 아니라 우리 일상 속 하나의 서비스로 구체화되고 있다. 지금부터 치열한 접전 중에 있는 OpenAI(·MS)와 구글을 중심으로 그간의 행보와 향후 비전 등을 조명해 보고자 한다.
첫 번째 주자, 챗GPT로 승부수 둔 OpenAI
챗GPT를 개발한 OpenAI는 2015년 12월, 샘 알트먼(Sam Altman), 일론 머크스(Elon Musk), 피터 틸(Peter Thiel) 등이 공동으로 설립한 미국의 AI 연구소다. OpenAI는 GPT-1을 시작으로 GPT-2, GPT-3, DALL·E, 챗GPT, 최근에는 GPT-4까지 연이어 선보이며 그 위세를 이어가고 있다. 2019년 3월에는 자회사 OpenAI LP를 출범하며 한 차례 구조적 변화를 꾀하기도 했다. 투자자가 투자금의 100배 이상을 벌지 못하도록 제한하는 수익 제한 기업에 해당했지만, 연구소의 초기 설립 목적주6)과 달리 기술 사업화로 나아가려는 시도로 풀이되면서 AI 생태계에 적잖은 파동이 일었다. 여기서 마이크로소프트(MS)와 맺은 독점적 파트너십은 논란을 더 키웠다. 실제로 2023년 3월, OpenAI·MS 연합군은 검색엔진 빙(Bing)에 GPT-4 급 모델을 탑재한 챗봇 서비스를 출시하며 구글 추격에 나섰다.
주6) OpenAI의 임무는 일반 인공지능(AGI, 인간을 능가하는 자율적인 시스템)이 모든 인류에게 이익이 되도록 하는 것 - OpenAI 헌장(2018)
[그림 4] OpenAI 초거대 AI·생성 AI 타임라인
출처: KDI 경제정보센터 자료연구팀
언어 모델 개발 동향: GPT-1부터 GPT-4까지
GPT-1에서 GPT-3에 이르기까지 OpenAI 언어 모델의 가장 큰 변화는 파라미터 수와 학습 규모가 대폭 증가했다는 점이다. GPT-1은 1억 1,700만 개, GPT-2는 15억 개, GPT-3는 1,750억 개로, 이는 전(前) 버전 대비 각각 12.8배, 117배 상승한 수치다. 더욱이 570GB에 달하는 웹 데이터를 학습한 GPT-3부터는 모델을 재훈련하지 않아도 몇 가지 예시만 주면 번역과 요약, 글쓰기 등의 작업에 우수한 성과를 내기 시작했다. 이를 인컨텍스트 러닝(In-context learning)이라고 하는데, 모델의 규모가 클수록 예시를 잘 활용하는 특성이 나타났으며, 특히, 퓨샷 러닝(Few-shot learning)에서 그 성능이 두드러졌다.
그러나 한계도 있었다. 인간이 관여하지 않은 GPT-3는 인터넷에 떠도는 가짜 뉴스와 편견들을 받아들여 허위 정보를 생산하곤 했다. 이에 OpenAI는 ①사람이 작성한 질문-답변 꾸러미로 GPT-3를 훈련시키고, ②GPT-3가 생성한 응답에 순위를 매긴 후, ③그 피드백을 다시 훈련에 활용함으로써 모델의 성능을 향상시켰다. 이 과정을 인간의 피드백을 반영한 강화학습(RLHF, Reinforcement Learning from Human Feedback)이라고 하며, 이로써 탄생한 것이 챗GPT(GPT-3.5)다. 최근에는 발전을 거듭하여 텍스트와 이미지를 모두 처리할 수 있는 GPT-4 버전이 개발됐다. GPT-4의 스펙이 공개되진 않았으나 텍스트와 이미지를 처리할 수 있는 모델이라는 점에서 음성, 제스처, 표정 등 여러 입력값을 받는 멀티모달로 점차 저변을 넓혀 나가고 있음을 알 수 있다.
<표 3> OpenAI GPT 시리즈 개발 동향
출처: OpenAI
생성 AI 챗봇 서비스: 챗GPT, GPT-4
OpenAI의 야심작이라고도 할 수 있는 챗GPT는 앞선 초거대 언어 모델인 GPT-3.5와 GPT-4를 기반으로 탄생한 대화형 생성 AI 챗봇이다. GPT-3.5는 무료, GPT-4는 유료로 제공된다는 점도 다르지만, 두 버전의 가장 큰 차이는 이미지 인식 여부에 있다. 텍스트만 입력받을 수 있는 GPT-3.5와 달리 GPT-4는 이미지 처리가 가능해 음식 재료 사진을 보여주면 만들 수 있는 레시피를 추천해 주기도 한다(<표 4> 참조). 아울러 일관성, 문제 해결, 고급 추론에서도 GPT-3.5를 능가하는 모습을 보여줬는데, 미국 모의 변호사 시험과 대학 입학 자격시험(SAT)에서는 무려 상위 10%에 해당하는 성적을 거뒀다. GPT-3.5가 하위 10% 수준이었던 것과 비교하면 괄목할 만한 성과다.
<표 4> 챗GPT(GPT-3.5)와 GPT-4 비교
출처: OpenAI 자료 재가공
GPT-4는 현재 ‘플러그인’과 ‘웹브라우징’이라는 두 날개를 달고 더욱 높이 비상하고 있다. 애드인(add-in)으로도 불리는 ‘플러그인(plugin)’은 간편히 설치하고 사용하는 소프트웨어를 의미한다. 게임 캐릭터가 장착한 장비 아이템을 떠올리면 쉽다. 옵션이 다른 아이템을 때때로 바꿔 끼우듯이 GPT 또한 다른 기능들을 제공하는 플러그인을 장착해 능력치를 극대화할 수 있다. 2023년 6월 기준, Expedia(숙소 예약), Speak(영어 회화), Worldnews(뉴스 헤드라인 요약), Zillow(부동산 중개), Playlist AI(음악 추천), OpenTable(식당 예약), ShopMateAI(쇼핑)을 포함한 총 580여 개의 플러그인이 제공된다. 사용자는 이를 무제한으로 설치할 수 있고, 한 번에 총 3개까지 활성화할 수 있다.
[그림 5] 플러그인 활용 예시 [그림 6] 웹브라우징 활용 예시
출처: OpenAI 자료 재가공
‘웹브라우징(Web-browsing)’은 OpenAI에서 마이크로소프트의 빙(Bing) 검색 API를 이용해 자체 개발한 플러그인으로, GPT-4가 가지는 최신성 결여 문제주7)를 보완하는 역할을 한다. <그림 6>에서 보듯이, 웹브라우징 기능이 탑재된 GPT-4에게 최근 챗GPT 관련 이슈에 대해 질문하자 최신 기사 내용을 요약해 출처까지 제공하는 등 이전 버전보다 향상된 성능을 보여줬다. 즉, 플러그인을 통해 식사와 호텔, 항공권 예약부터 검색, 배달 주문, 날씨 정보, 게임, 음악 추천 등 거의 모든 기능이 챗GPT 하나로 통합된 셈이다. 혹자는 챗GPT를 아이폰, 플러그인을 iOS 앱스토어에 버금가는 새로운 생태계의 탄생으로 보기도 한다. ‘플랫폼 위의 플랫폼’이라는 말이 나올 정도로 챗GPT가 여러 플랫폼 기능들을 흡수하며 하나의 거대한 플랫폼으로 거듭나고 있다.
주7) GPT-4는 2021년 9월 이전 데이터로 학습했기 때문에 최신 정보를 반영할 수 없다는 한계가 있음
주춤하다 선두 놓친 Google, 반격에 나서다
구글은 명실상부 AI 분야 세계 최고 수준의 기업으로, 챗GPT의 선조 격인 트랜스포머(Transformer) 알고리즘을 탄생시킨 곳이기도 하다. 1위 자리를 굳건히 지켜오던 구글이 어쩌다 생성 AI 시장에서 OpenAI에 주도권을 내어 주게 된 걸까? 월스트리트저널(WSJ)은 구글이 챗GPT와 유사한 AI 챗봇을 먼저 개발하고도 출시를 머뭇거리다 때를 놓쳤다고 진단했다. AI 챗봇 미나(Meena)가 그 예다. 2020년 개발된 미나는 회사 내부의 공정성·안정성 기준을 충족하지 못해 출시가 한 차례 무산된 바 있다. 이후 미나 연구팀은 ‘람다(LaMDA)’로 프로젝트명을 바꾸고 연구개발을 지속해 왔으나 람다 또한 비슷한 이유로 대중에 공개되지 못했다. 이처럼 구글은 편향성과 오류를 가진 완벽하지 않은 AI가 회사의 평판과 사회에 미칠 파급력을 크게 우려해 왔다.
[그림 7] 구글 초거대 AI·생성 AI 타임라인
출처: KDI 경제정보센터 자료연구팀
이러한 구글의 행보는 챗GPT가 등장한 2022년을 기점으로 크게 바뀌게 된다. 완벽한 기술과 신뢰성 확보 대신 속도전을 택한 것이다. 그 일환으로 2023년 4월, 구글은 내부 AI 연구팀인 ‘구글 브레인’과 알파벳 자회사인 ‘딥마인드’를 구글 직속 ‘구글 딥마인드’로 통합했다. 이는 회사 안에서 라이벌 관계였던 두 부서를 하나로 편성해 생성 AI 경쟁에 본격적으로 참전하겠다는 선전포고와도 같다. 같은 해 5월에는 AI 챗봇 ‘바드(Bard)’를 180개국에 공개한 데 이어 AI 챗봇 ‘스패로우(Sparrow)’, 검색 엔진과 챗봇 기능을 통합한 ‘SGE(Search Generative Experience)’ 서비스 출시도 예고하면서 역습에 나섰다.
언어 모델 발전 과정과 방향: BERT부터 PaLM-2까지
2018년 11월 발표된 버트(BERT)는 대표적인 딥러닝 기반의 언어 모델로서, GPT와 함께 자연어 처리 분야의 양대 산맥으로 불리곤 한다. GPT가 트랜스포머의 디코더만을 활용한 모델이라면, 버트는 트랜스포머의 인코더에 기반한 모델이다([별첨] 트랜스포머 참조). 버트는 문장의 중간에 빈칸을 뚫은 후 해당 단어를 예측하는 방법으로 학습하는데, 이를 마스크 언어 모델(Masked Language Model, MLM)이라고 한다. 빈칸의 앞과 뒤를 모두 고려하는 양방향 모델이기에 문장의 의미를 추출하는 데 강점이 있다.
<표 5> 언어 모델: 구글의 버트(BERT)와 OpenAI의 GPT
출처: KDI 경제정보센터 자료연구팀
BERT 이후로 개발된 람다(LaMDA), 고퍼(Gopher), 팜(PaLM), 친칠라(Chinchilla) 등은 모두 GPT와 같은 디코더 기반 트랜스포머 모델(Decoder only Transformer)을 차용하고 있다. 바야흐로 생성 AI 시대가 개막한 것이다. 현존하는 언어 생성 모델 중 가장 강력하다고 평가받는 모델은 구글의 팜 2(PaLM 2)다. 팜 2는 100개 이상의 언어 학습을 통해 뉘앙스, 속담과 시, 수수께끼를 이해하고 생성할 수 있으며, 수많은 과학 논문과 수학 자료를 훈련하여 추론 능력 또한 뛰어나다. 실제로 29개 과제 중 28개에서 GLaM, GPT-3, 메가트론 튜링 NLG, 고퍼, 친칠라, 람다를 능가했다. BIG-bench(Beyond the Imitation Game Benchmark) 테스트주8)에서는 AI 모델은 물론 사람의 평균 수준도 뛰어넘는 성과를 보여줬다. 물론 구글의 야심은 여기서 그치지 않았다. 최근 팜 2를 계승할 차세대 모델(Gemini) 개발주9)에 나서는 등 지속적인 업그레이드에 힘을 쏟고 있다.
주8) 대규모 언어 모델 기능을 평가하는 벤치마크로, 200개 이상의 테스트를 포함하고 있음
주9) 구글 딥마인드(구글 브레인·딥마인드)는 1조 개 넘는 파라미터를 보유한 제미니(Gemini) 프로젝트 추진 중
생성 AI 챗봇 서비스: 바드(BARD)
‘바드(Bard)’는 구글이 챗GPT의 대항마로 내세운 생성 AI 챗봇이다. 대규모 언어 모델 람다(LaMDA)를 기반으로 탄생한 바드는 2023년 3월 베타 버전으로 공개된 후 같은 해 5월 세 가지 언어(영어, 한국어, 일본어)로 이용할 수 있는 안정화 버전으로 전 세계 180개국에 전격 출시됐다. 바드의 가장 큰 특성은 실시간 정보를 제공할 수 있다는 데 있다. [그림 8]과 같이 바드와 GPT-3.5(무료), GPT-4(유료) 각각에 “오늘 서울 날씨 어때?”를 물어보자, 바드 및 GPT-4는 날씨에 대해 응답했으나, GPT-3.5는 실시간 정보를 얻을 수 없는 한계점을 설명할 뿐 적절한 정보를 내놓진 못했다. GPT-4의 경우에도 유료 구독과 함께 웹브라우징 기능을 적용해야 실시간 정보를 얻을 수 있는 반면 바드는 이 모든 정보가 무료로 제공된다는 점에서 큰 차이가 있다.
[그림 8] 오늘 날씨 정보 질문 응답 (바드, 챗GPT, GPT-4)
[그림 9] 바드(Bard) 사용 예시
<표 6> 생성 AI: 구글의 바드(BARD)와 OpenAI의 챗GPT
출처: 각사 홈페이지
2023년 5월, 구글은 연례 I/O 기조연설에서 ①바드의 새로운 동력으로 팜 2(PaLM 2)를 채택할 것을 밝히며, ②40개에 달하는 언어 지원과 ③다양한 서비스와의 통합을 발표했다. 서비스 통합은 지메일(Gmail), 구글 드라이브(Google Drive), 문서, 지도 등 구글 자체 서비스뿐만 아니라 인스타카트(식료품), 울프럼알파(계산) 등 외부 파트너와 협업을 통해 이뤄질 방침이다. 아울러 구글은 어도비의 AI 생성 툴인 어도비 파이어 플라이(Adobe Firefly)를 바드와 결합하여 고품질 이미지를 생성하거나 편집하는 기능을 추가할 계획도 밝혔다. 이는 챗GPT-MS 검색 엔진 결합 및 자체 플러그인 도입으로 전·후방적 생태계 확장에 나선 OpenAI를 견제한 행보라는 분석이 나오고 있다.
OpenAI(·MS)와 구글의 양강 구도는 점차 국가 간 기술 패권 전선으로 확대되고 있다. 각종 언론과 보고서에서 미국, 중국, 이스라엘, 그리고 우리나라를 초거대 AI 보유국으로 꼽고 있는 이유다. 메타, 바이두, 알리바바, AI21 labs(이스라엘) 등 각국의 기업들이 초거대 AI 관련 서비스를 앞다퉈 출시하고 있는 만큼 주도권 다툼은 한층 치열해질 전망이다. 실제로 챗GPT나 바드 외에도 메타의 ‘블렌더봇 3’, 구글 딥마인드의 ‘스패로우’, 바이두의 ‘어니봇’ 등이 현재 데모 버전으로 공개됐거나 출시가 예정돼 있다. 이 글에서는 언어모델과 텍스트 기반의 AI 챗봇을 주로 다뤘지만, 아래 <표 7>을 보면 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 분야별 생성 AI도 활발히 개발되고 있음을 알 수 있다.
<표 7> 국내외 주요기업 생성 AI 서비스 현황
출처: 삼정KPMG 경제연구원(2023) 자료 재가공
국내에서는 현재 네이버(하이퍼클로바), 카카오(코GPT), SKT(에이닷), KT(믿음), LG(엑사원) 등의 빅테크 기업들이 생성 AI 전쟁에 참전해 있다. 최근 보도에 따르면, 네이버는 오션(OCEAN) 기반의 검색 챗봇 ‘큐:(Cue:)’와 ‘하이퍼클로바X’ 라는 차세대 모델을 출시할 계획이며, 카카오도 한국어 특화 언어 모델 ‘코GPT 2.0’과 챗봇 ‘코챗GPT(가칭)’를 선보일 예정이라고 한다. 다만, GPT-4의 한국어 수준(77%)이 크게 늘고, 구글 바드가 한국어를 정식 서비스 언어로 지원하면서 한국어 특화 전략을 취한 국내 기업들의 입지가 흔들릴 수 있다는 관측도 나오는 상황이다. 아울러 두 챗봇 모두 공격적으로 플러그인 기능을 통한 플랫폼 확장에 나서고 있어 국내 기업들도 자체 생태계 구축의 필요성이 높아지고 있다. 우리는 현재 챗GPT가 주도하는 거대한 변화의 파도에 올라타 있다. 가트너(Gartner)의 하이프 사이클에 따르면, 기술의 성장 주기는 ‘①기술 출현’, ‘②기대 정점’, ‘③환상 소멸’, ‘④기술 성숙’, ‘⑤안정기’의 다섯 단계로 이뤄진다. 아무리 뛰어난 기술이라도 정점을 지나 거품이 걷히는 단계가 오듯이, 초거대 AI와 생성 AI 또한 예외가 아니다. 기술적 결함(할루시네이션주10))과 차별적이고 편향된 텍스트 생성, 악의적 사용 등의 문제가 여전히 해결해야 할 과제로 남아있다. 기술이 성숙 단계로 진입할 수 있도록 모델 자체의 개선(편향 감소, 투명성 제고 등)과 함께 활용 가이드라인, 데이터 보호, 사회적 공정성 등의 이슈를 다루는 공개적인 토론과 합의 과정이 중요한 시점이다.
주10) 텍스트 생성 과정에서 잘못된 정보를 생성하는 현상
[별첨 1] Epilogue: 시작은 언어 모델 그 끝은 초거대 AI, 세 가지 기술적 진보
주11) 규모(Scale)의 세 가지 요소로, ①훈련 데이터의 가용성, ②트랜스포머 아키텍처 개발, ③GPU 등 컴퓨터 하드웨어 발전을 언급
앞서 정리한 개념을 바탕으로 대규모 언어 모델, 파운데이션 모델 등을 ‘초거대 AI’로 통칭하고, 기술 발전 과정을 모델 확장의 측면에서 서술하고자 한다. 언어 모델은 세 가지 동력에 의해 초거대 AI로 진일보하게 된다. 첫 번째는 방대한 데이터와 자기 지도 학습이다. 자기 지도 학습(Self-supervised Learning)은 딥러닝 학습 방법의 하나로 스스로 퀴즈를 내고 풀 듯이 답을 찾아가는 훈련을 의미한다. 즉, 다음에 올 단어를 추측하는 언어 모델의 학습 방식 그 자체인 셈이다. 언어 모델은 자기 지도 학습과 인터넷에 있는 방대한 텍스트 데이터주12)에 힘입어 사람의 개입 없이 스스로 패턴을 만들어 가기 시작했다. 예를 들어 ‘제주도로 가는 배를 타다’, ‘시장에서 사 온 배를 먹다’와 같은 문장을 학습하며 ‘배’의 뜻을 사람이 일일이 알려주지 않아도, 스스로 규칙을 찾아 구분하게 된 것이다. 반복 훈련을 통해 신경망에서 조정되는 값을 매개변수(parameter)라고 하며, 대체로 매개변수의 수가 많을수록 딥러닝 모델의 성능이 우수하다고 평가된다.
주12) 전 세계적으로 생성·캡처·복사·소비된 데이터(Volume of data)는 2025년에 181ZB에 이를 것으로 예상(Statista, 2023)
<표 1> 딥러닝(머신러닝) 학습 방법
출처: KDI 경제정보센터 자료연구팀
다음은 트랜스포머 알고리즘의 등장이다. 트랜스포머(Transformer)는 2017년 구글의 「Attention Is All You Need」 논문에서 소개된 시퀀스-투-시퀀스(Sequence to Sequence seq2seq) 모델을 의미한다. 시퀀스를 다른 시퀀스로 변환하는 모델은 인코더(Encoder)와 디코더(Decoder) 두 모듈로 구성되며, 예로부터 기계 번역과 음성 인식 등에 주로 사용돼 왔다. 한국어 “나는 어제 피자를 먹었다.”를 → 영어 “I ate a slice of pizza yesterday.”로 바꾼다고 가정해 보자. 인코더는 한국어를 압축하여 디코더에 전달하고, 디코더는 압축된 정보(context)를 바탕으로 영어 문장을 생성하는 작업을 수행한다. 해당 전달 과정은 일반적으로 순환신경망(Recurrent Neural Network, RNN)이 도맡아 왔는데, 처리할 문장이 길 경우 시간이 오래 걸리거나 앞의 단어를 잊어버리는 등의 고질적 문제가 있었다. 이를 해결하기 위해 번역 과정에서 집중할 단어를 알려주는 어텐션(Attention) 기법이 고안됐지만, 순환신경망의 느린 속도를 해결해 주진 못했다. 여기서 트랜스포머가 “깜박거리는 순환신경망은 가라, 어텐션만 있으면 된다!”를 선언하며 혜성처럼 등장했다.
<표 2> 순환신경망과 트랜스포머의 차이
출처: KDI 경제정보센터 자료연구팀
순환신경망을 배제한 트랜스포머는 어텐션(Attention)을 통해 한국어와 영어 토큰 간의 여러 유사도를 파악하고, 이를 병렬적으로 처리하여 번역 속도를 향상주14)시켰다. 특히, 트랜스포머의 핵심으로 언급되곤 하는 ‘셀프 어텐션(Self-Attention)’은 한국어·영어 간의 관계가 아니라, 인코더 토큰(여기선 한국어)끼리 또는 디코더 토큰(영어) 안에서의 관계를 확인하는 어텐션을 의미한다. 아래 [그림 1]에서 ‘it(Q)’이 ‘banana(K)’가 아닌 ‘monkey(K)’와 연관성이 높다는 것을 알려주듯이 어텐션이 문장 그 자체에서 기능하기에 셀프 어텐션주15)이라 지칭한다. OpenAI의 GPT와 구글의 BERT가 바로 이러한 트랜스포머를 토대로 탄생한 모델이다.
주14) 먹었다(Q)와 ate(Key1), pizza(Key2), yesterday(Key3), (Key4) 등과의 유사도를 구하고, 이 값(V)들을 가중합해 다음 토큰 예측에 반영
주15) Query(Q) = key(K) = Value(V), Q,K,V가 같은 곳에 위치해 있을 경우 셀프 어텐션이라고 함
[그림 1] 셀프 어텐션 예시
출처: Xie, Huiqiang, et al.(2021)
마지막은 컴퓨팅 파워의 발전을 손꼽는다. [그림 2]에서 볼 수 있듯이 트랜스포머 기반 모델(GPT, BERT 등)의 연산량은 기하급수적으로 증가하고 있다(기존 모델은 2년마다 8배씩 증가하는 반면 트랜스포머 모델은 275배씩 증가). 많은 연산량을 요구하는 트랜스포머 모델을 훈련하기 위해선 병렬 연산에 특화된 그래픽 처리 장치(Graphic Processing Unit, GPU)가 필수적이다. 기존의 중앙 처리 장치(Central Processing Unit, CPU)보다 데이터를 더 빠르고 효율적으로 처리할 수 있기 때문이다. 챗GPT 훈련에도 1만 개의 GPU가 사용된 것으로 알려져 있다. 이처럼 GPU는 대규모 데이터를 처리하고 복잡한 모델을 가동하는 데 중추적 역할을 수행한다. AI 성장을 견인하는 3대 원동력으로 데이터, 알고리즘, 그리고 컴퓨팅 파워를 빼놓을 수 없는 이유다.
출처: NVIDIA
* 이 보고서의 내용은 개인의 의견으로, KDI 및 필자 소속기관의 공식 견해를 대변하는 것은 아닙니다.
보고서의 내용을 보도하거나 인용할 경우에는 반드시 출처를 표기하여 주시기 바랍니다.
[참고문헌]
• BOMMASANI, Rishi et al., “On the opportunities and risks of foundation models,” arXiv preprint arXiv:2108.07258, 2021.
• BROWN, Tom et al., “Language models are few-shot learners,” Advances in neural information processing systems, 2020, 33: 1877-1901.
• VASWANI, Ashish et al., “Attention is all you need,” Advances in neural information processing systems, 2017, 30.
• XIE, Huiqiang et al., “Deep learning enabled semantic communication systems,” IEEE Transactions on Signal Processing, 2021, 69: 2663-2675.
• 관계부처 합동, 초거대AI 경쟁력 강화 방안, 2023.
• 김수민·백선환, 챗GPT 거대한 전환, 서울: 알에이치코리아, 2023.
• 백인수·우상근, 실리콘밸리의 디지털 혁신 트렌드, THE AI REPORT, 2022.
• 삼성증권, 생성 AI, 인공지능의 한계를 극복하다, 2023.
• 서민준 외, 챗GPT 기회인가 위기인가, 서울: 동아엠엔비, 2023.
• 안성원 외, 초거대언어모델의 부상과 주요이슈 - ChatGPT의 기술적 특징과 사회적·산업적 시사점, ISSUE REPORT, 2023.
• 윤창희, 대규모 언어 모델 기반의 공공분야 초거대 AI 도입방향, 한국지능정보사회진흥원, 2023.
• 이효정·최창환·류승희, 챗GPT가 촉발한 초거대 AI 비즈니스 혁신, 삼정 KPMG, 2023.
• 임효주, 초거대 AI의 발전양상과 향후 과제, ICT SPOT ISSUE, 정보통신기획평가원, 2022.
<웹사이트 및 자료>
• Google Blog, “[I/O 2023] PaLM 2를 소개합니다,” 2023.5.12(https://korea.googleblog.com/2023/05/google-palm-2-ai-large-language-model.html, 접속일: 2023. 6. 27).
• Google Trends(https://trends.google.co.kr/trends?geo=&hl=ko, 접속일: 2023.5.15).
• IEEE SPECTRUM, “Nvidia’s Next GPU Shows That Transformers Are Transforming AI The neural network behind big language processors is creeping into other corners of AI,” APR 8, 2022(https://spectrum.ieee.org/nvidias-next-gpu-shows-that-transformers-are-transforming-ai, 접속일: 2023.6.28).
• Michael Andersch et al., “NVIDIA Hopper Architecture In-Depth,” Mar 22, 2022(https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/, 접속일: 2023.6.28).
• OpenAI(https://openai.com/gpt-4, 접속일: 2023.6.30).
• Rishi Bommasani and Percy Liang, “Reflections on Foundation Models,” Oct 18, 2021(https://hai.stanford.edu/news/reflections-foundation-models, 접속일: 2022.5.22).
• Statista, “Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025,” 2021(https://www.statista.com/statistics/871513/worldwide-data-created/, 접속일: 2023.5.22).
• WSJ Podcasts, “Why Google Is Behind in the AI Race,” MARCH 17, 2023 (https://www.wsj.com/podcasts/the-journal/why-google-is-behind-in-the-ai-race/0457c5c6-ebc7-4bd4-9f15-023571990dad, 접속일: 2023.6.19).
• 삼성SDS 데이터분석서비스팀, “ChatGPT 기술 분석 백서 - 1부 ChatGPT란, 인사이트 리포트,” 2023.4.26( https://www.samsungsds.com/kr/insights/chatgpt_whitepaper1.html, 접속일: 2022.6.5).
|