검색 포털이 20여년 만에 새로운 경쟁을 시작했습니다. 인공지능(AI) 기술이 빠르게 발전하면서 최근 등장한 대화형 인공지능(AI) 챗봇이 큰 역할을 하고 있습니다.
바야흐로 ‘챗GPT’ 시대입니다. 오픈AI가 개발한 챗GPT가 검색엔진을 대체할 것이라는 추측도 나왔습니다. 물론 아직은 시기상조라는 지적이 많습니다. 특히 개발사측에서 챗GPT는 검색엔진이 아니라는 입장을 내놓기도 했습니다.
그러나 알파고가 AI에 대한 인식을 바꾸어 놓은 것처럼 챗GPT는 대화형 검색을 가능하게 해주는 등 혁신적인 변화를 예고하고 있습니다. 이 때문에 세계 검색서비스 시장을 장악하고 있는 구글은 지난해 12월 '코드 레드'를 발령하기도 했습니다. 그만큼 큰 위기감을 느꼈다는 의미지요. 순다르 피차이 구글 CEO가 주력 비즈니스 가운데 하나인 검색광고에 심각한 위협이 발생했다며 이를 극복하기 위해 전사적인 역량을 집중할 것이라고 선언한 것도 같은 맥락으로 이해할 수 있습니다. 참고로 구글은 전 세계 검색 시장의 90% 이상을 독점하고 있습니다. 그럼에도 불구하고 챗GPT의 등장은 그들의 간담을 서늘하게 만들 정도의 위력을 지닌 것이지요. 오픈AI가 지난해 11월 처음 공개한 챗GPT는 기존과는 다른 검색 방식과 편리한 사용성, 놀라운 성능 등으로 폭발적인 인기를 끌고 있습니다. 지금까지도 국내외 AI업계에서는 챗GPT가 최대 화두입니다. 챗GPT는 사용자가 자연어를 사용해 챗봇과 대화할 수 있는 언어 모델입니다. 일상 대화 뿐만 아니라 프로그래밍, 작문 등 다양한 전문 분야에서도 자연스러운 대화를 가능하게 합니다. 오픈AI의 대형 언어모델(LLM) 'GPT'의 일부분입니다. GPT는 Generative Pre-trained Transformer의 약어입니다. 사전에 학습한 매개변수를 토대로 질문에 대한 답변을 스스로 생성하는 인공지능으로 신경망 모델 가운데 하나인 트랜스포머 아키텍처를 사용하고 있다는 의미입니다. 오픈AI가 GPT 시리즈를 처음 발표한 것은 2018년으로 거슬러 올라갑니다. 첫 모델인 GPT-1은 1억1700만개의 매개변수를 가지고 있었습니다. 이듬해 2월 나온 GPT-2는 매개변수가 15억개로 늘어납니다. 대중에 GPT라는 이름이 각인되기 시작한 것은 2020년 6월에 등장한 GPT-3부터입니다. GPT-3는 매개변수가 1750억개에 달합니다. 학습에 사용한 데이터와 매개변수 양이 어마어마하게 늘어났죠. GPT-3는 스스로 글을 쓰기 시작하면서 생성 AI 시대를 열었습니다. 이를 처음 접한 이들은 마치 인공지능이 당장에라도 세상을 바꿔놓을 것처럼 호들갑을 떨기도 했습니다. 하지만 이는 시작에 불과했습니다. 오픈AI가 지난해 11월 GPT-3.5를 기반으로 한 챗GPT를 발표하자 세상이 들썩이기 시작했습니다. GPT-3.5는 매개변수가 1750억개로 GPT3와 동일하지만 사람의 피드백을 받으며 강화학습을 지속해 많은 부분을 개선했습니다. 인간이 상황과 맥락에 따라 언어모델이 생성한 텍스트를 ‘좋고 나쁘다’라고 평가하는 방식 자체를 AI가 학습한 것입니다. 그 결과 챗GPT는 사용자가 입력한 문장을 이해하고 답변을 생성할 뿐만 아니라 해당 분야에 대한 전문 지식을 가진 사람과 대화하는 것처럼 자연스럽게 의사소통할 수 있게 됐습니다. 오픈AI는 데이터 수집 방법과 디테일에도 변화를 줬습니다. 사람에게 질문과 답으로 구성한 데이터를 작성하게 했습니다. 이같은 작업을 하는 이들이 바로 라벨러입니다. 라벨링 작업을 거친 대화형 데이터는 기존 모델을 미세조정하기 위한 지도학습에 사용합니다. 그 다음 단계에서는 비교군 데이터를 모으고 보상 모델 학습을 진행합니다. 보상 모델을 만들기 위해서는 모델의 답변에 대한 순위를 매길 수 있는 비교군 데이터가 필요합니다. 이를 위해 프롬프트와 모델이 생성한 답변을 샘플링하고, 사람이 여기에 순위를 매기는 방식으로 보상 모델을 활용해 강화 학습을 진행합니다. 이런 과정을 여러 차례 반복해 얻은 최종 결과물이 바로 챗GPT입니다. 챗GPT는 사람의 피드백을 통해 학습한 언어모델이라 사람의 사고방식과 유사하면서 윤리나 도덕적인 측면에서도 자연스러운 텍스트를 생성할 수 있습니다. 물론 아직은 단점도 많습니다. 정확하지 않은 정보를 생성하거나, 유해하고 편견이 있는 내용을 생성하기도 합니다. 특히 없는 사실을 만든 뒤 이를 토대로 그럴듯한 문장을 만들어 내는 '환각현상'은 많은 우려를 자아내고 있습니다. 이는 AI에 대한 부정적인 인식으로 이어지고 있는 것이 사실입니다. 오픈AI가 챗GPT를 공개한지 불과 4개월만인 지난 3월 GPT4를 서둘러 공개한 것도 이와 전혀 무관하지는 않은 것 같습니다. GPT4는 이전 모델인 GPT-3.5과 비교해 정확도를 높인 것이 특징입니다. 정확도가 40% 이상 높아졌다고 합니다. 이를 통해 '환각' 현상을 많이 줄일 수 있을 것으로 보입니다. 이미지 인식 기능이 추가된 것은 매우 획기적인 변화입니다. 드디어 인공지능에 눈이 달리기 시작한 것이지요. 이 기능이 얼마나 정교해지는지가 앞으로 놓치지 말아야 할 최대 관전포인트입니다.
‘챗GPT’ 기반의 MS 검색 엔진 ‘빙(Bing)’ 어쨌거나 챗GPT는 출시 5일 만에 100만명 이상의 사용자를 끌어모았습니다. 한달 남짓 지난 1월에는 활성 사용자 수가 1억명을 넘어섰습니다. 전례없이 폭발적인 성장세입니다. 이에 마이크로소프트(MS)도 큰 자극을 받았습니다. MS는 지난 1월 오픈AI에 100억달러를 투자하며 파트너십을 맺었습니다. 이후 MS의 행보가 엄청 빨라졌습니다. 챗GPT를 활용해 그 동안 구글에 내줬던 검색 시장을 탈환하겠다는 의지가 철철 넘쳐흐릅니다. 검색엔진 '빙'을 필두로 웹 브라우저 '엣지' 등 검색 관련 서비스뿐만 아니라 오피스를 비롯한 모든 제품과 서비스에 챗GPT를 도입하고 있습니다. 아예 챗GPT로 도배하고 있다는 표현이 어울릴 정도입니다. 그러자 구글은 2년 전 공개했던 대규모 대화 모델 ‘람다(LaMDA)’를 기반으로 대화형 AI ‘바드(Bard)’를 선보였습니다. 바드는 첫 시연회에서 잘못된 답변을 내놓아 체면을 구기기도 했습니다. 당시만해도 구글은 꼭꼭 숨겨놓았던 모델을 억지로 꺼내 보이는 듯한 모습이었습니다. 적어도 그렇게 비춰졌습니다. 하지만 이후 구글의 모습은 진심으로 변했습니다. 최근에는 아예 검색에 AI 챗봇 기능을 추가하겠다고 공식 선언하기도 했습니다. 알파고를 개발한 딥마인드에서도 대화형 AI ‘스패로우(Sparrow)’를 공개했습니다. 챗GPT는 구글뿐만 아니라 메타도 자극했습니다. 지난해까지만 해도 '메타버스'에 목숨을 건 것처럼 보이던 메타는 주력 노선을 아예 메타버스에서 AI로 선회했습니다. '라마(LLaMA)'라는 언어모델을 개발해 공개하기에 이릅니다. 챗GPT가 검색엔진은 아니지만 새로운 검색전쟁을 촉발한 매개체가 된 것은 분명해 보입니다. 지난 20년 동안 검색 서비스는 검색어를 입력하면 검색엔진이 웹사이트를 뒤져 검색어가 포함된 결과를 링크 형태로 보여주는 방식이 일반적이었습니다. 챗GPT는 다릅니다. 정보를 수집하는데 그치지 않고 이를 조합해 요약해줍니다. 이 챗GPT를 검색엔진과 연결하면 검색 서비스에 획기적인 변화를 가져다 줄 것으로 기대됩니다. 다만 여기에는 반드시 해결해야 할 전제조건이 있습니다. 교육에 활용한 데이터가 편향되지 않아야 한다는 것입니다. 그런데 불행하게도 아직은 이를 담보하기에는 부족한 것이 많아 보입니다. 아직은 챗GPT가 기존 검색 서비스를 완전히 대체하지 못할 것이라던가, 검색엔진에 챗GPT를 탑재하더라도 당장은 영향이 크지 않을 것이라는 주장에 무게가 실리는 이유입니다.
|