[5월 2주] 도마에 오른 챗봇의 한국어 능력...
"네이버보다 외산이 뛰어나다고?"
지난 5일 AI타임스를 통해 소개된 투플랫폼의 인터뷰가 SNS 등에서 회자되는 것으로 확인됐습니다. 이 기사는 투플랫폼의 대형언어모델(LLM) '수트라'의 한국어 능력이 네이버의 '하이퍼클로바X'보다 뛰어나다는 내용입니다.
물론 투플랫폼이 이 점을 강조하기 위해 인터뷰를 한 것은 아닙니다. 이 회사는 삼성전자 최연소 임원 출신이자 AI 분야의 스타 과학자 프라나브 미스트리가 창업한 스타트업으로, AI 캐릭터와 채팅할 수 있는 소셜 앱을 서비스 중입니다. 국내 시장 진출에 맞춰 자신들의 챗봇이 뛰어나다고 강조한 것입니다.
이를 통해 공개한 MMLU 벤치마크에 따르면 한국어 능력이 가장 뛰어난 모델은 'GPT-4'(72점)입니다. 그 뒤를 수트라(67점), 라마 3(60점), 믹스트랄(56점) 등이 이었고, 하이퍼클로바X는 54점으로 6위에 머물렀습니다.
물론 이번 결과가 한국어 능력을 판단하는 절대적인 기준은 아닙니다. MMLU라는 특정 기준에 해당하는 것이고, 다른 기준을 적용하면 다른 결과가 나올 수 있습니다.
그러나 이런 식으로 해외 유명 모델과 한국어 능력 벤치마크 결과를 비교한 것은 처음입니다. 네이버가 지난 4월 공개한 테크니컬 리포트에는 한국어 모델 '폴리글롯'과 오픈 소스 '팰컨', 메타의 '라마 2' 등 대부분 매개변수가 적은 소형언어모델(sLM)이 비교 대상이었습니다.
중요한 것은 벤치마크 결과가 아니라, 사용자들의 반응입니다. 사용자 체감이 시원치 않으면, 아무리 벤치마크 결과가 좋아도 소용없는 일입니다.
네이버는 지난 9일 실적발표를 통해 앞으로 AI 개발에 더 많은 노력을 기울이겠다고 발표했습니다. 그동안 B2B에 집중했던 네이버가 B2C에도 신경 쓸 지 주목됩니다.