클로버X에 27일부터 처리기능 추가
거대언어모델 결합해 정성 높여
오픈AI와 함께 시험...정답률 앞서
네이버의 인공지능(AI) 서비스 '클로바X'가 텍스트와 함께 이미지도 이해할 수 있는 서비스로 진화한다.
오픈AI.구글 글 글로벌 빅테크들이 첵스트를 넘어 이미지.음성 등을 동시에 이해하고 처리하는
'멀티모달 AI'로 고도화하는 흐름에 네이버도 가세한 것이다.
네이버는 이달 27일부터 클로바X에 이미지 인식 처리 서비스를 추가한다고 22일 밝혔다.
기존 에는 논리적 글쓰기, 코드 작성, 변역 등 텍스트 작업만 가능했지만 앞으로는 이미지나 표, 그래프를 이해하고
분석할 수 있게 되는 것이다.
이에 따라 모형이나 차트, 그래프 등을 만드는 데 필요한 코딩이 가능해진다.
우상향 곡선 그래프를 보여주고 '그림에 나오는 차트를 최대한 비슷하게 생성하는 파이썬(프로그램밍 언어) 코드를 작성해줘'라고 입력하면 , 이에 맞는 코드를 바로 만들어낸다.
이미지에 포함된 요소를 기반으로 한 글쓰기도 할 수 있다.
'클로바X'에 석양이 지는 해변 사진을 주고 '시를 지어달라'고 주문하면,
'해변에 앉아 금빛 물결을 바라보네, 하늘은 붉은빝으로 물들어가고 구름 사이로 해가 숨박꼭질 하네...'
문구로 시작된 총 4개 연의 시를 짓는다.
이미지와 함께 유머나 문화까지 이해하는 능력도 갖췄다.
네이버 츧은 '이미지.텍스트 쌍으로 구성된 대량의 데이터를 학습하기에 밈(meme.인터넷 유행 콘텐츠)에 대한 이해도
가능하다'고 설명했다.
네이버의 거대언어모델(LLM)인 하이퍼클로버X가 결합해 정확성과 신뢰성을 끌어올린 것이 강점이다.
네이버에 따르면 실제대한민국 초중고교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과,
클로바X는 약 84%의 정답률을 기록하며 오픈 AI GPT4o의 78%보다 높은 정답률을 보였다.
주요 글로벌 빅테크들도 이미지 인식 AI에 적극적이다.
구글 '재미나이'와 오픈AI의 '챗(GPT', 앤스로칙의 '클로드' 등 AI 챗봇은 이미지 등 비정형 데이터를 분석해 답변을 제공한다.
다만 챗GPT4o' 등은 유료 구독 서비스지만, 네이버는 무료 모델을 통해 이용자를 확보하는 록인(lock-in) 전력을 쓰고 있다.
국내에선 LG AI 연구원도 자체 최신 AI 몯레 텍사원 3.0을 기반으로 한 생성형 AI 서비스 '챗엑사원' 시험 비전에서
이미지 기반 질의 응답이 가능한 서비스를 선보였다.
다만 이 서비스는 LG 임직원을 대상으로 하고 있다.
한편 네이버는 하이퍼클로버X 기반 음성 AI 기술도 자사 블로그에 공개했다.
언어 구조 및 발음 정확도 개선은 물론 감정 표현까지 더한 자연스러운 대화가 가능한 수준까지 기술력을 끌어올렸다는 게
네이버 측의 설명이다. 장은지 기자