위드 AI 시대
강력해진 새 GPT, 사진 분석도 척척
오픈AI, 업그레이드 버전 공개
인공지능(AI) 챗봇 챗GPT 개발사인 오픈AI가 최신 AI 언어모델 ‘GPT-4’를 14일(현지시간) 공개했다. 이전 모델을 적용한 챗GPT보다 성능이 대폭 향상돼 일부 분야에서는 인간보다 뛰어난 지적 능력을 보여준다는 평가가 나온다.
오픈AI에 따르면 GPT-4는 각종 시험에서 GPT-3.5 바탕의 챗GPT를 뛰어넘는 성능을 입증했다. GPT-4는 미국 변호사시험에서 인간 응시자 상위 10% 정도의 점수를 받았다. 반면 GPT-3.5는 같은 시험에서 하위 10% 성적을 얻었다. 미국 생물올림피아드에서도 GPT-4는 상위 1% 수준으로 GPT-3.5(하위 30%)를 크게 앞섰다.
언어 구사 능력도 좋아졌다. MMLU(대규모 다중작업 언어 이해) 번역 테스트에서 세계 26개 언어 중 한국어를 포함한 24개 언어에서 GPT-3.5 영어 서비스보다 높은 성능을 보여줬다.
이미지 분석 기능도 추가됐다. 이용자가 입력한 이미지와 관련한 질문에 답할 수 있다. 처리할 수 있는 단어 수는 이전 모델보다 8배 정도 늘었다. GPT-4에서는 최대 6만4000단어(토큰 3만2768개)를 처리할 수 있다. 오답을 정답처럼 답하는 일명 ‘헐루시네이션(환각)’ 현상과 위험하고 편향적인 답변도 줄었다고 오픈AI는 설명했다. 테드 샌더스 오픈AI 개발자는 “(AI 언어모델이) 장난감에서 도구로 전환했다”고 말했다.
오픈AI는 GPT-4를 공개하면서 챗GPT의 유료 버전에 바로 사용했다. 오픈AI와 협력하는 마이크로소프트(MS)는 이날 자사 검색 엔진 ‘빙’에 GPT-4를 적용했다. 정보기술(IT)업계 관계자는 “글로벌 테크기업 간 챗봇 경쟁이 더욱 치열해지고 있다”고 했다.
계약서 찍어 보여줬더니…새 GPT "독소조항 있다"
사진 속 텍스트까지 인식…SAT 수학문제 척척 풀어
“GPT-4는 가장 성능이 뛰어나고 잘 정돈된 모델이다.”
샘 올트먼 오픈AI 최고경영자(CEO)는 14일(현지시간) 공개한 생성 인공지능(AI) GPT-4를 두고 이같이 설명했다. GPT-4는 2020년 공개한 GPT-3 이후 약 3년 만에 나온 후속 모델이다. 답변 능력이 개선된 것은 물론 텍스트와 이미지를 함께 이해하는 능력까지 갖췄다. 생산성을 높일 도구로 활용할 수 있을 것이라는 게 전문가들의 공통적인 평가다.
○이미지 내용도 함께 이해
GPT-4의 가장 큰 특징은 ‘멀티모달(multimodal)’ AI라는 점이다. 멀티모달은 다양한 형태의 콘텐츠를 입출력에 활용할 수 있다는 의미다. GPT-3는 텍스트 데이터만 학습해 문자로 물어보면 문자로 답을 얻을 수 있었다. 반면 GPT-4는 이미지를 함께 학습했다. 오픈AI의 이미지 생성 AI인 ‘달리2’처럼 텍스트를 입력하면 이미지를 만들어주는 기능은 없다. 대신 이미지에 담긴 내용과 맥락을 이해해 텍스트 내용과 결합한 답변을 내놓는다.
예를 들어 GPT-4에 밀가루, 계란, 우유 등이 있는 사진과 함께 “이 재료들로 무엇을 만들 수 있을까”라고 질문하면 팬케이크, 와플, 프렌치토스트 등을 제시한다. 무거운 추에 풍선을 매단 사진을 업로드하고 “줄을 자르면 어떻게 될까”라고 물어보면 “풍선이 하늘로 날아간다”는 답을 준다. 그래프 내용을 분석해주기도 하고 유머 사진이 웃긴 이유를 설명하는 것도 가능하다.
○美 변호사 시험 상위 10% 성적
기본적인 답변 능력도 한층 발전했다. 고급 추론(advanced reasoning) 기능을 갖춰 복잡한 질문에 답할 수 있다. 가령 세 사람의 일정표를 입력하고 “이들이 30분 동안 회의할 수 있는 시간을 알려줘”라고 물었을 때 GPT-3.5 기반인 챗GPT는 잘못된 답을 제시했지만 GPT-4는 정확한 답을 내놨다. 오픈AI는 “광범위한 일반 지식과 문제 해결 능력 덕분에 어려운 문제를 더 정확하게 해결할 수 있다”고 강조했다.
실제로 각종 시험에서 챗GPT보다 나은 성적을 거뒀다. 미국 변호사 시험에서 챗GPT는 213점으로 하위 10%에 그쳤지만 GPT-4는 298점으로 상위 10%에 포함됐다. 미국 대학 입학 자격시험인 SAT 읽기 및 쓰기와 수학 시험에서도 상위 10% 수준의 성적을 기록했다. 유머 감각도 늘었다. 뉴욕타임스가 ‘가수 마돈나에 대한 농담을 해보라’고 하자 “마돈나가 기하학을 배운 이유는 모든 각도에서 포즈를 취하는 방법을 배우기 위해서”라고 답했다.
한 번에 기억할 수 있는 단어 수도 대폭 늘었다. GPT-3.5는 한 번의 대화에서 최대 8000단어(토큰 4096개)를 처리할 수 있지만 GPT-4는 최대 6만4000단어(토큰 3만2768개)까지 처리할 수 있다. 수십 쪽짜리 논문을 입력하고 요약해달라고 하는 게 가능하다는 의미다.
오픈AI는 안전성을 높였다는 점도 강조했다. 챗GPT는 질문에 틀린 답을 내놓는 ‘환각(헐루시네이션)’ 현상으로 논란이 되기도 했다. 오픈AI는 “불법 행위와 관련한 요청에 응답할 가능성이 GPT-3.5 대비 82% 줄었고 사실에 입각한 응답을 하는 비율은 40% 높아졌다”고 설명했다.
○“기업에서 활용도 높을 것”
오픈AI는 챗GPT의 유료 서비스인 챗GPT플러스를 통해 GPT-4의 기능을 제공하기 시작했다. 협력 관계인 마이크로소프트(MS)의 검색 서비스 ‘빙’에도 적용했다. 기업들도 애플리케이션 프로그래밍 인터페이스(API)를 통해 GPT-4를 자사 서비스에 활용할 수 있게 된다.
오픈AI는 GPT-4를 활용한 서비스도 소개했다. 언어 학습 앱 ‘듀오링고’는 학습용 챗봇을 만드는 데 GPT-4를 도입했다. 덴마크 스타트업 비마이아이즈는 GPT-4의 이미지 인식 기능으로 시각 장애인 대상 길 안내 서비스를 제작 중이다. 모건스탠리는 내부 데이터베이스 검색 및 활용을 위한 챗봇을 만들었다. 하정우 네이버클라우드 AI랩 소장은 “생산성을 강조해 기업 간 거래(B2B) 분야에서 활용도가 높을 것으로 보인다”고 분석했다.
한국경제 이승우 기자 leeswoo@hankyung.com
김주완 기자 kjwan@hankyung.com
첫댓글 변호사 시험에서 상위 10% 성적이라니... 회사에도 적용하면 앞으로 어떻게 될 지 궁금합니다.