https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html
MS 독일 CTO인 Andreas Braun이 2023년 3월 9일 AI Kickoff event에서 한 말이 뜨겁게 회자되고 있다.
간단히 요약하면,
마이크로소프트 독일은 최신 언어 모델인 GPT-4의 곧 출시될 예정을 발표했고, 이번 버전에서는 "멀티모달" 기능이 추가되어 텍스트, 이미지, 오디오를 동시에 처리하고 생성할 수 있게 되며, 출시 예정일은 다음 주라는 것이다.
멀티모달이 추가된다는 것은
이전 버전의 GPT와 달리, 텍스트 외에도 이미지, 오디오 등 다양한 형식의 데이터를 동시에 처리하고 생성할 수 있는 기능을 의미하고, 이러한 기능의 추가로 인해 GPT-4는 더욱 다양한 분야에서 활용될 수 있게 된다는 의미라고 한다.
현재의 ChatGPT가 어떻게 바뀐다는 걸까
하지만 현재의 ChatGPT는 GPT-4가 출시되더라도 바로 변경되지는 않는다고 한다. ChatGPT는 이미 학습된 모델이며, 새로운 데이터로 학습을 받아 업데이트될 때에만 변경되기 때문에, ChatGPT가 멀티모달 기능을 갖출지는 미래의 일이라고 한다.
그럼 이미지, 오디오 모델은 언어 모델과 어떻게 다른가
언어 모델은 자연어 처리(NLP) 분야에서 사용되며, 주로 텍스트 데이터를 처리한다고 한다. 일반적으로 RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory), Transformer 등의 아키텍처를 사용하여 구현된다.
이에 비해 이미지와 오디오 모델은 컴퓨터 비전(CV) 및 음성 인식(Speech Recognition) 분야에서 사용되며, 이미지 및 오디오 데이터를 처리한다. 이들 모델은 CNN(Convolutional Neural Network) 및 RNN과 같은 아키텍처를 사용하여 구현된다.
또한 멀티모달 모델을 구현하는 경우에는 이러한 다양한 유형의 데이터를 처리할 수 있는 복합 아키텍처가 필요하다고 한다. 이를 위해서는 언어 모델, 이미지 모델, 오디오 모델을 통합하고 연결하는 방법 등이 사용되며, 멀티모달 모델은 이러한 다양한 모델들을 통합하여 구현된다.
멀티모달 모델이 구현되면 어떤 서비스가 추가로 가능해지는가
멀티모달 모델이 구현되면 다양한 서비스가 추가로 가능해진다. 예를 들어,
언어와 이미지를 동시에 처리할 수 있는 챗봇: 멀티모달 모델을 사용하여, 사용자가 이미지와 함께 챗봇에게 질문을 하면 챗봇이 이미지를 분석하여 대답을 제공할 수 있다. 예를 들어, 사용자가 "이 사진은 어디에서 찍혔나요?" 라는 질문과 함께 여행 사진을 제공하면, 챗봇은 이미지를 분석하여 여행지의 위치 정보를 제공할 수 있어진다.
음성 및 텍스트 데이터를 동시에 처리할 수 있는 가상 비서: 멀티모달 모델을 사용하여, 사용자가 음성으로 질문하면 가상 비서가 음성을 텍스트로 변환하여 처리하고, 결과를 음성으로 다시 반환할 수 있다. 예를 들어, 사용자가 "내일 날씨 어때?" 라는 음성 명령을 내리면, 가상 비서가 음성을 텍스트로 변환하여 날씨 정보를 가져와 음성으로 제공할 수 있게된다.
이미지 검색 엔진: 멀티모달 모델을 사용하여, 사용자가 이미지를 검색할 때, 이미지를 분석하여 관련된 텍스트 정보를 추출하고, 이를 기반으로 이미지 검색 결과를 제공할 수 있다. 예를 들어, 사용자가 "파리의 유명 건축물" 이라는 이미지를 검색하면, 멀티모달 모델은 이미지를 분석하여 파리의 관련된 건축물의 정보를 추출하고, 이를 기반으로 이미지 검색 결과를 제공할 수 있다.
이러한 서비스를 통해 멀티모달 모델은 사용자가 더 다양한 유형의 데이터를 활용하여 보다 편리하고 정확한 정보를 얻을 수 있도록 도와줄 것이라고 한다.
참고
GPT-3 : 2020년 6월에 OpenAI에서 출시, 이 모델은 1750억 개의 파라미터를 가진 역대 최대 규모의 자연어 처리 모델 중 하나이며, 대규모 언어 모델이 제공하는 다양한 자연어 처리 작업에서 놀라운 성과를 보였음
GPT-3.5 : 021년 12월에 출시되었으며, GPT-3의 1750억 개의 파라미터와는 달리 60억 개의 파라미터를 가지고 있음. 그러나 GPT-3.5는 텍스트 분류 및 엔티티 인식과 같은 일부 작업에서 성능을 개선. 하지만, GPT-3.5가 모든 작업에서 GPT-3보다 우수한 성능을 보일 수 있는 것은 아니며, 모델의 성능은 작업, 데이터 및 평가 지표에 따라 다를 수 있음
다양한 GPT-3.5 모델들
GPT-3.5 Turbo | GPT-3.5 Turbo 0301 | Text-Davinci-003 | Text-Davinci-002 | Code-Davinci-002 |
출시: 2022년 1월 | 2022년 3월 | 2022년 10월 | 2022년 10월 | 2022년 10월 |
파라미터 수: 6억 4천만 개 | 6억 4천만 개 | 13억 5천만 개 | 6억 4천만 개 | 6억 4천만 개 |
기능: GPT-3.5 모델에서 파라미터 수를 대폭 축소하여 더 빠른 속도와 작은 메모리 사용량을 제공 | GPT-3.5 Turbo 모델과 동일하지만 더 나은 성능 | 자연어 처리 작업에서 다양한 우수한 성능을 보임. 특히, 텍스트 생성 작업에서 매우 뛰어난 성과 | Text-Davinci-003보다 작은 파라미터 수를 가지지만, 자연어 처리 작업에서도 우수한 성능 | 코드 생성 및 코드 자동 완성 작업에서 우수한 성능 |
다양한 OpenAI 모델들
GPT-3.5 | GPT-3을 개선하고 자연어 또는 코드를 이해하고 생성할 수 있는 일련의 모델 |
DALL·E Beta | 자연어 프롬프트가 주어지면 이미지를 생성하고 편집할 수 있는 모델 |
Whisper Beta | 오디오를 텍스트로 변환할 수 있는 모델 |
Embeddings | 텍스트를 숫자 형식으로 변환할 수 있는 일련의 모델 |
CodexLimited beta | 자연어를 코드로 번역하는 것을 포함하여 코드를 이해하고 생성할 수 있는 일련의 모델 |
Moderation | 텍스트가 민감하거나 안전하지 않은지 여부를 감지할 수 있는 미세 조정된 모델 |
GPT-3 | 자연어를 이해하고 생성할 수 있는 모델 세트 |