중국이 오픈 AI(OpenAI)의 'GPT-3'나 구글(Google)의 'PaLM'에 대적할 대규모 언어 모델을 공개했다.
중국 칭화대학(Tsinghua University) 연구진이 중국어와 영어로 구성된 4000억개 이상의 텍스트 토큰으로 훈련한 1300억개의 매개변수를 가진 개방형 이중 언어 모델 'GLM-130B'를 공개했다고 믹스드(Mixed)가 27일(현지시간) 보도했다.
언어와 이미지 모델 또는 코드 모델을 위한 대규모 AI 모델은 인공지능(AI) 보급의 첨병 역할을 해왔다. 미국 오픈AI가 최초의 대규모 언어모델인 GPT-3를 출시한 것을 시작으로 구글의 PaLM, 메타의 OPT 모델, 빅사이언스(BigScience)의 BLOOM, AI21 Labs의 Jurassic-1, 알레프 알파(Aleph Alpha)의 Luminous 등이 속속 등장했다.
오픈AI는 마이크로소프트(MS)와 협력해 깃허브(Github) 데이터를 사용한 대규모 코드 모델 코덱스(Codex)도 내놓았다. 코드 모델은 구글, 아마존(Amazon), 딥마인드(Deepmind), 및 세일즈포스(Salesforce)에서도 사용할 수 있다.
이들 모델은 대부분 서양 데이터로 훈련, 중국에서는 액세스가 불가능하거나 가능하더라도 사용하기에 적합하지 않은 상태였다.
이에 중국에서는 화웨이(Huawei)가 지난해 11테라바이트 용량의 중국어 데이터를 가지고 훈련한 2000억 매개변수 언어모델인 'PanGu-Alpha'를 선보인 바 있다. 베이징 AI 아카데미(BAAI)도 1조 7500억개의 매개변수 다중 모드 모델인 'Wu Dao 2.0'을 내놓았다.
이번에 이중 언어모델 'GLM-130B'를 공개한 칭화대학은 벤치마크에서 메타의 OPT, BLOOM, 오픈AI의 GPT-3의 성능을 능가하는것으로 나타났다고 소개했다. 특히 소량의 데이터로 새로운 작업을 학습할 수 있는 중국어 및 영어 모델의 퓨샷 러닝(Few-Shot learning) 성능은 MMLU(대규모 다중 작업 언어 이해) 벤치마크에서 이전 상위 모델 GPT-3 수준을 능가한다는 주장이다.