[Kevin Roose의 뉴욕타임즈 칼럼 : Bing의 챗봇과의 대화는 나를 깊이 혼란스럽게 만들었습니다]의 또다른 관점을 살핀다.
ChatGPT를 이해하는 측면과, 왜 ChatGPT가 말도 안되는 오류를 일으키는지에 대한 내용 정리다.
1. ChatGPT에 대한 이해
1) 초대 규모의 인공지능이 처음으로 일반인에게 정면으로 나타난 사건 (마치 알파고가 이세돌 9단을 이긴 사건처럼)
* 초대 규모의 인공지능 : ChatGPT 뒤에는 1초에 312조번의 연산을 수행하는 엔비디아의 GPU가 있음
2) 뉴럴 네트워크 방식의 차세대 인공 지능 방식 : 잠재된 패턴들을 기가 막히게 찾아냄
10억개이 매개변수별로 가중치를 주고, 이 가중치를 지속 조정해 가면서 결과를 도출
3) Chat은 대화형 : (1) 입력을 대화형으로 (2) 단기 기억이 있어야 대화를 이어갈 수 있음
4) G는 Generative는 생성 : 그림을 학습하면 그림을 그리고 동영상을 학습하면 동영상을 만들고 글을 학습하면 글을 씀
ChatGPT는 글을 생성하는 AI
5) P는 Pre-Trained : 3000억개의 단어와 5조개의 문서 학습 (인간이 만든 거의 모든 문서를 다 학습)
이는 (1) 거대한 데이터를 사전 학습했다는 의미와 (2) 다음에 다른 것을 학습을 시킬 때는 퓨샷 러닝이라고 해서 그 분야에 관한 모든 데이터들을 조금만 줘도 학습을 한다는 의미임 (언어를 학습했을 뿐인데 어떤 전문 분야에 대한 것도 몇 개의 데이터만 주면 마치 잘 알고 있는 것처럼 그럴듯한 대답을 제시)
6) T는 Transformer : 이 단어의 다음 단어가 뭐가 올지를 확률로 예측
이는 (1) 5조개의 문서를 학습했으니까이 단어의 다음에 어떤 하나가 배치될 지를 1초에 312조 번의 연산을 하는 컴퓨터가 뒤에 붙어 있어 말도 안되는 정도의 계산을 수행, (2) attention이라는 모델을 사용해서, 문장에서 핵심 단어가 뭔지를 파악을 하고, 그걸 기억 (예: 내가 어제 길가에 카페에 앉아서 하품을 하고 있는데 저쪽에서 김어준 총수 오고 있는 거야라고 말을 했다고 치면 이 문장에서 핵심은 하품은 아니고, 길가 카페도 아니고 김어준 총수를 내가 만났다는게 핵심임. 이를 ChatGPT는 attention해서 일을 수행)
2. ChatGPT는 왜 말도 안되는 오류를 일으키는가 : 할루시네이션 (hallucination)
미국의 어느 의학과 전문의가 가상의 환자의 그 진단 결과를 집어넣었음 : 35세 여성이고 과거 병력이 없는데 흉통 가슴의 통증이 있고 숨 쉴 때 통증이 심해진다 그리고 피임약을 복용하고 있다 이거 뭐냐라고 했더니 ChatGPT가 늑연골염일 가능성이 크다라고 했음. 한 번도 물어보니까 폐색전증일 수도 있다라고 답을 했음. 여기까지는 너무 근사했는데 그 다음에 ChatGPT가 갑자기 늑연골염이 경구 피임약 복용으로도 유발된다 이렇게 말을 했음. (이건 완전 거짓말) 의사가 근거가 있냐 질문하니 관련 논문이 나와 있다며 논문을 번호까지 딱 붙여서 대답을 했음 (근데 거짓말임, 그런 논문이 없음)
=> 단어 다음 단에 나올 가장 그럴듯한 말들을 찾는 모델임: 참인지 거짓인지를 뽑아내는 기계가 아니고 이런 질문에 대해서 가장 그럴듯한 답을 뽑아내는 기계
3. 세계 석학들의 ChatGPT에 대한 논평
노암 촘스키 : 천문학적인 양의 데이터에 접근해 규칙성 문자열 등에 기반해서 문장을 만드는 첨단기술 표절 시스템
얀 르쿤 : 거대언어모델은 인공일반지능으로 가는 길에서 벗어난 길
아티피셜 제너럴 인텔리전스가 인간의 지능을 넘어서는 지점을 싱귤레라티라 하는데, 거대 언어 모델로는 절대 그리 가지 못할 것
테드 창 : ChatGPT는 Web의 흐릿한 JPEG.
(여기에 대해서는 무슨 뜻인지 싶어 다른 자료를 좀 더 찾아봤음 ChatGPT는 웹의 흐릿한 JPEG입니다 | GeekNews (hada.io)
: 웹의 정보를 저장할 때 인터넷에 대한 접근 권한을 잃어 버릴 것이라 상상해 보면
(1) 웹의 모든 텍스트를 압축하여 복사본을 만들고자 함 (2) 하지만 저장할 규모의 1%의 공간만 있어서 압축을 해야하기 때문에 손실 알고리듬을 써야할 것 (3) 이제 모든 것을 검색할 수 있지만, 텍스트가 너무 많이 압축되어서 정확한 인용문을 검색할 수 없음
ChatGPT는 웹에 있는 모든 텍스트의 흐릿한 JPEG 이라고 생각할 것
JPEG처럼 웹의 많은 정보를 유지하지만, 완벽하게 똑같은 비트시퀀스를 유지하는 것은 아니기 때문에 당신이 얻는 모든 것은 근사치임. 하지만 이 근사치가 ChatGPT가 만드는 탁월한 문법적 텍스트의 형태로 제공되기 때문에 일반적으로 허용 되는 것.
대규모 언어 모델은 텍스트의 통계적 규칙성을 식별하는데, 예를 들어 "공급이 적다" 같은 문구는 "가격이 상승한다" 라는 문장과 근접하여 나타나다보니,이런 관계를 많이 본 챗봇은 공급 부족으로 일어나는 영향에 대한 질문을 받았을때 가격 상승에 대한 답변으로 응답하게 됨)
이 자료는 아래 영상을 정리한 내용이다.
아래 영상의 55:59부터 약 20분간 내용이 나온다.