[4월3일] 데이터 부족이 AGI 발전 막을까...
"2년 내로 인터넷에서 더 학습할 내용 없어질 것"
향후 2년 안으로 인공지능(AI) 학습에 필요한 인터넷 데이터가 바닥을 드러낼 것이라는 지적이 나왔습니다. 이에 따라 학습량을 늘리고 매개변수를 키우는 방식으로 성능을 높이는 대형언어모델(LLM) 개발 방식이 더 지속되기 어려울 것이라는 예측입니다.
인터넷에는 쓸만한 자료가 많지 않고, 저작권 문제가 강화되며 더욱 데이터 확보가 어려워진다는 것이 이유입니다.
물론 이 문제는 오픈AI나 구글, 앤트로픽 등 첨단 프론티어 모델을 개발하는 일부 기업에 국한될 수 있습니다. 하지만 인공일반지능(AGI) 등장을 기대하는 사람들에게는 섭섭한 소식이 될 수도 있습니다.
여기에 모델이 커질수록 필요한 AI 칩과 전력 등 비용 문제도 만만치 않습니다. 또 트랜스포머 모델 자체의 한계를 지적하는 이야기도 거듭 등장하고 있습니다.
최근에는 단순히 모델 크기를 키우는 것 이외에도 다양한 LLM 성능 고도화 기술이 등장하고 있습니다. 그중 전문가 믹스(MoE)라는 방식은 최근 대세가 됐고, 얼마 전 사카나 AI가 선보인 모델 병합(Merge)에 따른 진화 방식도 눈에 띕니다. 또 로봇을 통해 물리적 정보를 학습하는 것도 AGI의 돌파구로 여겨집니다.
AGI로 향하려면 무엇이든 획기적 변화가 필요하다는 지적이 나옵니다. 물론 역사가 말해 주듯 변화는 천천히, 그러다 어느 순간 갑작스럽게 다가오는 게 일반적입니다.