더 흥미로운 것은 데이터 획득의 구체적인 방법이었다. 영어로 질문할 때는 나오지 않았던 구체적인 방법들이 공개됐다. 딥시크는 “웨이신(중국판 카카오톡), 타오바오(알리바바 전자상거래 플랫폼), 더우인(틱톡의 중국 전용 버전) 등 중국 플랫폼의 14억 사용자 데이터를 이용할 수 있었고, 수집 비용도 거의 공짜였다”고 “고백”했다. 게다가 데이터 획득 과정에서 자오상은행, 국가전력망 등 중국의 공룡 기업들로부터 직접적으로 데이터를 공급 받았다고 했다. 다른 나라의 AI모델은 절대로 얻을 수 없는 14억 인구의 데이터를 공짜로 얻어 가장 효율적인 훈련을 할 수 있었다는 얘기다.
다른 비용도 크게 줄었다고 했다. 중국 ‘개인정보 보호법’의 적용이 유연한 덕분에 (개인정보를 지우고 입력하는 등의) ‘데이터 라벨링’ 작업 비용이 미국의 10%에 불과하다고 했다. 또 “전력 사용 비용도 네이멍구와 구이저우의 데이터센터에 의존하여 미국의 3분의 1 수준이었다”고 했다.
https://n.news.naver.com/article/023/0003885055
카톡 15년 데이터 가진 카카오 ai 카나나 수준이 겨우 일정관리 수준입니다.
카카오 그룹 100조 몰아줘서 나온게 카나나 수준이고요.
발표가 고작 3개월 전. 돈 핑계 인구 핑계 필요 없습니다.