|
2024년 2월 24일 오후 4시 14분
OpenAI의 최근 텍스트-비디오 모델인 소라(Sora)는 중국이 세계 최고의 인공지능(AI) 기술과의 격차에 대해 새로운 경고 사격을 가해 중국에 왜 동등한 제품이 없는지에 대한 의문을 불러일으켰습니다. 2022년 ChatGPT 출시 이후 현지 연구원 및 투자자 검색이 진행되었습니다.
불과 몇 년 전만 해도 중국은 자국의 방대한 데이터를 활용해 안면 인식과 같은 기능을 위한 성숙한 애플리케이션을 개발함으로써 궁극적으로 글로벌 AI 경쟁을 지배할 것이라고 상상했습니다.
대형 모델을 사용하여 텍스트, 이미지, 비디오와 같은 콘텐츠를 생성하는 생성 AI의 최근 개발로 인해 미적분학이 바뀌면서 중국이 다시 한 번 후발국처럼 보입니다.
2월 16일에 출시된 Sora는 AI 전투를 비디오 생성 영역으로 이동시킵니다. 중국이 선도적인 AI 칩 설계자인 Nvidia가 개발한 고급 그래픽 처리 장치(GPU)와 같은 핵심 도구에 대한 접근 부족으로 인해 더 큰 어려움에 직면하고 있는 것과 같습니다. 미국의 수출 규제가 강화되면서다.
중국 최고의 AI 기업들은 생성 AI 분야에서 이미 미국 기업들보다 몇 년 뒤쳐져 있습니다. 이 분야에서는 베이징의 자칭 인터넷 거버넌스 모델이 골칫거리처럼 보입니다.
자체 ChatGPT 스타일의 대형 언어 모델을 출시하려는 중국의 경쟁에 합류한 중국 인터넷 보안 회사 360 Security Technology의 설립자 Zhou Hongyi는 Sora의 도입이 "중국의 머리에 찬물을 쏟아 붓는 것과 같았습니다"라고 말했습니다. 언론인 Yicai가 금요일에 보도했습니다.
그는 “많은 사람들의 머리를 식혀 해외 지도자들과의 격차를 보도록 강요한다”고 덧붙였다.
이번 주 소라에 대한 무자비한 반응으로 베이징은 가장 신뢰받는 국영 기업에 AI를 주도할 것을 요청했습니다. 국무원 국유자산감독관리위원회는 월요일 중앙 정부 직속 기업들에게 “AI가 가져온 심오한 변화를 수용”할 것을 촉구했습니다.
이들 기업 중 10개 기업이 AI 홍보 챔피언으로 지정됐지만, 감시단체는 선정된 기업의 이름을 밝히지 않았습니다.
뉴욕 대학교 Courant Institute of Mathematical Sciences의 컴퓨터 과학 조교수인 Xie Saining은 자신이 Sora 개발에 관여했다는 사실을 부인하고 재능, 데이터 및 컴퓨팅 능력의 중요성을 강조했습니다.
널리 보도된 소셜 미디어 게시물에서 Xie는 중국이 소라를 받아들일 준비가 되어 있는지 물었고, 국가는 이 기술이 "일부 사람이나 그룹에 의해 이익을 얻고 조작하는 도구로 남용되지 않도록" 해야 한다고 말했습니다.
현재 소라의 접근이 제한되어 있습니다. OpenAI의 이전 모델 중 일부와 달리 오픈 소스가 아니며 소수의 사람들만이 모델 시험판에 액세스할 수 있습니다.
중국 본토에서는 국가 사이버 공간 관리국에서 공개적으로 사용 가능한 모든 LLM(대형 언어 모델)을 당국에 등록하도록 요구합니다. OpenAI는 본토나 홍콩에서 서비스를 직접 제공하지 않으며 Google도 해당 시장에서 Gemini AI 제품을 제공하지 않습니다. OpenAI의 GPT 모델을 사용하는 Microsoft의 Copilot이 홍콩에서 출시되었습니다.
본토에 외국 기업이 없기 때문에 여러 현지 기술 대기업이 200개가 넘는 LLM이 있는 혼잡한 시장에서 자리를 놓고 경쟁하고 있습니다. 중국의 거대 검색업체 바이두(Baidu), 소셜 미디어의 거대 기업인 텐센트 홀딩스(Tencent Holdings), 사우스차이나모닝포스트(South China Morning Post)를 소유한 전자상거래 왕 알리바바 그룹 홀딩(Alibaba Group Holding) 등이 모두 자체 LLM을 공개했다.
그러나 부분적으로 아직 새로운 DiT(확산 변환기) 아키텍처를 사용하지 않기 때문에 Sora와 일치할 수 있는 제품은 거의 없습니다.
베이징에 본사를 둔 TikTok의 소유주인 ByteDance는 비디오 생성을 지원하는 데 사용되는 자체 비디오 모션 제어 도구인 Boximator가 아직 초기 단계이며 대량 출시될 준비가 되지 않았다고 말했습니다. "화질, 충실도, 지속 시간 측면에서 여전히 선도적인 비디오 세대 모델과 큰 격차가 있습니다."
그러나 일부 업계 관계자는 Sora와 일치하는 것보다 OpenAI 모델에 대한 액세스 권한을 얻는 것이 더 시급한 문제라고 보고 있습니다. 베이징에 본사를 둔 Sinodata는 OpenAI의 가장 큰 후원자인 Microsoft의 클라우드 컴퓨팅 플랫폼인 Azure에서 텍스트-비디오 도구를 사용할 수 있게 되면 Sora API 구독을 신청하는 최초의 회사 중 하나가 될 것이라고 말했습니다.
그러나 미국에서는 국회의원들이 이미 미국 AI 클라우드 서비스에 대한 중국의 접근을 억제하는 방법을 검토하고 있습니다.
한편, 런던에 본사를 둔 유니콘 Stability AI는 Sora의 인기에 따라 아키텍처가 생성 AI 구축을 위한 주류가 될 수 있기 때문에 DiT를 사용하는 텍스트-이미지 모델 Stable Diffusion 3을 출시했습니다.
이름을 밝히기를 거부한 한 중국 개발자는 중국 AI 엔지니어가 할 수 있는 길은 "먼저 소라를 해독하고 자체 데이터로 훈련시켜 유사한 제품을 생산하는 것"이라고 말했다.
저장(浙江)성 동부 항저우(杭州)에 본사를 둔 AI 기업가 쉬량(Xu Liang)은 머지않아 중국도 비슷한 서비스를 갖게 될 것이라고 말했다. 그는 “앞으로 한두 달 안에 소라 같은 모델이 중국 시장에서 나올 것이고, 다음 반년에도 많이 나올 것”이라고 말했다. 그러나 Xu는 중국 제품과 Sora 사이에 여전히 무시할 수 없는 격차가 있을 수 있다고 지적했습니다.
텐진사범대학교(TJNU)에서 AI와 머신러닝을 전공하는 왕수이 교수는 지난해 LLM 개발 경험을 통해 중국 빅테크 기업들이 이 분야 노하우를 쌓고 비축할 수 있었다고 말했다. 필요한 하드웨어를 갖추고 향후 6개월 내에 Sora와 같은 제품을 생산할 수 있는 능력을 제공합니다.
Sora 출시로 인해 인상적인 출력 뒤에 숨은 비밀에 대한 추측이 나왔습니다. 뉴욕 대학의 DiT 개발자 중 한 명인 Xie는 "데이터는 Sora의 성공에 가장 중요한 요소일 것입니다"라고 트윗했습니다. 그는 Sora에 약 30억 개의 매개변수가 있을 것으로 추정했습니다.
“사실이라면 이것은 불합리한 모델 크기가 아닙니다.”라고 그는 썼습니다. "Sora 모델을 훈련하는 데 예상만큼 많은 GPU가 필요하지 않을 수도 있음을 암시할 수 있습니다. 앞으로 매우 빠른 반복이 예상됩니다."
Sora가 출시되기 몇 달 전에 연구원 그룹은 Runway의 Gen-2 및 Pika의 성능을 평가하기 위해 설계된 비디오 생성 모델용 벤치마킹 도구인 VBench를 출시했습니다.
16차원 중 Gen-2는 화질과 심미성 측면에서 두각을 나타냈지만, 다이나믹 레인지와 외관 스타일에서는 약했다. 스탠포드 대학의 중국인 PhD 후보인 Guo Wenjing이 공동 창립한 Pika는 배경 일관성과 시간 깜박임에 가장 뛰어나지만 이미징 품질의 개선이 필요합니다.
싱가포르 난양 기술대학교와 중국 상하이 인공 지능 연구소의 연구원으로 구성된 VBench 팀은 OpenAI에서 제공한 데모를 기반으로 Sora가 다른 모델에 비해 전반적인 비디오 품질이 우수하다는 사실을 발견했습니다. 모델이 텍스트 프롬프트를 비디오로 변환하는 방법에 대한 정보는 제한적입니다.
IDC 중국의 신흥 기술 연구 책임자인 Lu Yanxia는 바이두, 알리바바, 텐센트와 같은 거대 기술 기업들이 중국에서 유사한 서비스를 가장 먼저 출시할 것이라고 말했습니다. 그녀는 미국의 승인을 받은 현지 AI 플레이어인 iFlyTek, SenseTime 및 Hikvision도 경쟁에 참가할 것이라고 말했습니다.
그러나 애널리스트들에 따르면 중국의 기술 시장이 자본, 하드웨어, 데이터, 심지어 인력 측면에서 점점 더 세계로부터 멀어지면서 중국은 여전히 힘든 싸움에 직면해 있다고 합니다.
중국이 '비합리적인 자본 확장'을 억제한다는 명목으로 거대 기술 기업을 무릎 꿇기로 결정한 이후 마이크로소프트, 구글, 엔비디아 등 미국 최고의 기술 기업과 비교한 중국 최고의 기술 기업 간의 시장 가치 격차는 최근 몇 년간 크게 벌어졌습니다.
Lu는 중국이 한때 데이터 양에서 이점을 갖고 있는 것으로 여겨졌지만 이제는 새로운 모델을 훈련하는 데 필요한 품질 데이터가 부족하여 고급 칩에 대한 제한된 접근으로 인해 어려움을 겪고 있다고 말했습니다. Lu에 따르면 인재 부족은 또 다른 우려 사항입니다. AI 분야에서 미국에서 가장 훌륭하고 뛰어난 인재가 미국의 선두 기업에서 일하는 것이 더 쉽게 빛을 발할 수 있기 때문입니다.
예를 들어 OpenAI에서는 중국 출신의 교육 배경을 가진 기술 전문가들이 핵심 그룹을 구성합니다. LinkedIn에 등록된 OpenAI 관련 회원 1,677명 중 23명은 스타트업 직원 중 9번째로 흔한 고등 교육 기관인 중국 칭화대학교에서 공부했으며, 이는 케임브리지 대학교와 예일 대학교를 제치고 나타났습니다.
OpenAI 근로자 중 상위 3개 기관은 Stanford University, University of California, Berkeley 및 Massachusetts Institute of Technology로, 각각 88명, 80명, 59명의 직원을 보유하고 있으며 LinkedIn 프로필에 해당 학교가 나열되어 있습니다.
하지만 전문가들은 필요한 인재가 있음에도 불구하고 미-중 무역 긴장으로 인한 기존 제약에 직면하면서 중국이 자체 개발한 생성 AI가 어디까지 갈 수 있는지 의문을 제기합니다.
핑안증권은 보고서에서 미국의 지속적인 반도체 수출 규제가 “국내 AI 칩 산업의 성숙도를 가속화할 수 있지만” “국산 대안은 기대에 미치지 못할 수 있다”고 경고했다.
워싱턴은 미국산 기술이 포함된 관련 제품에 대한 제한을 통해 중국 기업이 세계에서 가장 진보된 반도체 도구에 접근하는 것을 차단했습니다. 10월에 미국은 이러한 제한을 다시 강화하여 Nvidia가 이전 제한에 대응하여 중국 고객을 위해 특별히 설계한 GPU에 대한 본토의 액세스를 차단했습니다.
기술 연구 및 자문 그룹 Omdia의 고급 컴퓨팅 수석 분석가인 Alexander Harrowell은 중국에는 LLM 교육을 위해 GPU 이상의 옵션이 있다고 지적했습니다. “Google의 TPU(Tensor Processor Unit), Huawei의 Ascend, AWS의 Trainium 또는 상당수 스타트업 제품 중 하나를 사용할 수 있습니다.”라고 그는 말했습니다.
그러나 GPU를 교체하려면 비용이 듭니다. Harrowell은 “GPU 경로에서 멀어질수록 소프트웨어 개발 및 시스템 관리에 더 많은 노력이 소요됩니다.”라고 말했습니다.
항저우에 본사를 둔 기업가 Xu에 따르면 특히 중국 시장을 위한 기회도 있을 것이라고 합니다. 그는 “소라에 대한 기술 보고서의 출판과 곧 출시될 오픈 소스 비디오 모델을 통해 중국 플레이어들이 배울 수 있는 기반이 마련될 것”이라고 말했습니다. 그는 현지 비디오 모델이 중국어에 대한 더 나은 지원을 갖게 될 것이라고 덧붙였습니다.
TJNU의 Wang은 Sora 데모 비디오 중 하나에 중국 용이 춤추는 장면이 포함되어 있는데, 이는 활동에 대한 고정관념적인 묘사임을 발견했습니다. 중국의 수많은 민족, 민속 전통, 관습 및 지리적 다양성은 현지 비디오 모델이 현지 사용자에게 더 나은 서비스를 제공할 수 있는 풍부한 자료를 제공한다고 그는 말했습니다.
왕은 또한 중국과 미국 AI 사이에 '극복할 수 없는 격차'가 있다는 생각에 불만을 표시했습니다.
“중국 기업들은 미국 동료들이 새로운 제품을 내놓을 때마다 그냥 따라가서 사기를 치겠습니까, 아니면 안전한 인공 일반 지능을 위해 노력하겠다는 더 큰 목표를 세울 것입니까?” 왕이 물었다.
이 기사는 SCMP 에 처음 게재되었습니다 .