AI 훈련 데이터를 구매하려는 Big Tech의 지하 경쟁 내부

AI 훈련 데이터를 구매하려는 Big Tech의 지하 경쟁 내부  <a href="https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data" target="_blank" class="ke-link">https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data</a><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="Inside Big Tech's underground race to buy AI training data" data-og-description="Tech giants initially used reams of data scraped from the internet for free to train generative AI models like ChatGPT that can mimic human creativity." data-og-host="www.chinadailyhk.com" data-og-source-url="https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data" data-og-url="https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data" data-og-image="https://scrap.kakaocdn.net/dn/zs6IX/hyVJ5LzpSy/YkL2IGadhRZPcyAXLZtbbK/img.jpg?width=800&height=450&face=0_0_800_450,https://scrap.kakaocdn.net/dn/SWHCn/hyVJVvrmmt/kVboGVSae4MfjC6tktjR81/img.jpg?width=800&height=450&face=0_0_800_450,https://scrap.kakaocdn.net/dn/bJSORX/hyVMU9tyUT/w3sVhxovn5wNa0VqCxkpuk/img.jpg?width=1049&height=699&face=0_0_1049_699"><a href="https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data" target="_blank" data-source-url="https://www.chinadailyhk.com/article/384318#Inside-Big-Tech's-underground-race-to-buy-AI-training-data"><div class="og-image"><img src="https://scrap.kakaocdn.net/dn/zs6IX/hyVJ5LzpSy/YkL2IGadhRZPcyAXLZtbbK/img.jpg?width=800&height=450&face=0_0_800_450,https://scrap.kakaocdn.net/dn/SWHCn/hyVJVvrmmt/kVboGVSae4MfjC6tktjR81/img.jpg?width=800&height=450&face=0_0_800_450,https://scrap.kakaocdn.net/dn/bJSORX/hyVMU9tyUT/w3sVhxovn5wNa0VqCxkpuk/img.jpg?width=1049&height=699&face=0_0_1049_699" alt="" xxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text">Inside Big Tech's underground race to buy AI training dataTech giants initially used reams of data scraped from the internet for free to train generative AI models like ChatGPT that can mimic human creativity.www.chinadailyhk.com</div></a></div>로이터 통신 <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1YXpP/0c6809386e914b09c0f07e9256315bd8b29bd9c9" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1YXpP/0c6809386e914b09c0f07e9256315bd8b29bd9c9" data-origin-width="1049" data-origin-height="699"></div>2021년 5월 25일 촬영된 이 일러스트에는 돋보기를 통해 본 소셜 미디어 로고가 표시되어 있습니다. (사진/로이터)뉴욕 – 2000년대 초반 전성기에 Photobucket은 세계 최고의 이미지 호스팅 사이트였습니다. Myspace 및 Friendster와 같은 한때 인기 있었던 서비스의 미디어 백본인 이 서비스는 7천만 명의 사용자를 자랑하며 미국 온라인 사진 시장의 거의 절반을 차지했습니다.분석 추적기인 유사한 웹(Similarweb)에 따르면 오늘날 200만 명만이 여전히 Photobucket을 사용하고 있습니다. 그러나 생성적 AI 혁명은 AI에 새로운 생명을 불어넣을 수도 있습니다.콜로라도 주 에드워즈에서 40개 규모의 회사를 운영하고 있는 CEO 테드 레너드(Ted Leonard)는 로이터 통신 과의 인터뷰에서 포토버킷의 130억 장의 사진과 비디오에 대한 라이선스를 부여하기 위해 여러 기술 회사와 협의 중이며 이에 대응하여 새로운 콘텐츠를 생성할 수 있는 생성 AI 모델을 훈련시키는 데 사용할 예정입니다. 텍스트 프롬프트로.그는 사진당 5센트에서 1달러 사이, 비디오당 1달러 이상의 가격에 대해 논의했으며 가격은 구매자와 원하는 이미지 유형에 따라 매우 다양하다고 말했습니다."우리는 '우리는 훨씬 더 많은 것이 필요하다'고 말하는 회사들과 이야기를 나눴습니다."라고 Leonard는 덧붙였습니다. 한 구매자는 그의 플랫폼보다 더 많은 10억 개 이상의 비디오를 원한다고 말했습니다."머리를 긁적이며 '그건 어디서 구하지?'라고 말하더군요."Photobucket은 상업적 기밀을 이유로 잠재 구매자의 신원을 밝히기를 거부했습니다. 이전에 보고되지 않은 진행 중인 협상은 회사가 수십억 달러 상당의 콘텐츠를 보유하고 있으며 생성 AI 기술을 장악하기 위해 서두르면서 발생하는 분주한 데이터 시장을 엿볼 수 있음을 시사합니다.<blockquote>지금 당장은 스크랩할 수 없는 개인 소장품을 보유한 저작권 소유자를 찾는 일이 쇄도하고 있습니다.에드워드 클라리스( Klaris Law) 매니징 파트너</blockquote>Google, Meta 및 Microsoft가 지원하는 OpenAI와 같은 거대 기술 기업은 처음에는 인터넷에서 스크랩한 대량의 데이터를 무료로 사용하여 인간의 창의성을 모방할 수 있는 ChatGPT와 같은 생성 AI 모델을 교육했습니다. 그들은 이러한 관행에 대해 일련의 저작권 보유자로부터 소송에 직면했지만 그렇게 하는 것이 합법적이고 윤리적이라고 말했습니다.동시에 이러한 기술 회사들은 페이월과 로그인 화면 뒤에 잠긴 콘텐츠에 대해 조용히 비용을 지불하고 있으며, 채팅 로그부터 빛바랜 소셜 미디어 앱의 오랫동안 잊혀진 개인 사진에 이르기까지 모든 것에 대한 숨겨진 거래를 일으키고 있습니다.로펌 클라리스 로(Klaris Law)의 에드워드 클라리스(Edward Klaris)는 "지금은 스크랩할 수 없는 개인 컬렉션을 보유한 저작권 소유자를 찾는 일이 쇄도하고 있다"고 말했다. 클라리스 로(Klaris Law)는 콘텐츠 소유자에게 수천만 달러 규모의 거래에 대해 조언하고 있다고 밝혔다. AI 훈련을 위한 사진, 영화, 서적의 아카이브 라이선스를 각각 부여합니다.Reuters는 관련 회사의 현직 및 전직 임원, 변호사 및 컨설턴트를 포함하여 AI 데이터 거래에 대한 지식을 갖춘 30명 이상의 사람들과 대화하여 이 신생 시장에 대한 최초의 심층 탐구를 제공했습니다. 구매되는 콘텐츠 유형, 가격 등을 자세히 설명했습니다. 개인 데이터가 사람들이 알지 못하거나 명시적인 동의 없이 AI 모델에 유입될 위험에 대한 우려가 커지고 있습니다.OpenAI, Google, Meta, Microsoft, Apple 및 Amazon은 모두 이 기사에 대한 특정 데이터 거래 및 토론에 대한 논평을 거부했지만 Microsoft와 Google은 Reuters 에 데이터 개인 정보 보호 조항을 포함하는 공급업체 행동 강령을 언급했습니다.구글은 위반 사항을 발견할 경우 공급업체와의 계약 종료를 포함한 즉각적인 조치를 취할 것이라고 덧붙였습니다.많은 주요 시장 조사 회사들은 기업들이 종종 합의 사항을 공개하지 않는 불투명한 AI 데이터 시장의 규모를 추정하기조차 시작하지 않았다고 말합니다. Business Research Insights와 같은 연구자들은 현재 시장 규모를 약 25억 달러로 보고 있으며 10년 내에 300억 달러 가까이 성장할 수 있다고 예측합니다.생성 데이터 골드러시데이터 확보는 대규모 생성 AI '기반' 모델 제조업체가 시스템에 공급하는 엄청난 양의 콘텐츠를 설명해야 한다는 압력이 커지면서 발생합니다. 이 프로세스는 집약적인 컴퓨팅 성능이 필요하고 종종 완료하는 데 수개월이 걸리는 '훈련'으로 알려진 프로세스입니다. .기술 회사들은 비영리 저장소인 Common Crawl에서 제공하는 것과 같이 "공개적으로 이용 가능"하다고 설명하는 것과 같이 무료로 스크랩한 웹 페이지 데이터의 방대한 아카이브를 사용할 수 없다면 이 기술은 비용이 많이 들 것이라고 말합니다.그럼에도 불구하고 이들의 접근 방식은 수많은 저작권 소송과 규제 열풍을 불러일으키는 동시에 게시자들이 스크래핑을 차단하기 위해 웹사이트에 코드를 추가하도록 유도했습니다.이에 대응하여 AI 모델 제작자는 콘텐츠 소유자와의 거래와 수요를 충족하기 위해 등장한 데이터 브로커 업계의 급성장을 통해 위험을 방지하고 데이터 공급망을 확보하기 시작했습니다.예를 들어 ChatGPT가 2022년 말에 출시된 후 몇 달 동안 Meta, Google, Amazon 및 Apple을 포함한 회사는 모두 스톡 이미지 제공업체인 Shutterstock과 계약을 맺고 라이브러리에 있는 수억 개의 이미지, 비디오 및 음악 파일을 교육용으로 사용했습니다. 제도를 잘 아는 사람.거대 기술 기업과의 거래 규모는 처음에는 각각 2,500만 달러에서 5,000만 달러까지였지만 대부분은 나중에 확대되었다고 Shutterstock의 최고 재무 책임자인 Jarrod Yahes는 로이터에 말했습니다. 소규모 기술 기업들도 뒤를 이어 지난 두 달 동안 새로운 '활동의 붐'을 일으켰다고 그는 덧붙였습니다.Yahes는 개별 계약에 대해 언급을 거부했습니다. Apple 계약과 기타 거래 규모는 이전에 공개되지 않았습니다.Shutterstock의 경쟁사인 Freepik은 2개의 대형 기술 회사와 2억 개의 이미지 아카이브 대부분을 이미지당 2~4센트에 라이센스하기로 합의했다고 Reuters에 말했습니다. 호아킨 쿠엥카 아벨라 최고경영자(CEO)는 파이프라인에 유사한 거래가 5개 더 있으며 구매자를 밝히기를 거부했다고 말했습니다.초기 Shutterstock 고객인 OpenAI는 Associated Press 및 Axel Springer를 포함하여 최소 4개 언론사와 라이선스 계약을 체결했습니다. 로이터 뉴스(Reuters News)의 소유주인 톰슨 로이터(Thomson Reuters)는 AI 대형 언어 모델 훈련을 돕기 위해 뉴스 콘텐츠 라이센스 계약을 체결했다고 별도로 밝혔지만 세부 사항은 공개하지 않았습니다.'윤리적 출처' 콘텐츠팟캐스트, 짧은 영상, 디지털 어시스턴트와의 상호작용과 같은 실제 콘텐츠에 대한 권리를 확보하는 동시에 맞춤형 영상 및 음성 샘플을 처음부터 생성하기 위해 단기 계약직 근로자 네트워크를 구축하는 전용 AI 데이터 회사 산업도 등장하고 있습니다. , 데이터에 대한 Uber와 같은 공연 경제와 유사합니다.시애틀에 본사를 둔 Defined.ai는 Google, Meta, Apple, Amazon 및 Microsoft를 포함한 다양한 회사에 데이터 라이선스를 제공한다고 CEO Daniela Braga가 로이터에 말했습니다.요금은 구매자와 콘텐츠 유형에 따라 다르지만 기업은 일반적으로 이미지당 1~2달러, 단편 비디오당 2~4달러, 긴 영화의 경우 시간당 100~300달러를 지불할 의향이 있다고 Braga는 말했습니다. 텍스트의 시장 가격은 단어당 0.001달러라고 그녀는 덧붙였습니다.가장 민감한 처리가 필요한 누드 이미지의 가격은 5달러에서 7달러라고 그녀는 말했습니다.Defined.ai는 이러한 수익을 콘텐츠 제공업체와 나눈다고 Braga는 말했습니다. 그녀는 데이터 세트를 사용하는 사람들의 동의를 얻고 개인 식별 정보를 제거하기 때문에 데이터 세트를 "윤리적으로 공급된" 것으로 판매한다고 덧붙였습니다.이 회사의 공급업체 중 한 곳인 브라질에 본사를 둔 기업가는 자신이 출처로 삼은 사진, 팟캐스트, 의료 데이터의 소유자에게 총 거래 금액의 약 20~30%를 지불한다고 말했습니다.자신의 포트폴리오에서 가장 값비싼 이미지는 기술 회사가 금지한 그래픽 폭력과 같은 콘텐츠를 차단하는 AI 시스템을 훈련하는 데 사용되는 이미지라고 상업적인 민감성을 이유로 자신의 회사가 확인되지 않은 조건으로 공급업체가 말했습니다.이러한 요청을 이행하기 위해 그는 주로 경찰, 프리랜서 사진기자, 의대생으로부터 범죄 현장, 분쟁 폭력 및 수술의 이미지를 얻습니다. 종종 그래픽 이미지 배포가 더 일반적인 남미와 아프리카 지역에서 발생한다고 그는 말했습니다.그는 지난 10월 가자지구 전쟁이 시작된 이후 가자지구의 프리랜서 사진가들로부터 사진을 받았으며, 적대 행위가 시작될 때 이스라엘로부터 일부 사진을 받았다고 말했습니다.그의 회사는 폭력적인 부상을 보는 데 익숙한 간호사를 고용하여 훈련받지 않은 눈에 방해가 되는 이미지를 익명화하고 주석을 달았습니다.'위험할 것 같아'라이선스를 취득하면 일부 법적, 윤리적 문제를 해결할 수 있지만 Photobucket과 같은 오래된 인터넷 이름의 아카이브를 최신 AI 모델의 연료로 부활시키는 것은 특히 사용자 개인 정보 보호와 관련된 다른 문제를 제기한다고 인터뷰한 많은 업계 관계자가 말했습니다.AI 시스템은 훈련 데이터의 정확한 사본을 토해내는 등 게티 이미지 워터마크, 뉴욕 타임즈 기사의 축어적 단락, 실제 인물의 이미지 등을 뱉어내는 등 적발되었습니다. 이는 수십 년 전에 게시된 개인의 사적인 사진이나 친밀한 생각이 잠재적으로 통지나 명시적인 동의 없이 생성 AI 출력에 포함될 수 있음을 의미합니다.<blockquote>나는 그것이 매우 위험하다고 생각합니다. 승인하지 않은 사람의 사진과 유사한 것을 생성하는 AI가 있다면 그것은 문제입니다.다니엘라 브라가(Daniela Braga) , Defined.ai CEO</blockquote>포토버킷(Photobucket) CEO 레너드(Leonard)는 지난 10월 회사 서비스 약관 업데이트를 인용해 AI 시스템 교육을 목적으로 업로드된 모든 콘텐츠를 판매할 수 있는 '무제한 권리'를 부여하는 등 탄탄한 법적 근거를 갖고 있다고 밝혔습니다. 그는 라이선스 데이터를 광고 판매의 대안으로 보고 있습니다."우리는 청구서를 지불해야 하며 이를 통해 무료 계정을 계속 지원할 수 있는 능력을 얻을 수 있습니다"라고 그는 말했습니다.Defined.ai의 Braga는 Photobucket과 같은 "플랫폼" 회사로부터 콘텐츠를 획득하는 것을 피하고, 라이선스 권리에 대해 더 명확한 주장을 갖고 있는 영향력 있는 사람들로부터 소셜 미디어 사진을 얻는 것을 선호한다고 말했습니다.브라가는 플랫폼 콘텐츠에 대해 "매우 위험하다고 생각한다"고 말했다. "만약 그것을 결코 승인하지 않은 사람의 사진과 유사한 것을 생성하는 AI가 있다면 그것은 문제입니다."라이센스를 수용하는 플랫폼 중 Photobucket만이 유일한 것은 아닙니다. Tumblr의 모회사인 Automattic은 지난달 "일부 AI 회사"와 콘텐츠를 공유하고 있다고 밝혔습니다. 지난 2월 로이터 통신은 Reddit이 Google의 AI 모델 교육에 콘텐츠를 제공하기 위해 Google과 계약을 체결했다고 보도했습니다.Reddit은 3월 기업 공개를 앞두고 자사의 데이터 라이선스 사업이 미국 연방거래위원회(Federal Trade Commission)의 조사 대상임을 밝혔으며 진화하는 개인 정보 보호 및 지적 재산권 규정에 위배될 수 있음을 인정했습니다.지난 2월 AI 사용에 대한 서비스 약관을 소급 변경하지 말라고 기업에 경고한 FTC는 Reddit 조사에 대해 논평하거나 다른 훈련 데이터 거래를 조사하고 있는지 여부를 밝히기를 거부했습니다.