|
유튜버 주의: 여러분의 영상이 수십억 달러의 AI 머신에 연료를 공급하고 있습니다
https://greatgameindia.com/youtubers-beware-your-videos-are-fueling-billion-dollar-ai-machines/
Apple, Nvidia, Salesforce와 같은 기술 거대 기업은 YouTube의 이러한 관행에 대한 규칙에도 불구하고 수천 개의 YouTube 동영상의 자막을 비밀리에 사용하여 AI 모델을 훈련해 왔습니다. YouTube 자막이라는 이름의 이 데이터 세트에는 Khan Academy와 같은 교육 채널과 The Late Show, Last Week Tonight와 같은 인기 프로그램의 콘텐츠가 포함됩니다. 또한 MrBeast와 PewDiePie와 같은 YouTube 유명인의 동영상도 포함되어 있습니다. David Pakman과 Crash Course와 같은 채널은 자신의 콘텐츠가 사용되고 있다는 사실을 알지 못해 공정한 보상과 허가에 대한 우려가 제기되었습니다. 이 논란은 디지털 시대의 AI 개발과 콘텐츠 제작자의 권리에 대한 더 광범위한 윤리적 문제를 강조합니다.
기술 회사들은 종종 제작자의 지식 없이 의심스러운 방법을 사용하여 데이터에 굶주린 인공 지능 모델에 먹이를 공급합니다. 이러한 방법에는 책, 웹사이트, 이미지, 소셜 네트워크 게시물을 빨아들이는 것이 포함됩니다.
대부분 AI 회사가 훈련 데이터 소스를 비밀로 유지하는 반면, Proof News 조사에 따르면 세계에서 가장 부유한 AI 회사 중 일부는 수천 개의 YouTube 동영상에서 콘텐츠를 AI 훈련에 사용하고 있는 것으로 나타났습니다. Wired에 따르면 YouTube 정책에 따라 플랫폼에서 승인되지 않은 콘텐츠 추출이 금지되어 있음에도 불구하고 기업들은 계속 그렇게 하고 있습니다.
우리의 분석 결과, Anthropic, Nvidia, Apple, Salesforce 등 실리콘 밸리의 주요 기업들이 48,000개 이상의 채널에서 가져온 173,536개의 YouTube 영상의 자막을 사용하고 있는 것으로 나타났습니다.
Khan Academy, MIT, Harvard와 같은 교육 및 온라인 학습 채널의 비디오 대본이 YouTube 자막 컬렉션에 포함되어 있습니다. Wall Street Journal, NPR, BBC, The Late Show With Stephen Colbert, Last Week Tonight With John Oliver, Jimmy Kimmel Live의 비디오도 AI를 훈련하는 데 사용되었습니다.
유튜브의 메가스타 MrBeast(구독자 2억 8,900만 명, 훈련용 영상 2개), Marques Brownlee(구독자 1,900만 명, 영상 7개), Jacksepticeye(구독자 약 3,100만 명, 영상 377개), PewDiePie(구독자 1억 1,100만 명, 영상 337개)는 Proof News가 발견한 유명인사들 중 일부였습니다. AI 훈련 데이터의 일부는 "평평한 지구 이론"과 같은 음모론을 퍼뜨렸습니다.
Proof News는 YouTube AI 훈련 데이터세트에서 제작자를 찾는 도구를 개발했습니다.
200만 명 이상의 구독자와 20억 건 이상의 조회수를 기록한 좌파 정치 채널인 The David Pakman Show의 진행자 David Pakman은 "아무도 제게 와서 '이걸 사용하고 싶어요'라고 말하지 않았습니다."라고 말했습니다. 그의 영상은 약 160개가 YouTube 자막 교육 데이터 세트에 포함되었습니다.
Pakman의 회사의 정규직 직원 4명은 TikTok, 팟캐스트 및 기타 플랫폼의 콘텐츠를 제작하고 매일 많은 비디오를 게시합니다. Pakman은 AI 기업이 돈을 받는다면 자신의 데이터 사용에 대한 대가를 받아야 한다고 주장했습니다. 그는 최근 여러 미디어 회사가 AI를 훈련하기 위해 자신의 작업을 사용하는 데 대한 대가를 요구하는 계약을 체결했다는 사실을 언급했습니다.
"이게 제 생계이고, 저는 이 콘텐츠를 만드는 데 시간, 자원, 돈, 직원 시간을 투자했습니다." Pakman이 말했습니다. "실제로 일이 부족하지 않습니다."
제작자가 일부 소유하고 있으며 일부 작업이 AI를 훈련하기 위해 YouTube에서 도난당한 스트리밍 서비스인 Nebula의 CEO는 이를 "도난"이라고 불렀습니다.
Wiskus는 허가 없이 아티스트의 창작물을 사용하는 것은 "무례한 일"이라고 말했는데, 특히 스튜디오가 "가능한 한 많은 아티스트를 대체하기 위해 생성 AI를 활용할 가능성"을 감안할 때 더욱 그렇습니다.
"이것이 아티스트를 착취하고 해치는 데 쓰이게 될까요? 네, 물론입니다." Wiskus가 말했다.
데이터 세트 제작자 EleutherAI는 영화가 허가 없이 사용되었다는 주장을 포함하여 Proof의 결론에 대한 문의에 답하지 않았습니다. 회사 웹사이트에 따르면, 회사의 주요 목표는 Big Tech 외부의 사람들이 AI 개발을 더 쉽게 이용할 수 있도록 하는 것입니다. 과거에는 "모델을 훈련하고 릴리스하여 최첨단 AI 기술에 대한 액세스"를 사람들에게 제공함으로써 이를 수행했습니다.
YouTube 자막은 영상 자막의 간단한 텍스트일 뿐이며, 아랍어, 독일어, 일본어 등 다른 언어로의 번역이 포함되는 경우가 많습니다.
EleutherAI에서 제작한 연구에 따르면, 이 데이터 세트는 비영리 단체가 Pile이라고 명명한 분류의 구성 요소입니다. Pile 개발자는 YouTube 외에도 영어 위키피디아, 유럽 의회, 그리고 회사에 대한 연방 조사의 결과로 공개된 Enron Corporation 직원이 보낸 방대한 이메일 모음의 콘텐츠를 통합했습니다.
인터넷에서 충분한 컴퓨터 성능과 저장 공간이 있는 사람이라면 누구나 Pile의 데이터 세트 대부분에 접근할 수 있습니다. 이 데이터 세트는 Big Tech 회사뿐만 아니라 학계와 다른 개발자들도 활용했습니다.
Apple, Nvidia, Salesforce(시가총액이 수천억, 수조 달러에 달하는 회사)는 연구 논문과 게시물에서 Pile을 사용하여 인공 지능을 훈련한 방법을 설명합니다. 또한 기록에 따르면 Apple은 iPhone과 MacBook에 추가 AI 기능을 통합할 계획을 발표하기 불과 몇 주 전에 4월에 공개된 잘 알려진 모델인 OpenELM을 Pile을 사용하여 훈련했습니다. Bloomberg와 Databricks의 공개에 따르면 이 회사도 Pile에서 모델을 훈련했습니다.
Amazon으로부터 40억 달러의 투자를 받은 유명한 AI 개발사인 Anthropic도 이를 실행했으며 "AI 안전"에 중점을 두고 있다고 주장합니다.
Anthropic의 대변인인 Jennifer Martinez는 Anthropic의 생성 AI 보조인 Claude에서 Pile을 사용하는 것을 확인하는 성명에서 "The Pile에는 YouTube 자막의 아주 작은 하위 집합이 포함됩니다."라고 말했습니다. "YouTube의 약관은 Pile 데이터 세트 사용과는 다른 자체 플랫폼의 직접 사용을 포함합니다. YouTube 서비스 약관의 잠재적 위반에 대한 요점에 대해서는 Pile 작성자에게 문의해야 합니다."
Salesforce는 또한 Pile을 사용하여 "학술 및 연구 목적"으로 AI 모델을 만들었다고 추가로 밝혔습니다. 회사의 AI 연구 부사장인 Caiming Xiong은 성명을 통해 해당 데이터 세트가 "공개적으로 사용 가능하다"고 강조했습니다.
동일한 AI 모델은 결국 2022년에 Salesforce에서 일반 대중에게 공개되었고, Hugging Face 웹사이트에 따르면 그 이후로 최소 86,000회 다운로드되었습니다. Salesforce 개발자는 연구 보고서에서 Pile에 욕설 외에도 "성별 및 특정 종교 집단에 대한 편견"이 포함되어 있으며, 이로 인해 "취약성과 안전 문제"가 발생할 수 있다고 언급했습니다. Proof News는 YouTube 자막에서 욕설과 함께 인종 및 성별을 비하하는 발언이 수천 건 발견되었습니다. Salesforce 담당자는 안전 문제에 대한 문의에 응답하지 않았습니다.
엔비디아 관계자는 발언을 거부했습니다. 블룸버그, 데이터브릭스, 애플의 대표들은 논평 요청에 응답하지 않았습니다.
YouTube의 데이터 보물 창고
브라질 리우데자네이루에 있는 Fundação Getulio Vargas Law School의 AI 정책 연구원이자 CyberBRICS 펠로우인 Jai Vipra에 따르면, AI 회사는 부분적으로 더 높은 품질의 데이터를 확보함으로써 서로 경쟁합니다. 이는 기업이 데이터 소스를 비밀로 유지하는 이유 중 하나입니다.
뉴욕 타임스는 올해 초 YouTube를 소유한 회사인 Google이 YouTube 동영상의 텍스트를 사용하여 모델을 훈련했다고 밝혔습니다. 대변인은 신문에 YouTube 크리에이터와의 계약에 따라 사용이 허용되었다고 알려 주었습니다.
타임즈의 조사는 또한 OpenAI가 YouTube 영상을 부적절하게 사용했다는 사실을 밝혀냈습니다. 기사의 결론은 회사 직원에 의해 확인되거나 반박되지 않았습니다.
OpenAI의 임원들은 텍스트 단서를 사용하여 비디오를 생성하는 회사의 AI 제품 Sora가 YouTube 영상으로 훈련되었는지에 대한 질문에 공개적으로 응답하기를 지속적으로 거부했습니다. 월스트리트 저널 기자는 올해 초 OpenAI의 최고 기술 책임자인 미라 무라티에게 이 질문을 던졌습니다.
무라티는 "사실 그건 잘 모르겠어요."라고 대답했습니다.
Vipra는 YouTube 자막과 같은 음성-텍스트 데이터를 잠재적인 "금광"이라고 설명했습니다. 이는 인간의 말과 대화를 모방하는 모델을 훈련하는 데 사용할 수 있기 때문입니다.
"그게 여전히 엄밀한 원칙이에요." 300만 명의 회원을 보유한 과학 수업 채널인 Professor Dave Explains의 진행자 데이브 파리나는 이렇게 말했습니다. 이 채널에는 유튜브에 자막을 제거한 140편의 영상이 소개됩니다.
그는 "제가 [제품을 만드는 데] 한 일로 수익을 낸다면, 그 일로 인해 제가 일자리를 잃거나 저와 비슷한 사람들이 일자리를 잃을 수도 있는데, 그럴 경우 보상이나 어떤 종류의 규제에 대한 논의가 필요합니다."라고 말했습니다.
2020년 책 YouTube Subtitles에는 YouTube에서 삭제된 12,000개 이상의 동영상 자막도 포함되어 있습니다. 적어도 한 번은 저자가 인터넷 정체성을 완전히 제거했지만, 그들의 창작물은 알려지지 않은 수의 AI 모델에 통합되었습니다.
Proof News는 이 보고서에 언급된 채널 소유자와 연락을 취하려고 노력했습니다. 많은 사람이 의견을 요청했을 때 언급을 거부했습니다. 우리가 이야기를 나눈 크리에이터 중 누구도 자신의 작품이 도난당했다는 사실을 알지 못했고, 어떻게 사용되었는지는 더더욱 알지 못했습니다.
핸크와 존 그린의 교육 비디오 제국의 초석이었던 SciShow(구독자 800만 명, 촬영된 영상 228개)와 Crash Course(구독자 약 1,600만 명, 촬영된 영상 871개)의 제작자들은 당황한 사람들 중 일부였습니다.
복잡하게도, 쇼를 제작한 제작사는 "우리의 신중하게 제작된 교육 콘텐츠가 우리의 동의 없이 이런 식으로 사용되었다는 사실을 알게 되어 실망스럽습니다."라는 성명을 발표했습니다. CEO인 줄리 월시 스미스가 성명을 썼습니다.
창의산업에서는 이전에도 AI 훈련 데이터를 접한 적이 있으며, YouTube 자막은 그 중 하나에 불과합니다.
Proof News의 기고자 Alex Reisner는 또 다른 Pile 데이터 세트인 Books3의 사본을 획득했고, 작년에 The Atlantic에 게재된 기사에서 Zadie Smith, Margaret Atwood, Michael Pollan의 작품을 포함한 180,000권 이상의 책이 도난당했다고 밝혔습니다. 그 이후로 수많은 작가들이 AI 회사를 상대로 소송을 제기하여 회사가 저작권을 침해하고 허가 없이 작품을 사용했다고 주장했습니다. 그 이후로도 비슷한 사건이 있었고 Books3의 호스트 플랫폼에서 이를 중단했습니다.
Meta, OpenAI, Bloomberg를 포함한 피고들은 소송에 반박하며, 그들의 활동이 공정 사용에 해당한다고 주장했습니다. 원고들은 책을 처음으로 파기하고 대중에게 공개한 회사인 EleutherAI에 대한 소송을 기꺼이 취하했습니다.
나머지 사례는 아직 소송 초기 단계이므로 승인 및 지불 문제는 여전히 열려 있습니다. The Pile은 더 이상 공식 다운로드 페이지에서 액세스할 수 없지만 파일 공유 서비스는 여전히 호스팅하고 있습니다.
DiCello Levitt의 파트너이자 소비자 보호 변호사인 에이미 켈러는 "기술 회사들은 무자비하게 행동했습니다."라고 말했습니다. 켈러는 AI 회사가 허가 없이 작업을 가져갔다는 주장을 하는 크리에이티브를 대신하여 소송을 제기했습니다.
켈러는 "사람들은 이 문제에 대해 선택권이 없다는 사실에 대해 우려하고 있습니다."라고 말했습니다. "저는 그것이 정말 문제가 있다고 생각합니다."
앵무새를 흉내내다
많은 창작자들은 앞으로 무슨 일이 일어날지 두려워합니다.
유튜버들은 자신의 콘텐츠가 승인되지 않고 사용되는 것을 인터넷에서 철저히 감시하고 자주 삭제 요청을 제출하며, 일부는 인공 지능이 정확히 자신들이 만든 것과 동일하거나 유사한 콘텐츠를 곧 만들어낼 수 있을지 우려하고 있습니다.
데이비드 팩먼 쇼 제작자 팩먼은 TikTok을 탐색하던 중 AI의 잠재력을 발견했습니다. 그는 Tucker Carlson의 작품처럼 보이는 비디오를 발견했지만, 팩먼은 그것을 보고 충격을 받았습니다. 칼슨처럼 들리기는 했지만, 모든 것, 심지어 리듬까지도 팩먼이 YouTube 프로그램에서 언급한 대로였습니다. 그는 비디오에 댓글을 단 사람 중 단 한 명만이 칼슨이 팩먼의 시나리오를 읽는 음성 사본이 가짜라는 것을 깨달은 것 같다는 사실에도 마찬가지로 우려했습니다.
팩먼은 YouTube에 올린 사기 관련 영상에서 "이건 문제가 될 거야"라고 말했다. "기본적으로 누구와도 할 수 있어."
EleutherAI의 공동 창립자인 Sid Black은 GitHub에서 YouTube 자막을 생성하는 데 스크립트를 사용했다고 밝혔습니다. 자막은 YouTube 시청자의 브라우저가 비디오를 볼 때와 마찬가지로 YouTube API에서 해당 스크립트에 의해 다운로드됩니다. GitHub의 문서에 따르면 Black은 "재미있는 블로거", "아인슈타인", "흑인 개신교도", "보호 사회 서비스", "정보 전쟁", "양자 색역학", "벤 샤피로", "위구르족", "과일주의자", "케이크 레시피", "나스카 선", "평평한 지구"와 같은 495개의 검색어를 사용하여 비디오를 필터링했습니다.
YouTube 서비스 약관에서는 "자동화된 수단"을 통해 영화에 액세스하는 것을 금지하고 있지만, 해당 코드는 2,000명이 넘는 GitHub 사용자가 북마크하거나 추천했습니다.
머신 러닝 엔지니어 조나스 데포이는 GitHub 대화에서 "YouTube가 원하는 것이라면 이 모듈이 작동하지 않도록 할 수 있는 방법은 여러 가지가 있습니다."라고 말했습니다. 데포이는 또한 Black이 YouTube 자막을 얻는 데 사용한 코드를 업로드했습니다. "지금까지 이런 일은 일어나지 않았습니다."
Depoix는 Proof News에 보낸 이메일에서 대학생 때 프로젝트를 위해 코드를 작성한 이후로는 코드를 사용하지 않았으며 누군가가 도움이 된다고 생각한다는 사실에 충격을 받았다고 말했습니다. YouTube의 가이드라인과 관련하여 그는 답변을 거부했습니다.
코멘트 요청에 대한 응답으로, Google 대변인 Jack Malon은 이메일을 통해 회사가 "남용적이고 무단 스크래핑을 방지하기 위해 수년간 조치를 취했습니다."라고 밝혔습니다. 다른 회사에서 해당 정보를 교육 데이터로 사용하고 있는지 물었을 때 그는 아무 말도 하지 않았습니다.
구독자가 15만 명에 가까운 채널인 Einstein Parrot의 146개 동영상은 AI 기업에서 사용하는 동영상 중 하나입니다. 유명한 새의 보호자인 Marcia는 잘 알려진 새의 안전을 우려하여 성을 밝히기를 거부했습니다. 그녀는 AI 모델이 모방하는 앵무새의 문구를 삼켰다는 사실을 처음 알았을 때 재밌다고 인정했습니다.
"누가 앵무새 목소리를 쓰고 싶어할까요?" 마샤가 말했다. "하지만, 그가 말을 아주 잘한다는 걸 알아요. 그는 제 목소리로 말해요. 그래서 그는 저를 앵무새처럼 따라하고, AI는 앵무새를 앵무새처럼 따라해요."
AI는 데이터가 소비되면 다시 학습할 수 없습니다. Marcia는 새의 데이터 사용 가능성에 대해 우려했는데, 여기에는 새의 디지털 복제품을 만들고 심지어 저주할 가능성도 포함되었습니다.
"우리는 미지의 영역을 탐험하고 있어요." 마샤가 말했다.
이번 달 GreatGameInternational은 기업들이 AI 시스템이 훈련 목적으로 텍스트를 스크래핑하는 것을 막기 위해 과감한 조치를 취하고 있다고 보도했습니다 . 이는 콘텐츠가 풍부한 웹사이트와 모델을 개선하기 위해 방대한 양의 텍스트가 필요한 AI 개발자 간의 치열한 싸움을 불러일으켰습니다.