구글, 마이크로소프트(MS), 아마존, 애플과 같은 빅테크가 없는 EU는 규제 강화 쪽에 중점을 두며 인공지능법(AI Act) 초안을 마련하고 고강도 규제를 예고했다. 일례로 해당 법안 초안에서 EU는 AI 개발 기업이 자사 생성형 AI 학습에 이용한 데이터의 출처와 저작권 등을 공개하도록 하고 있다. 챗GPT의 근간이 되는 초거대 AI GPT-3.5는 웹에서 크롤링(수집)한 말뭉치인 토큰 4100억개, 추가 웹 텍스트 토큰 190억개, 책 토큰 670억개, 위키피디아 단어 30억개를 학습한 것으로 알려졌다.
하지만 학습에 사용한 원자료 출처를 밝힌 적은 없다. 만약 EU의 새로운 AI 규제 법안이 마련된다면 오픈AI와 같은 생성형 AI업체는 데이터 출처를 밝혀야 하고, 저작권 동의가 없는 데이터를 학습했을 경우 소송에 직면할 수 있다. 자칫하면 소송 비용으로 파산할 수 있는 대목이다.