"법 어겨도 모르쇠"…불법 판 치는 빅테크, AI 학습 데이터 무단 사용

오픈AI가 자사 생성형 인공지능(AI) 모델인 'GPT-4'를 훈련하기 위해 100만 시간 이상의 유튜브 영상을 무단 활용했다는 주장이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이란 전망 속에 글로벌 빅테크들이 저작권 규정을 무시한 채 AI 학습용 데이터 확보에 사활을 거는 모습이다.

8일 뉴욕타임스에 따르면 오픈AI는 지난 2021년부터 AI 훈련에 쓰일 양질의 텍스트 데이터 부족에 직면했다. 또 이를 타개하기 위해 영상에서 자동으로 스크립트를 추출하는 '위스퍼(Whisper)'라는 소프트웨어를 개발한 것으로 알려졌다.

오픈AI는 위스퍼를 사용해 유튜브 영상에서 말소리를 텍스트로 받아 적고 이를 'GPT-4'의 AI 훈련에 사용했다.

앞서 오픈AI는 전작인 GPT-3 학습을 위해 주로 깃허브, 위키피디아와 같은 온라인 무료 오픈소스 플랫폼에 올라온 데이터 토큰(언어·이미지·코드 등의 결과물)을 약 3천억여개 수집해 사용했다. 그러나 GPT-4의 기능을 향상하기 위해 더 큰 규모의 학습 데이터가 필요해지자 유튜브 영상, 팟캐스트 콘텐츠 등을 활용한 것으로 전해졌다.

오픈AI는 텍스트 기반 생성형 AI '챗GPT' 출시 이후 계속해서 저작권 침해 논란에 휩싸였다. 앞서 미국 뉴욕타임스는 자사 콘텐츠를 무단으로 기계 학습에 활용했다며 오픈AI를 상대로 지난해 저작권 침해 소송을 냈다. 논란이 이어지자 오픈AI는 CNN·타임지 등에 뉴스 사용료를 내고 콘텐츠를 기계 학습에 이용하는 내용의 계약을 맺기도 했다.

파블로 비라로보스 에포크 연구원은 최근 월스트리트저널을 통해 "컴퓨터 과학 원리 중 '친칠라 스케일링 법칙'에 따라 'GPT-5'와 같은 AI 시스템은 현재의 성장 궤적을 따른다면 60조~100조 개의 데이터 토큰이 필요할 것"이라며 "이는 현재 사용 가능한 모든 고품질 텍스트 데이터를 10조~20조 개 이상 넘어서는 것"이라고 지적했다.

친칠라 스케일링 법칙이란 700억 개 매개변수의 친칠라 모델과 2천800억 개 매개변수의 고퍼 모델의 성능을 비교한 2022년의 실험 결과에서 비롯했다. 특정 매개변수 모델이 최적의 성능을 발휘하기 위해 필요한 학습 데이터양을 추정해 낸 것인데, 여기서 유추된 법칙에 따르면 5천300억 개 매개변수를 가진 모델의 경우 11조 개 토큰 상당의 학습 데이터가 필요하다. 이에 따라 매개변수가 2조 개에 달할 것으로 보이는 GPT-5는 60조 개 이상의 토큰 학습이 필요하다는 결론이 나온다.

에이리 모르코스 데이톨로지AI 창립자 겸 CEO는 "데이터 부족은 아직 미개척된 연구 분야"라며 "스파게티가 익었는지 벽에 던져 확인하는 것처럼 (데이터 부족은) 실제로 닥치지 않으면 알 수 없는 문제"라고 밝혔다.

이에 오픈AI의 직원들은 AI를 학습시키는 것은 정당한 이용 목적에 해당할 수 있다고 믿으며 위법 가능성을 인지하고 있었음에도 유튜브 콘텐츠를 무단 활용한 것으로 알려졌다. 하지만 현재 유튜브는 플랫폼에 올라온 영상을 재활용하는 것을 금지하고 있다.

다른 빅테크들도 마찬가지다. 유튜브 내부 사정을 잘 아는 구글 직원들은 "오픈AI가 유튜브 영상을 사용하고 있다는 사실을 알고 있었지만 막지 않았다"고 주장했다. 당시 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었는데, 오픈AI의 행동을 문제 삼을 경우 구글도 이를 활용하지 못하게 될 수 있다고 판단한 것으로 전해졌다.

메타도 온라인상 콘텐츠를 AI 훈련에 무단 사용했다. 뉴욕타임스는 "메타는 자사가 운영하는 페이스북·인스타그램 게시물뿐 아니라 소설과 에세이 등 저작물까지 무단으로 AI 훈련에 사용하고 있다"고 분위기를 전했다.

이 같은 빅테크들의 움직임 속에 닐 모한 유튜브 CEO는 최근 오픈AI를 향해 경고장을 날렸다. 오픈AI의 영상 생성 AI 모델 '소라'가 유튜브 동영상으로 학습했다는 의혹이 불거진 탓이다.

닐 모한 CEO는 지난 5일 블룸버그 오리지널과의 인터뷰에서 "크리에이터가 유튜브 플랫폼에 자신들의 창작물을 업로드할 때 기대를 하는 것 중 하나는 서비스 약관이 준수될 것이란 점"이라며 "서비스 약관은 영상 제목, 채널명 또는 크리에이터 이름과 같은 일부 유튜브 콘텐츠가 스크랩되는 것을 허용하는 것이지, 대본이나 영상 같은 것들이 다운로드되는 것은 허용하지 않는다"고 설명했다.