애플·엔비디아, AI 개발때 유튜브 자막 훔쳐…"17만 건 무단사용"

컴퓨팅입력 :2024/07/17 16:39    수정: 2024/07/17 16:52

애플, 엔비디아 등 세계 최대 규모 기술 회사들이 대량의 유튜브 자료를 동의 없이 무단으로 사용해 논란이 되고 있다.

프루프 뉴스(Proof News)에 따르면, 애플, 엔비디아, 앤트로픽, 세일즈포스 등 주요 기업들은 사용자의 동의 없이 약 17만 3천 건이 넘는 유튜브 영상 자막을 인공지능(AI) 서비스 훈련에 사용했다.

AI 데이터셋 업체 엘루서 AI(EleutherAI)가 만든 이 데이터 세트에는 4만8천 개 이상의 채널에서 17만3천536개의 유튜브 동영상 자막이 사용된 것으로 알려졌다.

사진=애플

해당 데이터세트는  유튜브 영상이나 이미지는 포함되어 있지 않으나, 유명 기술 평론가 마크케스 브라운리(Marques Brownlee), 세계 최다 구독자를 보유한 유명 유튜버 미스터 비스트(MrBeast)를 포함해 뉴욕타임스, BBC, ABC 뉴스 등의 대형 유튜브 영상 의 자막이 포함되어 있었다.

브라운 리는 자신의 엑스를 통해 “애플은 여러 회사로부터 AI용 데이터를 공급받았다"며, “그 중 한 회사가 저를 포함한 수많은 데이터·자막을 유튜브 동영상에서 스크랩했다”고 밝히며, "이 문제는 오랫동안 문제가 될 것"이라고 덧붙였다.

사진=씨넷

구글 대변인은 유튜브 데이터를 사용해 AI 모델을 훈련하는 회사는 유튜브 플랫폼의 약관 및 서비스를 위반한 것이라고 언급한 닐 모한 유튜브 최고 경영자(CEO)의 과거 발언이 여전히 유효하다고 엔가젯에 밝혔다.

해당 보도에 대해 애플, 엔비디아, 앤트로픽, 엔루서 AI 등은 입장을 내놓지 않았다.

세계 최대 콘텐츠 저장소인 유튜브는 자막 뿐만 아니라 오디오, 비디오, 이미지도 풍부하게 보유해 AI 모델을 훈련시키기에 매력적인 데이터 세트로 평가 받는다. 

관련기사

올해 초 미라 무라티 오픈AI 최고기술책임자(CTO)는 자사 AI 모델인 소라(Sora)를 훈련시키기 위해 유튜브를 참조했는지에 대한 질문에 "사용된 데이터의 세부 사항에 대해서는 언급하지 않겠지만, 그것은 공개적으로 이용 가능한 데이터나 라이선스가 부여된 데이터였다"라며 직접적인 언급을 피한 바 있다. 

이번 조사 결과는 일부 AI 기술이 콘텐츠 제작자의 동의나 보상없이 빼돌린 데이터를 기반으로 구축되었다는 불편한 진실을 강조한다고 엔가젯은 평했다.