"저작권? 상관없다"...저커버그, 라마 AI에 불법 데이터로 학습 지시

테크크런치(TechCrunch)는 9일(현지시간) 메타(Meta)의 마크 저커버그(Mark Zuckerberg) CEO가 인공지능 모델 라마(Llama) 개발을 위해 불법 복제된 전자책과 논문을 학습 데이터로 사용하도록 직접 승인했다고 보도했다.

저커버그의 결단, "라마 AI에 불법 데이터 써라"

미국 캘리포니아 북부 지방법원에 제출된 소송 문건에 따르면, 메타의 AI 개발팀은 불법 복제 사이트 '립젠(LibGen)'의 데이터셋이 저작권을 침해했다는 사실을 알고 있었다. 센게이지 러닝(Cengage Learning), 맥밀런 러닝(Macmillan Learning) 등 주요 출판사들의 저작물을 무단으로 제공하는 립젠은 이미 수차례 소송에서 패소했으며, 수천만 달러의 벌금을 부과받은 바 있다.

저작권 흔적 지우기에 나선 메타

메타의 라마 연구팀 엔지니어 니콜라이 바쉴리코프(Nikolay Bashlykov)는 전자책에서 저작권 정보와 '저작권', '감사의 글' 등의 문구를 삭제하는 스크립트를 제작했다. 원고 측은 이러한 행위가 단순한 학습 목적이 아닌 저작권 침해 사실을 은폐하기 위한 시도라고 주장했다.

메타는 립젠 데이터를 토렌트를 통해 입수했으며, 이 과정에서 파일 공유에도 참여한 것으로 드러났다. 메타의 생성형 AI 책임자 아마드 알-달레(Ahmad Al-Dahle)는 연구진이 제기한 법적 우려를 무시하고 토렌트 사용을 승인했다. 뉴욕타임스는 지난 4월 메타가 AI 데이터 확보를 위해 지름길을 택했다고 보도했으며, 당시 메타는 출판사 사이먼앤슈스터 인수까지 고려했으나 라이선스 협상에 시간이 너무 많이 걸릴 것으로 판단했다고 전했다.

법원의 경고

빈스 차브리아(Vince Chhabria) 판사는 메타의 문건 일부 삭제 요청을 기각하며 "이는 민감한 사업 정보 보호가 아닌 부정적 여론을 피하기 위한 것"이라고 지적했다. 현재 이 소송은 메타의 초기 라마 모델에만 해당되며, 최근 출시된 모델은 포함되지 않는다. 메타는 공정 사용 원칙을 근거로 저작권 침해가 아니라고 주장하고 있으며, 2023년에는 유사한 저작권 침해 소송에서 승소한 바 있다. 테크크런치는 이 사안에 대해 메타 측에 입장을 문의했으나, 현재까지 답변을 받지 못했다고 덧붙였다.