美 언론, 오픈AI 데이터 수집봇 차단 해제…이유는?

콘데 나스트·복스 등 주요 매체, 오픈AI와 라이센스 계약 체결…웹 크롤링 차단 필요 사라져

컴퓨팅입력 :2024/10/08 09:10    수정: 2024/10/08 09:11

최근 오픈AI의 웹 크롤링 차단율이 크게 줄어들고 있다. 주요 언론사들이 오픈AI와 파트너십을 맺었기 때문이다.

8일 와이어드에 따르면 오픈AI의 웹 크롤링 봇 'GPT봇'을 차단하는 뉴스 웹사이트의 비율이 올해 초 약 90%에서 최근 50%대로 대폭 감소했다. 콘데 나스트(Condé Nast), 복스(Vox)를 비롯한 여러 언론사들이 오픈AI와 라이센스 계약을 체결하면서 이러한 현상이 나타났다.

지난해 8월 공개된 이후 'GPT봇'은 인터넷에서 데이터를 수집해 '챗GPT' 모델을 학습시키는 데 사용돼 왔다. 많은 저작권자들은 동의 없이 콘텐츠가 사용됐다며 법적 대응에 나섰다. 지난해 오픈AI에 소송을 제기한 뉴욕타임스가 대표적인 사례다.

오픈AI의 웹 크롤링 봇 'GPT봇'을 차단하는 뉴스 웹사이트의 비율이 지난 5월 이후 꾸준히 감소하고 있다. (사진=오픈AI)

초기에는 많은 언론사들이 '로봇츠.txt(robots.txt)' 파일을 이용해 'GPT봇'으로부터 데이터를 보호하려 했던 것으로 알려졌다. '로봇츠.txt'는 크롤러가 웹페이지 수집을 제한하게 하는 파일로, 사이트의 특정 콘텐츠에 접근하지 못하게 설정할 수 있다. 최근 오픈AI가 라이선스 계약을 통해 데이터를 정식으로 사용하게 되면서 해당 파일의 사용률이 점차 낮아지는 추세다.

관련기사

일부 언론사들은 여전히 크롤러를 차단하고 있으나 대부분의 주요 매체들은 차단을 해제한 상태인 것으로 알려졌다. 타임지는 여전히 차단을 유지하고 있지만 기타 주력 매체들은 빠르게 입장을 선회하고 있다.

AI 콘텐츠 감지를 전문으로 하는 오리지널리티 AI의 존 길럼 대표는 "오픈AI는 크롤링 차단을 회사 미래에 대한 위협으로 보는 것이 분명하다"며 "이것이 회사가 라이센스 계약을 추진하는 원동력이 됐을 것"이라고 밝혔다.