아마존, '홈페이지 무단 스크랩' 혐의로 AI 스타트업 조사

'퍼플렉시티' 조사 중…'LLM 훈련용 콘텐츠 무단 수집' 의심

인터넷입력 :2024/07/01 09:36    수정: 2024/07/01 11:14

아마존이 자사 홈페이지를 무단 스크랩했다는 혐의로 인공지능 스타트업 '퍼플렉시티'를 조사 중이다.

최근 엔가젯·와이어 등 외신 보도에 따르면, 아마존 운영사 '아마존웹서비스'는 퍼플렉시티가 규정을 위반하고 있는지 확인하기 위한 조사를 시작했다.

퍼플렉시티는 AI 개발의 토대가 되는 대규모언어모델(LLM) 훈련용 콘텐츠를 수집하기 위해 아마존 홈페이지를 무단으로 스크랩했다는 의심을 받고 있다.

(사진=씨넷)

대부분의 프로그램 개발자는 봇이 특정 페이지에 액세스할 수 있는지에 대한 지침이 포함된 '로봇(robots.txt)'이라는 문서 파일을 도메인에 넣는다. 이는 자발적인 조치지만, 프로그램 개발자들이 90년대에 표준화한 이래로 대부분의 스크랩 프로그램은 이를 지켜왔다.

아마존웹서비스의 클라우드 사업부는 퍼플렉시티가 '로봇' 문서 지침을 무시하는 스크랩 프로그램을 사용했다는 혐의를 조사하고 있다.

와이어드 등의 외신은 아마존 웹 사이트의 '로봇' 지침을 우회하는 가상 머신을 발견했다고 보도했다. 보도에 따르면, 이 시스템은 퍼플렉시티의 IP 주소를 사용해 아마존 서버에서 웹사이트의 사용됐다.

아마존웹서비스 대변인은 관련 성명서에서 "우리 회사의 서비스 약관은 불법적인 활동을 금지하며 고객은 이러한 약관을 준수할 책임이 있다"며 "우리는 다양한 출처로부터 관련 혐의에 대한 보고를 지속적으로 받고 있다"고 밝혔다.

그는 "우리 클라우드 사업부는 퍼플렉시티의 규정 위반 가능성에 대한 모든 정보를 종합해 조사 중이다"고 덧붙였다.

사라 플랫닉 퍼플렉시티 대변인은 자사의 스크랩 프로그램이 로봇 배제 프로토콜을 우회하고 있다는 사실을 부인했다. 그는 "아마존에서 실행되는 퍼플렉시티 봇은 로봇 문서를 존중하며, 퍼플렉시티가 아마존 서비스 약관을 위반하지 않는다는 것을 확인했다"고 말했다.