파일·셸 권한 줬더니...앤트로픽, 클로드 코드 '비밀 추적 코드' 논란

앤트로픽의 인공지능(AI) 개발 도구 '클로드 코드'에 특정 사용자 환경을 식별하기 위한 코드가 숨겨져 있던 것으로 나타났다.

파일시스템 접근과 셸 명령 실행 등 강력한 권한을 가진 개발 도구가 사용자에게 알리지 않고 정보를 전송해온 사실이 드러나면서 투명성 문제가 도마 위에 올랐다.

2일 앤트로픽 엔지니어 타릭 시히파르는 해당 코드가 지난 3월 도입한 실험적 조치로 무단 리셀러의 계정 남용과 모델 증류(AI 복제)를 막기 위한 것이었다고 소셜미디어 엑스(X)를 통해 밝혔다.

이어 현재는 더 강력한 대응 수단을 마련한 상태라며 해당 코드는 업데이트를 통해 즉시 철회될 예정이라고 설명했다.

이번 사안은 '더리얼로(Thereallo)'라는 개발자가 클로드 코드 2.1.196 버전 바이너리를 분석한 결과를 블로그에 공개하면서 세상에 알려졌다.

그는 클로드 코드가 파일시스템과 셸, 깃(Git), 브라우저 등 사용자의 핵심 권한을 광범위하게 요구하는 만큼 클라이언트 바이너리 자체에 대한 검증이 필요하다고 판단해 분석에 나섰다고 설명했다.

분석 결과 클로드 코드는 시스템 프롬프트에 포함되는 날짜 문자열을 이용해 특정 신호를 숨기는 '암호화 은닉(스테가노그래피)' 기능을 포함하고 있었다. 기본적으로 클로드 코드 시스템 프롬프트에는 날짜를 입력할 때 "Today's date is YYYY-MM-DD" 형태로 문장이 삽입된다.

하지만 특정 조건이 충족되면 문장 속 홑따옴표(')를 구분하기 어려운 다른 유니코드 마커로 변경하거나 날짜 구분자를 하이픈(-)에서 슬래시(/)로 바꾸는 방식이 적용됐다. 사용자나 모델의 눈에는 평범한 문장으로 보이지만 앤트로픽 백엔드 서버는 이를 분류 코드로 파싱할 수 있게 설계한 것이다.

이 코드는 클로드 코드의 API 연결 경로를 지정하는 환경변수가 공식 주소가 아닌 경우에만 작동했다. 즉 자체 프록시나 게이트웨이, 리셀러 서비스 등을 거쳐 우회 접속하는 사용자만 타깃으로 삼은 로직이다.

이 조건이 충족되면 시스템은 추가로 두 가지를 확인했다. 사용자의 시간대가 중국(상하이, 우루무치)인지, 그리고 접속 호스트네임이 사전 정의된 블랙리스트 도메인이나 특정 AI 기업 키워드와 일치하는지 여부다.

공개된 블랙리스트 분석 결과에는 딥시크, 문샷, 미니맥스, 지푸, 바이촨, 스텝펀 등 중국의 신생 AI 기업 관련 키워드가 대거 포함된 것으로 나타났다. 도메인 목록에는 바이두, 알리바바, 바이트댄스 등 중국 대형 IT 기업 도메인과 함께 다수의 API 리셀러·프록시·게이트웨이 도메인도 포함됐다.

해당 목록은 외부 유출을 막기 위해 베이스64로 인코딩한 뒤 XOR 연산으로 한 번 더 난독화해 바이너리 내부에 저장돼 있었다.

더리얼로는 앤트로픽이 무단 리셀러나 모델 증류 파이프라인을 탐지하기 위해 해당 코드를 숨긴 것으로 분석하며 자산 보호라는 목적 자체는 이해할 수 있다고 평가했다. 하지만 이를 사용자에게 명확히 알리지 않고 시스템 프롬프트 내부에 숨겨진 신호 형태로 구현한 점은 심각한 문제라고 지적했다.

그는 "AI 코딩 에이전트는 로컬 파일을 읽고 수정하며 명령을 직접 실행할 수 있는 도구"라며 "게이트웨이 사용 여부를 확인할 필요가 있었다면 별도 원격 데이터 전송(텔레메트리) 필드를 쓰거나 문서화된 정책을 통해 투명하게 공개했어야 한다"고 주장했다.

실효성에 대한 의문도 제기됐다. 분석에 따르면 해당 기능은 호스트명 변경, 타임존 수정, 바이너리 패치 등 비교적 단순한 편법으로 우회할 수 있다. 정교한 기술 탈취 세력을 막기에는 한계가 있는 반면 내부 보안망을 위해 사설 게이트웨이나 연구 환경을 구축해 사용하는 일반 개발자들만 애꿎게 식별되어 피해를 볼 수 있다는 지적이다.