[비욘드IT] AI 성능 낮춘 앤트로픽, 결과값도 제어한다면

최근 앤트로픽이 사용자 모르게 인공지능(AI) 성능을 고의로 낮춘 사실이 드러났다. 이어 미국 정부 지침 단 한 번에 글로벌 서비스를 전면 중단하는 사태까지 발생하며 파장이 일고 있다.

특정 대상을 향한 AI 무기화와 외부 통제 위험성이 가시화되면서 국가 안보와 산업 기밀을 보호하기 위한 소버린 AI 구축 중요성이 커지는 추세다.

16일 관련 업계에 따르면 글로벌 AI 서비스가 특정 국가나 기업을 겨냥해 결과값을 의도적으로 제어할 수 있을 뿐만 아니라 언제든 서비스 자체가 차단될 수 있음이 잇따라 증명되면서 AI 무기화에 대한 위기감이 고조되고 있다.

사용자 몰래 AI 성능 낮춰…입증된 조작과 통제 가능성

지난 9일 앤트로픽은 차세대 최상위 AI 모델인 '클로드 페이블 5(Claude Fable 5)'와 '클로드 미토스 5(Claude Mythos 5)'를 공개했다.

일반 사용자를 대상으로 한 페이블 5는 추론과 분석 능력을 극대화한 모델이다. 출시 직후 지식노동, 비전, 과학 연구 등 주요 AI 벤치마크에서 상위권 성능을 기록하며 주목을 받았다.

미토스 5는 동일한 기반 모델을 바탕으로 하되 보다 고도화된 작업 수행을 위해 일부 안전장치를 완화한 버전이다. 이 모델은 보안 이슈로 미국 정부와 협력 중인 '프로젝트 글래스윙(Project Glasswing)' 참여 기관 등에 제한적으로 제공된다.

페이블5와 미토스5는 LLM 모델 개발 업무 등은 사용자 알림 없이 성능을 낮춘다는 시스템 명령이 포함됐다(이미지=앤트로픽)

논란은 함께 공개된 공개 안전 문서(시스템 카드)에서 불거졌다. 해당 문서에 따르면 두 모델은 최첨단 대형언어모델(LLM) 개발 관련 작업에 대해 의도적인 지원 제한이 걸려 있었다. 최첨단 LLM 연구와 관련된 작업이 감지될 경우 내부적으로 프롬프트를 수정하거나 스티어링 벡터 등의 기법을 적용해 응답 품질을 몰래 낮추는 방식이다.

가장 큰 문제는 이 같은 조치가 319페이지 분량의 시스템 카드에 '사용자에게 보이지 않는다(not visible to the user)'고 명시돼 있었다는 점이다.

별도 경고나 안내 없이 성능이 저하된 답변을 받도록 설계돼 있었던 셈이다. 실제로 업데이트 이후 사용자들 사이에서는 LLM 개발 관련 작업뿐 아니라 복잡한 코딩·엔지니어링 작업 전반에서 성능 저하를 체감했다는 불만이 잇따랐다.

임정환 모티프 대표는 "사용자에게 알림 없이 의도적으로 오류 가능성을 심어놓고 그대로 작동시키는 것은 '악성코드'를 심어두는 것과 다를 바 없다"며 "이는 심각한 기만행위"라고 비판했다.

논란이 확산되자 앤트로픽은 약 48시간 만에 해당 정책을 철회하고 사과했다. 그러나 이번 사태는 글로벌 AI 기업이 안전이나 '경쟁'을 명분으로 언제든 사용자가 인지하지 못하게 통제 장치를 설계할 수 있음을 입증한 사례로 남았다.

미국 정부 지침 한 번에 멈춰선 AI… 韓 기업도 '직격탄'

성능 통제 논란의 충격이 가시기도 전에 외부 개입에 의한 셧다운 사태도 벌어졌다. 최근 앤트로픽은 미국 정부의 수출통제 지침에 따라 페이블 5와 미토스 5에 대한 서비스를 임시 중단했다.

미국 당국은 해당 모델의 '탈옥(jailbreaking)' 가능성이 국가 안보 및 사이버 보안상 위협이 될 수 있다고 보고 이 같은 강경 조치에 나선 것으로 전해졌다.

이 조치의 여파로 당장 국내에서도 클로드를 사용하고 있는 기업과 사용자가 더 이상 사용하지 못하는 등 타격을 입었다.

특히 앤트로픽의 사이버보안 협력 프로그램 '프로젝트 글래스윙'에 새롭게 참여했던 국내 주요 기업과 기관의 파트너십 실효성에 차질을 빚게 될 우려가 제기된다.

업계에서는 이번 사태가 핵심 AI 인프라를 해외 사업자와 외국 정부의 정책 판단에 의존할 경우 국내 기업과 기관의 연구·보안 협력 체계가 언제든 흔들릴 수 있음을 명백히 보여준 사례라고 지적한다.

한 AI 기업 관계자는 "이번 사태는 국내 기업의 핵심 AI 활용 기반이 외부 정책 변화에 따라 한순간에 마비될 수 있다는 점을 드러낸 사건"이라며 "국방, 보안, 반도체, 바이오처럼 전략성이 큰 분야일수록 국내에서 온전히 통제 가능한 AI 체계를 서둘러 갖춰야 한다"고 말했다.

"결과값 몰래 조작한다면"…국방·신약·보안 등 치명적 타격 우려

AI와 보안 전문가들은 연달아 일어난 일들이 제시한 핵심 위협으로 '타깃팅(표적화)'과 '은닉성'을 지목한다.

AI 응답을 보이지 않게 조정할 수 있다는 사실이 확인된 만큼 이를 악용할 경우 특정 사용자군이나 기업, 국적과 업종에 맞춰 아무도 모르게 결과값을 제어할 수 있기 때문이다.

국가안보전략연구원(INSS)과 삼성SDS 등도 일찍이 보고서를 통해 민감한 국가 데이터를 외국 빅테크의 AI 플랫폼에 의존할 경우 데이터 유출은 물론 외부 통제 위험까지 초래될 수 있다고 거듭 경고해 왔다.

국방 분야는 대표적인 고위험 영역으로 꼽힌다. 무기체계 운용, 미사일 조준 알고리즘, 사이버 방어 체계 등에 외산 AI가 깊이 개입할 경우, 실제 작전 상황에서 치명적인 오작동을 일으키거나 민감 정보가 국외로 빠져나갈 가능성을 배제할 수 없다.

보안·국방·의료 산업의 경우 외부 통제와 조작 위험에 노출될 경우 치명적인 사고로 이어질 우려가 있다(이미지=제미나이)

신약 개발 분야도 마찬가지다. 막대한 시간과 비용이 드는 후보물질 탐색, 임상 설계, 부작용 예측 과정에서 AI가 경쟁국 기업에 유리하도록 결과값을 왜곡한다면 국내 기업은 연구개발 전반에서 중대한 판단 오류를 겪고 돌이킬 수 없는 경쟁력 약화에 직면할 수 있다.

상황이 이렇다 보니 업계에서는 'AI 무기화'의 위험성에 대한 사회적 공감대를 넓히기 위해 정책 결정권자들이 소버린AI의 절실함을 직접 체감해야 한다고 입을 모은다.

[비욘드IT] AI 성능 낮춘 앤트로픽, 결과값도 제어한다면

관련기사

지금 뜨는 기사

이시각 헤드라인

K배터리, ESS 사업 본궤도…‘AI데이터센터’로 가속 목표

[유미's 픽] 구글 AI 에이전트 '제미나이 스파크', 韓서 통할까

美 의회, 중국AI 단속 시동…최대 배달플랫폼에 서한

"불황 오면 어쩌지?"…삼성·SK, 장기계약으로 메모리 사이클 깬다

ZDNet Power Center