앤트로픽이 에이전트 작업과 코딩 추론 능력을 대폭 강화한 신규 인공지능(AI) 모델을 선보였다. 기존 모델 대비 정교한 데이터 분석과 실제 개발 현장에서의 활용성을 높이는 데 초점을 맞춰 개발자 등 전문가 시장을 겨냥한 것이다.
6일 앤트로픽 공식블로그에 따르면 이 회사가 출시한 '클로드 오푸스 4.1' 모델은 유료 클로드 사용자, 응용 프로그램 인터페이스(API), 아마존 베드록, 구글 클라우드 버텍스 AI를 통해 즉시 이용 가능하다. 가격은 이전 버전인 '오푸스 4'와 동일하게 책정돼 접근성을 유지했다.
'클로드 오푸스 4.1'은 실제 소프트웨어 개발 능력을 측정하는 'SWE-벤치' 검증 평가에서 74.5%의 점수를 기록했다. 이는 심층 연구와 데이터 분석 능력 특히 세부 정보 추적과 에이전트 검색 기능이 향상된 결과다.

더불어 앤트로픽은 향후 몇 주 안에 훨씬 더 큰 폭의 개선을 이룬 모델을 출시할 계획이라고 예고했다. 이번 발표는 차세대 AI 모델 경쟁의 서막을 알리는 신호탄으로 읽힌다.
회사 측은 벤치마크 평가 방식의 투명성도 강조했다. 실제로 ▲SWE-벤치 ▲터미널-벤치에서는 확장 사고 기능 없이 최고 점수를 기록했다. 반대로 ▲TAU-벤치 ▲GPQA 다이아몬드 ▲MMMLU ▲MMMU ▲AIME 등 5개 항목에서는 최대 6만4천 토큰의 확장 사고를 활용해 성능을 측정했다고 설명했다.
특히 SWE-벤치 평가에서는 기존 '클로드 3.7 소네트' 모델에 사용하던 '계획 도구'를 제외했다. 대신 배시 툴과 파일 편집 툴 두 가지만을 활용해 간소화된 평가를 진행했다. TAU-벤치에서는 모델의 추론 능력을 극대화하기 위해 최대 작업 단계를 기존 30단계에서 100단계로 늘렸다.
관련기사
- 앤트로픽 대반란…오픈AI 제치고 'B2B 시장' 1위2025.08.01
- AI 비서 한 명으론 부족…'에이전트 전문가 군단' 시대 열렸다2025.07.25
- "AI, 인간 협박하고 살인까지"…언어모델 한계 드러나2025.06.22
- 국가 기밀도 맡긴다…앤트로픽 '클로드 거브', 美 정보기관 배치2025.06.08
업계 파트너들은 신규 모델의 실용성을 높이 평가했다. 일본 라쿠텐 그룹은 "'오푸스 4.1'은 불필요한 수정이나 버그 발생 없이 대규모 코드베이스 내에서 정확한 수정 사항을 찾아내는 데 탁월하다"며 "일상적인 디버깅 작업에 이처럼 정밀한 모델을 선호한다"고 밝혔다.
깃허브는 "(모델이) 여러 파일에 걸친 코드 리팩토링에서 특히 주목할 만한 성능 향상을 보였다"고 평가했다.