앤트로픽, 코딩 AI '클로드 4.1' 공개…개발자 시장 정조준

앤트로픽이 에이전트 작업과 코딩 추론 능력을 대폭 강화한 신규 인공지능(AI) 모델을 선보였다. 기존 모델 대비 정교한 데이터 분석과 실제 개발 현장에서의 활용성을 높이는 데 초점을 맞춰 개발자 등 전문가 시장을 겨냥한 것이다.

6일 앤트로픽 공식블로그에 따르면 이 회사가 출시한 '클로드 오푸스 4.1' 모델은 유료 클로드 사용자, 응용 프로그램 인터페이스(API), 아마존 베드록, 구글 클라우드 버텍스 AI를 통해 즉시 이용 가능하다. 가격은 이전 버전인 '오푸스 4'와 동일하게 책정돼 접근성을 유지했다.

'클로드 오푸스 4.1'은 실제 소프트웨어 개발 능력을 측정하는 'SWE-벤치' 검증 평가에서 74.5%의 점수를 기록했다. 이는 심층 연구와 데이터 분석 능력 특히 세부 정보 추적과 에이전트 검색 기능이 향상된 결과다.

앤트로픽이 에이전트 작업과 코딩 추론 능력을 대폭 강화한 신규 인공지능(AI) 모델을 선보였다. (사진=앤트로픽)

더불어 앤트로픽은 향후 몇 주 안에 훨씬 더 큰 폭의 개선을 이룬 모델을 출시할 계획이라고 예고했다. 이번 발표는 차세대 AI 모델 경쟁의 서막을 알리는 신호탄으로 읽힌다.

회사 측은 벤치마크 평가 방식의 투명성도 강조했다. 실제로 ▲SWE-벤치 ▲터미널-벤치에서는 확장 사고 기능 없이 최고 점수를 기록했다. 반대로 ▲TAU-벤치 ▲GPQA 다이아몬드 ▲MMMLU ▲MMMU ▲AIME 등 5개 항목에서는 최대 6만4천 토큰의 확장 사고를 활용해 성능을 측정했다고 설명했다.

특히 SWE-벤치 평가에서는 기존 '클로드 3.7 소네트' 모델에 사용하던 '계획 도구'를 제외했다. 대신 배시 툴과 파일 편집 툴 두 가지만을 활용해 간소화된 평가를 진행했다. TAU-벤치에서는 모델의 추론 능력을 극대화하기 위해 최대 작업 단계를 기존 30단계에서 100단계로 늘렸다.