앤트로픽이 인공지능(AI)이 생성하는 대규모 코드를 자동으로 검토하는 기능을 선보였다. 기업 개발 현장에서 커지고 있는 코드리뷰 병목 해결하기 위함이다.

앤트로픽은 10일(현지시간) 개발 도구 '클로드 코드(Claude Code)'에 AI 기반 코드 검토 기능 '코드리뷰(Code Review)'를 추가했다고 밝혔다.

이 기능은 '클로드 포 팀즈(Claude for Teams)'와 '클로드 포 엔터프라이즈(Claude for Enterprise)' 고객을 대상으로 연구 미리보기 형태로 제공된다.

클로드 코드에서 공개한 AI 기반 코드 검토 기능 '코드리뷰'(이미지=앤트로픽)

앤트로픽에 따르면 개발 현장에서 자연어 지시만으로 코드를 생성하는 '바이브 코딩(vibe coding)' 방식이 빠르게 확산하고 있다. 개발 속도는 크게 높아졌지만 동시에 버그와 보안 위험, 내부 개발자가 충분히 이해하지 못한 코드도 함께 늘어났다는 지적이 이어지고 있다.

특히 AI가 대량으로 코드를 생성하면서 풀리퀘스트(PR) 검토 부담이 급격히 증가했다. 풀리퀘스트(PR)는 개발자가 수정하거나 새로 작성한 코드를 기존 소프트웨어 코드에 반영하기 전에 팀원에게 검토를 요청하는 절차다. AI 도구가 코드 생산량을 크게 늘리면서 기업 개발팀에서는 코드 검토가 새로운 병목으로 떠오르고 있다.

앤트로픽 내부에서도 같은 문제가 나타났다. 회사에 따르면 지난 1년 동안 엔지니어 1인당 코드 생산량은 약 200% 증가했다. 코드 작성 속도는 빨라졌지만 리뷰 시간이 따라가지 못하면서 많은 PR이 깊은 검토 없이 빠르게 훑어보는 수준으로 처리되는 경우가 늘었다.

앤트로픽은 이런 문제를 해결하기 위해 여러 AI 에이전트가 동시에 코드를 분석하는 멀티 에이전트 구조를 적용했다. PR이 생성되면 여러 AI 에이전트가 병렬로 코드베이스를 분석하고 버그를 탐지한다. 이후 또 다른 에이전트가 결과를 검증해 오탐을 줄이고 문제의 심각도를 기준으로 우선순위를 정리한다.

분석 결과는 풀리퀘스트 페이지에 하나의 요약 코멘트와 개별 코드 라인에 대한 인라인 코멘트 형태로 제공된다. 각 문제는 무엇이 잘못됐는지, 왜 문제가 되는지, 어떻게 수정할 수 있는지를 단계적으로 설명한다.

코드리뷰는 코드 스타일보다 실제 오류 가능성이 있는 논리 문제를 찾는 데 초점을 맞췄다. 문제 심각도는 색상으로 구분된다. 가장 심각한 문제는 빨간색, 추가 검토가 필요한 잠재적 문제는 노란색, 기존 코드나 과거 버그와 관련된 문제는 보라색으로 표시된다.

앤트로픽에 따르면 이 기능은 현재 자사 내부 대부분의 풀리퀘스트에 적용되고 있다. 과거에는 전체 풀리퀘스트 가운데 약 16%만 실질적인 리뷰 코멘트를 받았지만 코드리뷰 도입 이후 이 비율은 54%까지 높아졌다.

분석 결과도 상당한 수준의 문제를 찾아낸 것으로 나타났다. 코드 변경이 1천 줄 이상인 대형 풀리퀘스트의 경우 84%에서 문제점이 발견됐으며 평균 7.5개의 이슈가 제기됐다. 반면 변경 규모가 50줄 이하인 소규모 풀리퀘스트에서는 31%에서 문제점이 발견됐고 평균 0.5개의 이슈가 보고됐다.

엔지니어 평가도 비교적 긍정적이다. 회사에 따르면 코드리뷰가 지적한 문제 가운데 잘못된 판단으로 판정된 경우는 1% 미만에 불과했다.

실제 사례도 공개됐다. 한 엔지니어가 운영 서비스에 단 한 줄의 코드를 수정하는 풀리퀘스트를 올렸는데 겉으로 보기에는 단순한 변경으로 빠르게 승인될 가능성이 높았다. 그러나 코드리뷰 시스템은 이를 심각한 문제로 표시했다. 해당 변경이 서비스 인증 기능을 깨뜨릴 수 있는 치명적 오류였기 때문이다. 문제는 병합 전에 수정됐다.

외부 고객 사례에서도 유사한 결과가 나타났다. 스토리지 플랫폼 '트루NAS(TrueNAS)'의 오픈소스 미들웨어에서 진행된 ZFS 암호화 리팩터링 작업에서는 코드리뷰가 기존 코드에 숨어 있던 버그를 발견했다. 타입 불일치 문제로 암호화 키 캐시가 동기화될 때마다 초기화되는 오류였다.

코드리뷰는 PR규모에 따라 분석 강도를 조절한다. 코드 변경이 크거나 복잡할수록 더 많은 AI 에이전트가 투입되고 분석도 깊어진다. 단순한 변경의 경우 가벼운 분석만 수행한다. 회사에 따르면 평균 리뷰 시간은 약 20분 정도다.

앤트로픽 측은 "코드리뷰는 속도보다 깊이를 위해 설계된 시스템으로 인간 리뷰어가 놓치기 쉬운 버그까지 찾아내는 것을 목표로 한다"며 "우리는 현재 앤트로픽 내부의 거의 모든 풀리퀘스트에 이 시스템을 적용하고 있으며 개발자가 실제로 출시에 포함되는 코드를 더 확실하게 검토할 수 있도록 돕고 있다"고 밝혔다.

이어 "AI가 코드 생산 속도를 크게 높이면서 수요 역시 빠르게 늘고 있다"며 "코드리뷰를 통해 개발팀이 더 많은 코드를 처리하면서도 품질을 유지할 수 있도록 지원할 것"이라고 덧붙였다.