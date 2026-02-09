AI가 이제 사람 도움 없이도 복잡한 프로그램을 혼자 만들 수 있는 시대가 왔다. 앤트로픽(Anthropic)이 자사 AI '클로드' 16개를 2주간 작동시킨 결과, 2만 달러(한화 약 2,900만 원)만으로 10만 줄짜리 프로그램을 완성했다. 전문 개발팀이 몇 달 걸려 수억 원을 들여야 할 작업이다. 이는 앞으로 소프트웨어 개발 비용과 시간이 극적으로 줄어들 수 있다는 의미다. 동시에 검증되지 않은 AI 코드가 널리 쓰일 위험도 커졌다는 경고이기도 하다.

앤트로픽 보안팀 연구원 니콜라스 카를리니(Nicholas Carlini)는 5일(현지 시각) 공식 블로그에서 이번 실험 결과를 공개했다. 그는 16개의 클로드 AI에게 "리눅스 운영체제를 실행시킬 수 있는 C 컴파일러를 처음부터 만들어라"는 임무만 주고 거의 손을 뗐다. 컴파일러는 사람이 작성한 프로그래밍 코드를 컴퓨터가 실행할 수 있는 형태로 바꿔주는 핵심 프로그램이다.

2주 동안 AI들은 약 2,000번의 작업을 거쳐 스스로 10만 줄짜리 컴파일러를 완성했다. 이 프로그램은 실제로 리눅스 운영체제를 실행할 수 있고, 고전 게임 '둠(Doom)'까지 돌아간다. 대부분의 컴파일러 테스트에서 99% 통과율을 기록했다.

이게 왜 중요할까? 지금까지는 복잡한 프로그램을 만들려면 개발자가 계속 옆에서 AI에게 지시하고 확인해야 했다. AI가 일부를 처리하다가 멈추면 "다음엔 뭘 할까요?"라고 물어봤다. 하지만 이번 실험에서는 AI들이 서로 협업하며 알아서 다음 할 일을 찾고, 문제를 해결하고, 결과를 합쳤다. 마치 사람 개발팀처럼 움직인 것이다.

칼리니는 AI들이 혼자 일하게 만들기 위해 몇 가지 장치를 마련했다. 한 AI가 작업을 끝내면 자동으로 다음 작업을 선택하게 만들었다. 여러 AI가 동시에 같은 문제를 건드리지 않도록 파일에 '작업 중' 표시를 남기게 했다. 각 AI는 자기 작업을 마치면 다른 AI들의 결과를 가져와 합치고, 자기 결과를 저장한 뒤 '작업 중' 표시를 지웠다.

여러 AI를 동시에 돌리자 각자 전문 분야를 맡길 수 있었다. 몇몇 AI는 실제 프로그래밍 문제를 해결하고, 다른 AI는 중복 코드를 정리했다. 또 다른 AI는 프로그램 속도를 개선하거나 설명 문서를 작성했다. 한 명이 여러 역할을 하는 것보다 훨씬 효율적이었다.

가장 인상적인 점은 AI들이 막힌 문제를 스스로 해결한 방식이다. 리눅스 커널이라는 거대한 프로그램을 컴파일할 때 모든 AI가 같은 문제에 걸렸다. 각자 문제를 고쳐도 서로 작업을 덮어써 버렸다. 그러자 AI들은 GCC라는 기존 컴파일러를 정답으로 삼아 비교하는 방법을 만들어냈다. 프로그램의 대부분은 GCC로 처리하고 일부만 자신들의 컴파일러로 돌렸다. 잘 작동하면 자기들 부분에 문제가 없다는 뜻이고, 오류가 나면 그 부분을 더 잘게 나눠 원인을 찾았다.

비용도 주목할 만하다. 2주간 20억 개의 데이터를 읽고 1억 4,000만 개의 결과를 만들어내는 데 2만 달러가 들었다. 가장 비싼 클로드 유료 서비스 기준으로도 비싼 금액이지만, 칼리니는 "전문 개발팀이 직접 만들 때 드는 비용과 시간의 극히 일부"라고 설명했다. 즉, 같은 결과물을 사람이 만들려면 수억 원과 몇 달이 필요하다는 의미다.

완성된 컴파일러는 외부 도움 없이 만들어졌다. AI는 개발 중 인터넷에 한 번도 연결되지 않았고, 기본 프로그래밍 도구만 사용했다. x86, ARM, RISC-V 등 다양한 컴퓨터 환경에서 리눅스를 실행시킬 수 있고, QEMU, FFmpeg, SQLite 같은 실용 프로그램들도 컴파일한다.

물론 한계도 분명하다. 리눅스를 특정 방식으로 부팅하는 일부 기능은 기존 GCC를 빌려 써야 한다. 만들어진 코드의 효율성도 낮아서 모든 최적화를 켜도 최적화를 끈 GCC보다 느리다. 코드 품질도 전문 프로그래머 수준에는 못 미친다. 새 기능을 추가하면 기존 기능이 자주 망가졌다.

이번 실험이 보여주는 미래는 이렇다. 개발자는 "이런 프로그램이 필요해"라고 큰 그림만 제시하면, AI 팀이 알아서 설계하고 코딩하고 테스트해서 완성품을 내놓는다. 개발 기간은 몇 달에서 몇 주로, 비용은 수억 원에서 수천만 원으로 줄어든다. 하지만 그만큼 검증되지 않은 코드가 쏟아질 위험도 커진다.

칼리니는 컴파일러 소스 코드를 공개하고, 앞으로도 클로드가 남은 문제를 해결하도록 계속 실험할 계획이라고 밝혔다. 누구나 내려받아 자기 프로젝트에 시험해 볼 수 있다. 그는 "AI가 무엇을 할 수 있는지 이해하는 가장 좋은 방법은 한계까지 밀어붙여 보고, 어디서 무너지는지 연구하는 것"이라고 말했다.

해당 내용에 대한 자세한 사항은. 앤트로픽에서 확인 가능하다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)