오픈AI, AI의 SW 개발 성과 공개…"단독 수행보단 협력이 최적"

복잡한 SW 과제 해결 한계… 창의적 개발은 여전히 인간 몫

컴퓨팅입력 :2025/02/20 11:11

인공지능(AI)이 실제 소프트웨어(SW) 개발 업무에서 어느 정도의 경제적 가치를 창출할 수 있는지 평가한 새로운 연구 결과가 공개됐다.

해당 연구에서는 AI가 독립적으로 복잡한 SW과제를 해결하기에는 여전히 한계가 있으며, 현재로서는 인간 개발자와의 협업이 더 효과적이라는 결론을 도출했다. 특히 AI가 단순 반복 작업이나 관리 업무에서는 경쟁력 있는 성과를 보였지만 더 복잡한 문제 해결에서는 성공률이 낮아 실제 경제적 가치도 제한적이라고 밝혔다.

20일 오픈AI 연구진은 SWE-랜서(Lancer)라는 새로운 대규모 언어모델(LLM) 벤치마크를 개발했다는 내용을 논문으로 공개했다.

오픈AI

오픈AI 측은 기존 코딩 벤츠마크가 실제 기업 환경에서 빈번히 일어나는 복잡한 버그와 기능 구현 과제를 제대로 반영하지 못하자 이를 극복하기 위해 새로운 벤치마크 방식을 개발했다고 밝혔다. 특히 AI의 성과를 경제적 가치라는 현실적인 지표로 평가했다는 점이 특징이다.

오픈AI의 GPT-4o와 o1, 그리고 앤트로픽의 클로드 3.5 소넷을 대상으로 SWE-랜서 벤치마크를 실시한 결과 모든 AI가 실제 개발자에 비해 성능이나 비용면에서 부족한 것으로 나타났다.

가장 높은 성과를 거둔 클로드 3.5 소넷조차 프리랜서 역할을 직접 수행하는 독립 엔지니어링(IC SWE) 과제에서 약 26.2%의 통과율을 보이는 데 그쳤다. 오픈AI의 o1은 12.1%, GPT-4o는 6%로 더욱 낮은 수준을 기록했다.

해당 결과는 모델이 단 한 번 시도(pass@1)했을 때 기준으로 했으며 특히 단순히 결과값만 제출하는 것을 방지한 것이다. 여러 번 시행착오를 시도하거나 충분한 추론 시간을 할당하면 성공률이 크게 올라가는 사례도 확인됐다.

여러 개발자가 제출한 해결책 중 최적의 방안을 골라야 하는 소프트웨어 엔지니어링 관리(SWEM) 과제에서는 o1이 51.8%의 정확도로 실제 매니저 결정과 일치하며 가장 높은 결과를 기록했다. 한편, GPT-4o는 47.1%, 클로드 3.5 소넷이 44.9% 정확도를 달성했다.

연구진은 이를 "단번에 모든 위험 요소를 파악하기는 힘들어도, 합리적인 제안과 비효율적인 제안을 선별하는 능력은 쓸 만하다"고 해석했다. 하지만 여전히 절반에 달하는 과제를 제대로 해결하지 못한 만큼 AI가 곧바로 인간 엔지니어를 대체하거나 매니저 역할을 담당하기엔 역부족인 것으로 드러났다.

AI모델별 업무 성과 벤치마크표(이미지=오픈AI)

SWE-랜서 벤치마크는 실제로 프리랜서 플랫폼 '업워크'에서 진행된 작업을 기반으로 구성됐다. 덕분에 AI 모델을 통해 얼마나 많은 과제를 해결하고 실제 경제적 가치를 창출했는지도 측정 가능하다.

벤치마크 결과 개발자들이 100만 달러의 수익을 달성하는 동안 AI는 40만~30만 달러의 성과를 기록하며 절반에도 미치지 못한 것으로 나타났다.

가장 높은 성과를 거둔 클로드3.5소넷이 40만3천 달러를 기록했으며 o1은 38만 달러, GPT-4o은 30만4천달러를 달성했다.

오픈AI 연구진은 AI 단독으로 SW개발 등 실무를 수행하기엔 부적합한 부분이 상당히 존재한다며 대신 사람과의 협력을 통해 더욱 높은 성과를 달성할 가능성이 크다고 강조했다.

특히 패턴이 있는 반복적인 작업이나 관리 업무는 AI가 수행하고 복잡한 문제 해결이나 창의적인 개발은 인간이 주도하는 것이 효율적일 것이라고 협력 방안을 권했다.

관련기사

사무엘 미세렌디노 등 오픈AI 연구진은 "현재 AI 모델은 아직 부정확한 코드를 제시하거나, UX·보안상의 맹점을 남길 가능성이 크다"며 "반드시 최종 검증은 전문가가 맡아야 한다"고 강조했다.

이어 "AI 모델들은 단독으로 수행되기보다 사람이 해결책을 신속히 찾도록 돕는 보조 역할에서 가치를 발휘할 것"이라며 "실제로 코드를 검색해 문제 부위를 찾아내거나, 여러 제안서 중 합리적 범위를 좁혀주는 과정에서 모델들이 시간 절약을 지원하는 사례가 반복해서 관측됐다"고 설명했다.