[AI는 지금] 새해에는 AGI 시대 열리나…오픈AI 'O3' 기대·회의 속 상용화 '갈림길'

CoT 통해 AI 추론 능력 새 기준 제시…현실 적용·고비용 한계 지적

컴퓨팅입력 :2025/01/03 17:35    수정: 2025/01/03 17:40

오픈AI가 최근 시범 공개한 고급 추론 인공지능(AI) 모델 'O3'가 AI 벤치마크들 중에서도 가장 난이도가 높은 테스트에서 연달아 최고 성적을 기록하며 유례없는 성과를 거뒀다. 이에 해당 모델이 인공일반지능(AGI)으로 가는 단초가 될 수 있을지에 대한 논의가 활발히 이어지고 있다.

3일 업계에 따르면 'O3'는 지난 9월 오픈AI가 출시한 'O1' 모델에 이어 기존 'GPT-4' 시리즈와는 다른 방식으로 작동한다. 특히 '사고의 연쇄(CoT, Chain of Thought)' 기법을 도입해 문제를 단계적으로 분석하고 해결하는 능력이 크게 향상됐다. 업계 일각에서는 이 방식으로 인해 AI가 인간처럼 시간을 들여 사고하게 됐다고 평가한다.

이러한 발전은 오픈AI가 AGI를 '대부분의 작업에서 인간을 능가하는 고도로 자율적인 시스템'으로 정의한데 부합하는 성과로 보인다. 샘 알트먼 오픈AI 대표는 "이번 모델은 다음 세대 AI의 시작점"이라며 "점점 더 복잡한 추론이 필요한 작업을 수행할 수 있게 됐다"고 말했다.

오픈AI 'O3'이 지난달 시범공개된 이후 AGI으로 가는 단초가 될 수 있을지에 대한 논의가 활발히 이어지고 있다. (사진=챗GPT 달리)

AI 벤치마크 압도적 성과 기록한 'O3'…프로그래밍 '알파고 모먼트' 도래

지난달 열린 오픈AI 서비스 공개 행사 '쉽마스' 마지막 날에는 'O3'의 뛰어난 성과가 정량적으로 공개됐다. 특히 'O3'가 인간이 쉽게 처리하는 도형 인식 및 추론 문제에 대한 AI의 적응 능력을 평가하는 '아크 AGI' 벤치마크에서 탁월한 성과를 거뒀다.

아크 AGI는 AI가 인간에게는 쉬운 문제를 해결하기 힘들어한다는 '모라벡 역설'을 얼마나 극복할 수 있는지를 확인하기 위해 설계된 테스트다. 현재 거대언어모델(LLM)이 가장 어려워하는 분야 중 하나인 객체, 공간, 및 경계 개념에 대한 분석 능력을 평가한다. 'O3'는 테스트에서 저성능 모드로 75.7%라는 전례 없는 점수를 기록했으며 고성능 컴퓨팅 모드에서는 87.5%까지 성능을 끌어올렸다.

이 성과는 이전 모델 및 경쟁 모델과 비교했을 때 압도적이다. 지난해 출시된 첫 고급 추론 모델 'O1'은 32%의 점수를 기록했으며 경쟁사 앤트로픽의 '클로드 3.5' 모델 역시 최고 점수가 53%에 그쳤다. 'O3'는 이와 비교해 두 배 이상의 성과를 내며 AI 추론 능력의 새로운 기준을 제시했다.

아크 AGI 벤치마크 (사진=아크프라이즈 홈페이지 캡처)

프랑수아 숄레 아크 AGI 창시자는 "'O3'는 AI 능력에서 중요한 비약적 발전을 보여줬다"며 "'GPT' 계열 모델에서는 볼 수 없었던 새로운 작업 적응 능력을 증명했다"고 평가했다. 숄레가 과거 미국 지디넷과의 인터뷰에서 AGI 실현 가능성에 대한 회의를 드러낸 점을 고려할 때 이번 평가는 보다 주목할 만하다.

코딩 분야에서도 'O3'는 획기적인 성과를 거뒀다. 전 세계 프로그래머들이 알고리즘 문제를 해결하며 경쟁하는 권위 있는 대회 플랫폼인 '코드포스'에서 2천700점을 기록하며 글로벌 상위 0.2% 수준에 도달했다. 오픈AI에 따르면 이는 일리야 수츠케버 공동창업자의 후임으로 임명된 야쿱 파호츠키를 뛰어넘는 성과로, 회사 내에서도 3천점을 넘는 사람은 단 한 명뿐이다.

마크 첸 오픈AI 부사장은 "내 점수는 코드포스 2천500점 정도"라면서 현재 추세로 보면 "'O3'가 몇 달 내로 3천점을 넘을 것 같다"고 말했다.

현실 적용 난망·비용 문제 '천문학적'AGI 실현은 '과제'

다만 업계 일각에서는 O3의 성과가 곧 AGI의 실현으로 이어질 것이라는 기대에 회의적인 시선을 보내고 있다. '아크 AGI'가 특정 데이터셋에만 최적화 돼 실제 현실 세계를 충분히 반영하지 못할 가능성이 있다는 지적이 대표적이다.

게리 마커스 뉴욕대 인지심리학과 교수는 "아크 AGI 테스트가 실제 AI 능력을 얼마나 잘 반영하는지 의문"이라며 "쉽마스 당시의 'O3' 시연은 벤치마크를 위해 AI 회사가 엄청난 돈을 쓸 때 가능한 성과를 보여주는 것일 뿐 실제 세계 응용 사례를 보여주는 것이 아닐 수 있다"고 평가했다.

프로그래밍 분야에서도 'O3'의 실제 적용에 한계가 있다는 의견이 나온다. 개별 작업에서 인간 대다수를 초월한 수준의 성능을 보여줬음에도 시스템 설계 및 문제 해결 등 여러 유형의 작업을 동시에 수행하면서 인간 고객과 소통해야 하는 프로그래머라는 직업의 특성상 'O3'가 이를 대체하기에는 여전히 한계가 있다는 분석이다.

한 국내 AI 업계 관계자는 "'O3'는 AI가 인간보다 프로그래밍에서 뛰어난 성과를 낼 수 있다는 점에서 컴퓨터 공학의 '알파고 모먼트'를 불러온 것이라고 할수 있다"면서도 "다만 바둑에서처럼 특정 작업에서만 뛰어난 능력을 보이는 것이지 다양한 상황에서 적용 가능한 범용적인 능력을 갖췄다는 뜻은 아니다"라고 평가했다.

게리 마커스 뉴욕대 인지심리학과 교수 (사진=위키커먼즈)

또 'O3'의 성능 뒤에는 높은 비용이라는 걸림돌이 있다. 저성능 모드에서는 약 20달러(한화 약 2만8천원) 수준의 비용으로 아크 AGI' 75.7%의 성능을 발휘하지만 고성능 모드에서는 성능이 87.5%로 향상되는 대신 비용이 3천~6천 달러(한화 약 420만~840만 원)까지 상승한다.

포브스에 따르면 'O3'가 아크 AGI에서 최고 점수를 기록하기 위해 투입된 컴퓨팅 비용은 수십만 달러에 달할 것으로 추정된다. 오픈AI가 소스 코드를 비공개하고 있어 정확한 비용 구조를 확인하기는 어렵지만 CoT 기법은 본질적으로 더 많은 컴퓨팅 자원을 장시간 사용해야만 보다 우수한 결과를 생성한다는 분석이다.

관련기사

이에 'O3'가 활용하는 고급 추론 기법을 통해 인간 수준의 범용적인 AI가 달성된다 해도 천문학적인 초기 비용으로 대규모 상용화는 점진적으로 이뤄질 가능성이 크다는 예측이 제기된다.

오픈AI 역시 이러한 가능성을 인지하고 있는 것으로 관측된다. 샘 알트먼 오픈AI 대표는 지난달 뉴욕타임스 '딜북 서밋'에서 "내 생각에 우리는 대부분의 사람들이 예상하는 것보다 더 빨리 AGI에 도달할 것"이라며 "다만 그 중요성은 생각보다 크지 않을 것"이라고 말했다.