오픈AI가 AI 모델 추론(inference) 비용을 절반 이상 줄이는 최적화 기술을 개발한 것으로 알려졌다. 데이터센터와 GPU 확보 경쟁이 치열한 가운데, 기존 인프라의 효율을 끌어올리는 '컴퓨트 멀티플라이어(Compute Multiplier)' 전략이 새 경쟁력으로 떠올랐다.
디 인포메이션은 30일(현지시간) 오픈AI 엔지니어들이 이달 초 새 추론 최적화 기법으로 모델 실행 비용을 절반 이상 줄였다고 내부에 공유했다고 보도했다. 특히 로그인하지 않은 이용자용 챗GPT에는 이 기술이 적용됐고, 특정 시점에는 엔비디아 GPU 수백 대만으로 서비스를 운영할 수 있었던 것으로 전해졌다.
오픈AI가 어떤 기술을 썼는지는 공개되지 않았다. 업계에서는 낮은 정밀도로 연산하는 양자화, 이전 계산을 재활용하는 키-값 캐시, 여러 요청을 한 번에 처리하는 배치 추론, 난이도에 따라 작은 모델이나 일부 전문가만 쓰는 동적 라우팅 등이 복합적으로 쓰였을 것으로 본다.
이런 최적화는 단순한 비용 절감에 그치지 않고 핵심 경쟁력이 되고 있다. 앤트로픽은 이를 컴퓨트 멀티플라이어라 부르며 오래 전략 자산으로 관리해 왔다. 다리오 아모데이 앤트로픽 최고경영자는 2023년부터 컴퓨트 멀티플라이어에 접근하는 내부 인원을 제한한다고 밝혀 왔다. 경쟁사가 같은 기술을 확보하면 우위를 잃을 수 있다는 이유에서다.
이 기술이 중요해지는 이유는 기업들이 충분한 컴퓨팅을 확보하기 어렵기 때문이다. 오픈AI·구글·앤트로픽은 대규모 데이터센터 계약을 맺고 있지만, 완공·가동까지 수개월에서 수년이 걸린다. 새 GPU 확보만으로는 수요를 감당하기 어려워, 기존 하드웨어 활용도를 높이는 일이 더 중요해졌다. 오픈AI도 브로드컴과 추론 전용 자체 칩을 개발해 엔비디아 의존도를 낮추려 하고 있다.
절감된 비용은 이용자 혜택이나 수익성으로 이어질 수 있다. 챗GPT 사용 한도를 늘리거나 API 가격을 내릴 수 있고, 상대적으로 높은 가격으로 지적받아 온 앤트로픽과의 경쟁에도 도움이 된다. 오픈AI의 매출총이익률은 올해 1분기 39%로 지난해 33%보다 올랐지만, 연말 목표 52%에는 아직 못 미친다.
▶︎ 관련기사:
오픈AI, 저렴한 AI 작업을 위한 '플렉스 프로세싱' 기능 제공... 속도는 늦지만 비용은 절반
자세한 내용은 디 인포메이션에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
관련기사
- 딥시크, 11조 원 첫 외부 투자 배경은 앤트로픽 미토스 충격2026.07.02
- 구글 노트북LM, 문서를 60초 세로 숏폼 영상으로…'나노 바나나 2 라이트' 탑재2026.07.02
- 구글 제미나이 '나노 바나나' 개인화 이미지 생성, 미국서 무료 개방2026.07.02
- 로봇 업계 "피지컬AI 1강 정책은 A....맞춤 지원·빠른 실행 필요"2026.07.02
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)











