오픈AI가 음성 인공지능(AI) 에이전트 개발에 바로 활용할 수 있는 모델과 API 정식 버전을 공개했다.
29일 오픈AI는 음성 대화 모델 'gpt-리얼타임'과 API를 출시했다고 공식 홈페이지를 통해 밝혔다.
gpt-리얼타임은 사용자의 지시를 이해하고, 자연스러운 음성 생성과 정확한 데이터 호출이 가능한 보이스-투-보이스 모델이다. 오픈AI가 이 모델을 지난해 10월 프리뷰 버전으로 공개한 후 개선을 거쳐 이번에 정식 출시했다.

해당 모델은 고객 지원 통화에서 면책 문구를 한 글자도 틀리지 않고 읽어주거나, 영어·숫자 문자열을 정확히 반복하거나, 문장 중간에 자연스럽게 언어를 전환하는 등 시스템 메시지와 개발자 프롬프트를 기존보다 더 잘 해석할 수 있다.
오픈AI는 gpt-리얼타임 음성 기능을 기존보다 자연스럽게 만들기 위해 새 음성 '시더(Cedar)'와 '마린(Marin)'을 추가했다. 기존 8개 음성도 업그레이드했다. 현재 전화번호 인식 정확도는 기존 모델 대비 65.6%에서 82.8%로 올랐다. 특정 지시에 대한 처리 기능도 20.6%에서 30.5%로 향상됐다. 복잡한 함수 호출 정확도도 49.7%에서 66.5%로 증가한 것으로 나타났다.
gpt-리얼타임 이용 요금은 음성 입력 100만 토큰당 32달러, 캐시 입력 0.4달러, 음성 출력 64달러다. 이는 기존 GPT-4o-리얼타임-프리뷰(gpt-4o-realtime-preview) 모델보다 약 20% 저렴한 수준이다.

리얼타임 API는 텍스트 기반 입력 없이 음성 인식과 오디오 처리를 직접 할 수 있다. 이를 통해 지연 시간을 줄이는 식이다. 오픈AI는 수천명의 개발자 피드백을 반영해 API의 안정성과 응답 속도를 대폭 개선했다고 밝혔다.
관련기사
- [SW키트] "오류 0% 시대 목표"…美 빅테크, AI 신뢰성 업그레이드2025.08.29
- 앤트로픽, 사용자 대화로 AI 훈련…데이터 최대 5년 보관2025.08.29
- 중남미 고위 인사들 마음AI 방문..."정찰로봇 SORA 신기"2025.08.29
- [현장] 오픈AI "기술과 예술의 만남, 모두에게 영감 줄 것"2025.08.28
사용자는 원격 모델 컨텍스트 프로토콜(MCP) 서버를 연결해 도구를 자동으로 활용할 수 있다. 이미지 입력을 통해 화면에 보이는 내용 바탕으로 대화를 이어갈 수도 있다. 여기에 전화 연결 기능까지 지원돼 기업 전화망이나 데스크폰과도 직접 연동할 수 있다.
오픈AI는 "기업과 개발자는 지연 시간을 줄이면서도 음성의 뉘앙스를 살릴 수 있을 것"이라며 "더 자연스럽고 표현력 있는 응답을 경험할 수 있을 것"라고 밝혔다.