오픈AI가 실시간 음성 인공지능(AI) 모델 3종을 한꺼번에 선보였다. 자체 AI 기기 출시를 앞두고 음성 인터페이스 기술력을 끌어올리려는 행보로 풀이된다.
오픈AI는 7일(현지시간) GPT-5급 추론 능력을 갖춘 'GPT-리얼타임-2', 실시간 음성 번역 모델 'GPT-리얼타임-트랜슬레이트', 스트리밍 음성 전사 모델 'GPT-리얼타임-위스퍼'를 공개했다.
이번 발표의 핵심은 GPT-리얼타임-2다. 기존 AI 음성 모델이 이용자와 AI가 순서를 번갈아 말하는 방식이었다면 이 모델은 대화 중 끼어들거나 말을 수정해도 즉각 반응한다. 상황에 따라 말투를 조절하고 개발자가 '최소(minimal)'부터 '초고(xhigh)'까지 5단계로 추론 수준을 선택할 수 있다.
컨텍스트 윈도우도 기존 3만2000토큰에서 12만8000토큰으로 4배 확대됐다. GPT-리얼타임-트랜슬레이트는 70개 이상 언어를 13개 출력 언어로 실시간 변환하며 GPT-리얼타임-위스퍼는 말하는 동시에 텍스트로 전사한다.
부동산 플랫폼 질로는 음성으로 매물을 검색하고 방문 일정을 잡는 음성 비서를, 도이체텔레콤은 고객이 편한 언어로 말하면 실시간 번역해 응대하는 고객 지원 서비스를 구축 중이다.
관련기사
- 챗GPT 기본 모델 바꿨다…오픈AI, GPT-5.5 인스턴트 출시2026.05.06
- 오픈AI, GPT-5.5 출시…앤트로픽과 정면 비교 승부2026.04.24
- "AI가 직접 계획하고 코드까지 짠다"…GPT-5.4 공개2026.03.06
- 오픈AI "딥시크, 美 AI 모델 무단 활용"…하원에 근거 제출2026.02.13
오픈AI가 이 같은 음성 모델 고도화에 나선 배경엔 자체 AI 기기 준비도 있다. 오픈AI는 애플 수석 디자이너 출신 조니 아이브의 스타트업 '아이오(io)'를 65억 달러에 인수한 후 음성 기반 AI 기기를 개발 중인 것으로 알려졌다. 업계에선 스마트 안경, 핀 형태 웨어러블, 스마트 스피커 등이 거론되며 AI 에이전트 기능을 탑재한 스마트폰 개발 가능성도 제기되고 있다.
세 모델은 리얼타임 응용 프로그램 인터페이스(API)를 통해 즉시 이용 가능하다. 오픈AI는 "실시간 오디오를 단순한 문답을 넘어, 대화가 전개되는 동안 듣고 추론하며 번역하고 전사하면서 실제 작업을 수행할 수 있는 음성 인터페이스로 발전시키고 있다"고 말했다.











