대화 중 끼어들어도 즉각 반응…오픈AI, 실시간 음성 AI 모델 공개

추론·번역·전사 동시 지원…GPT-5급 음성 모델 API 제공

컴퓨팅입력 :2026/05/08 10:16

이나연 기자 기자 페이지 구독 기자의 다른기사 보기

오픈AI가 실시간 음성 인공지능(AI) 모델 3종을 한꺼번에 선보였다. 자체 AI 기기 출시를 앞두고 음성 인터페이스 기술력을 끌어올리려는 행보로 풀이된다.

오픈AI는 7일(현지시간) GPT-5급 추론 능력을 갖춘 'GPT-리얼타임-2', 실시간 음성 번역 모델 'GPT-리얼타임-트랜슬레이트', 스트리밍 음성 전사 모델 'GPT-리얼타임-위스퍼'를 공개했다.

이번 발표의 핵심은 GPT-리얼타임-2다. 기존 AI 음성 모델이 이용자와 AI가 순서를 번갈아 말하는 방식이었다면 이 모델은 대화 중 끼어들거나 말을 수정해도 즉각 반응한다. 상황에 따라 말투를 조절하고 개발자가 '최소(minimal)'부터 '초고(xhigh)'까지 5단계로 추론 수준을 선택할 수 있다.

GPT-리얼타임-트랜슬레이트 시연 모습 (사진=오픈AI)

컨텍스트 윈도우도 기존 3만2000토큰에서 12만8000토큰으로 4배 확대됐다. GPT-리얼타임-트랜슬레이트는 70개 이상 언어를 13개 출력 언어로 실시간 변환하며 GPT-리얼타임-위스퍼는 말하는 동시에 텍스트로 전사한다.

부동산 플랫폼 질로는 음성으로 매물을 검색하고 방문 일정을 잡는 음성 비서를, 도이체텔레콤은 고객이 편한 언어로 말하면 실시간 번역해 응대하는 고객 지원 서비스를 구축 중이다.

관련기사

오픈AI가 이 같은 음성 모델 고도화에 나선 배경엔 자체 AI 기기 준비도 있다. 오픈AI는 애플 수석 디자이너 출신 조니 아이브의 스타트업 '아이오(io)'를 65억 달러에 인수한 후 음성 기반 AI 기기를 개발 중인 것으로 알려졌다. 업계에선 스마트 안경, 핀 형태 웨어러블, 스마트 스피커 등이 거론되며 AI 에이전트 기능을 탑재한 스마트폰 개발 가능성도 제기되고 있다.

세 모델은 리얼타임 응용 프로그램 인터페이스(API)를 통해 즉시 이용 가능하다. 오픈AI는 "실시간 오디오를 단순한 문답을 넘어, 대화가 전개되는 동안 듣고 추론하며 번역하고 전사하면서 실제 작업을 수행할 수 있는 음성 인터페이스로 발전시키고 있다"고 말했다.

이나연 기자ny@zdnet.co.kr

기자의 다른 기사 보기

오픈AI 음성모델 GPT io

지금 뜨는 기사

이시각 헤드라인

카카오, '쿠팡이츠'로 에이전트 AI 첫 구현…검색광고까지 확장

"빽다방, 일본 상륙"…앱·스마트픽업 등 '테크'로 도쿄 공략

국산 NPU 확산에 600억원 투입…피지컬AI 실증 본격화

AI는 필수, TCO는 부담…기업 CIO '진퇴양난'

ZDNet Power Center