오픈AI가 음성을 직접 이해하고 응답하는 차세대 오디오 인공지능(AI) 모델을 개발 중인 것으로 전해졌다. 이를 통해 음성 기반 AI 비서의 응답 속도와 자연스러운 대화 능력을 크게 개선한다는 목표다.

6일 디인포메이션에 따르면 오픈AI는 최근 음성 입력과 출력을 동시에 처리하는 '양방향(bidirectional) 오디오 모델'을 개발 중인 것으로 알려졌다. 이 모델은 사용자의 음성을 실시간으로 이해하고 음성으로 바로 응답하는 구조를 갖춘 것이 특징이다.

기존 음성 비서 시스템은 일반적으로 음성을 텍스트로 변환하는 음성인식(STT), 텍스트 기반 언어모델 처리, 텍스트를 다시 음성으로 변환하는 음성합성(TTS) 과정을 거친다. 이른바 '계층형(cascaded)' 구조로, 여러 단계를 거치는 과정에서 처리 지연이 발생하거나 대화 흐름이 자연스럽지 못하다는 한계가 지적돼 왔다.

샘 알트먼 오픈AI 최고경영자(CEO)가 2025년 2월3일 일본 도쿄에서 열린 기업 대상 AI 홍보 행사에 참석해 발언하고 있다. 2025.02.03 (사진=로이터/뉴스1)

반면 오픈AI가 개발 중인 모델은 음성 데이터를 입력 단계에서부터 직접 이해하고 음성으로 응답하는 '네이티브 오디오' 구조를 채택한 것으로 알려졌다. 이러한 방식은 중간 변환 단계를 줄여 보다 빠르고 자연스러운 음성 대화를 구현하는 것을 목표로 한다.

특히 해당 모델은 사용자의 발화 맥락을 실시간으로 파악해 대화 흐름에 맞춰 자연스럽게 반응하는 능력을 강화하는 데 초점을 맞추고 있는 것으로 전해졌다. 음성에 담긴 억양이나 말투, 감정 표현 등을 보다 정교하게 분석해 상황에 맞는 응답을 제공할 가능성도 제기된다.

오픈AI는 최근 음성 인터페이스를 핵심 AI 플랫폼으로 확대하는 전략을 추진하고 있다. 스마트폰과 차량, 고객 서비스 등 다양한 환경에서 실시간 음성 대화가 가능한 AI 비서를 구현하는 것이 목표다.

업계에선 음성 중심 인터페이스가 차세대 컴퓨팅 환경에서 중요한 역할을 할 것으로 보고 있다. 최근 구글은 AI 모델 제미나이에 실시간 음성 대화 기능을 결합한 '제미나이 라이브'를 선보이며 서비스를 확대하고 있다. 메타 역시 라마 계열 모델을 기반으로 음성 인터페이스 연구를 강화하고 있다. 오픈AI의 이번 기술 개발은 이러한 음성 AI 경쟁 속에서 차세대 인터페이스 주도권을 확보하기 위한 전략으로 해석된다.

업계 관계자는 "음성을 직접 처리하는 AI 모델이 상용화되면 인간과 AI 간 상호작용 방식이 크게 변화할 것"이라며 "실시간 음성 대화가 가능한 AI 비서가 새로운 플랫폼 경쟁의 핵심이 될 가능성이 크다"고 말했다.