"더 똑똑하게 말한다"…오픈AI, 음성 모델·API 정식 출시

오픈AI가 음성 인공지능(AI) 에이전트 개발에 바로 활용할 수 있는 모델과 API 정식 버전을 공개했다.

29일 오픈AI는 음성 대화 모델 'gpt-리얼타임'과 API를 출시했다고 공식 홈페이지를 통해 밝혔다.

gpt-리얼타임은 사용자의 지시를 이해하고, 자연스러운 음성 생성과 정확한 데이터 호출이 가능한 보이스-투-보이스 모델이다. 오픈AI가 이 모델을 지난해 10월 프리뷰 버전으로 공개한 후 개선을 거쳐 이번에 정식 출시했다.

해당 모델은 고객 지원 통화에서 면책 문구를 한 글자도 틀리지 않고 읽어주거나, 영어·숫자 문자열을 정확히 반복하거나, 문장 중간에 자연스럽게 언어를 전환하는 등 시스템 메시지와 개발자 프롬프트를 기존보다 더 잘 해석할 수 있다.

오픈AI는 gpt-리얼타임 음성 기능을 기존보다 자연스럽게 만들기 위해 새 음성 '시더(Cedar)'와 '마린(Marin)'을 추가했다. 기존 8개 음성도 업그레이드했다. 현재 전화번호 인식 정확도는 기존 모델 대비 65.6%에서 82.8%로 올랐다. 특정 지시에 대한 처리 기능도 20.6%에서 30.5%로 향상됐다. 복잡한 함수 호출 정확도도 49.7%에서 66.5%로 증가한 것으로 나타났다.