메타가 구글의 인공지능(AI) 팟캐스트 생성 기능을 본뜬 오픈소스 모델을 공개했지만 실망스럽다는 평가가 나오고 있다. 기술적인 한계로 인해 구글 음성의 자연스러운 품질과 비교 시 미흡한 것으로 판단돼서다.
28일 테크크런치에 따르면 메타는 자사의 AI 모델 '라마(Llama)'를 활용해 구글 '노트북LM' 팟캐스트 기능과 유사한 오픈소스 프로젝트 '노트북라마'를 출시했다. 이 모델은 텍스트 파일을 대화 형식의 팟캐스트 콘텐츠로 변환하는 기능을 제공한다.
'노트북라마'는 파일로 입력된 텍스트를 먼저 분석해 대화체로 재구성한 후 텍스트-음성 변환 모델을 통해 이를 음성 콘텐츠로 출력한다. 이 과정에서 사용자들이 보다 드라마틱한 표현과 중간중간 자연스러운 끊김을 경험할 수 있도록 설정돼 있다.
그럼에도 불구하고 업계 전문가들은 노트북라마의 음성 품질이 아직 초기 단계에 머물러 있는 것으로 평가한다. 사용자가 실제 대화를 듣는 듯한 자연스러움을 구현하기에는 현재의 텍스트 및 음성 모델 수준이 불완전한 상태로, 대화가 겹치는 현상이나 로봇 같은 음성 표현이 발생한다는 것이다.
메타 연구팀은 이러한 품질 문제를 해결하기 위해 더 강력한 모델 도입을 검토하고 있다. 연구팀은 "현재는 단일 AI 모델로 팟캐스트 콘텐츠를 구성하고 있다"며 "두 개의 AI 에이전트가 주제에 대해 토론하는 형식으로 개선할 가능성도 있다"고 밝혔다.
관련기사
- "오픈소스 성공적"...메타, LLM 라마 전년 대비 10배 성장2024.08.30
- "오픈AI 'GPT-4o' 넘는다"…新무기 내놓은 메타, AI 지배력 강화할까2024.07.24
- 개방형 AI 연구 지향하는 메타…"결국 수익화 목적"2024.06.19
- "자료 팩트체크도 가능"…구글, AI 비서 '노트북LM' 업그레이드2024.06.07
현재 AI 팟캐스트 생성 분야에서는 현재 구글을 비롯한 여러 회사들이 경쟁 중인 상황이다. 특히 구글은 지난 6월 '노트북LM'을 출시한 후로 AI 팟캐스트가 가능한 '오디오 개요(Audio overview)' 기능을 통해 업계의 찬사를 받아왔다. 많은 사용자들은 해당 기능의 자연스러운 음성과 인간과 같은 재치있는 만담에 긍정적으로 평가했다.
테크크런치는 "'노트북LM'과 '노트북라마' 등 AI 기반 팟캐스트 생성은 아직 해결해야 할 기술적 과제가 많다"며 "향후 정확성과 자연스러운 표현력을 높이는 기술 개발이 필요하다"고 분석했다.