마이크로소프트(MS)가 인공지능(AI)과 클라우드를 활용해 전용 녹음 장비 대신 휴대폰과 노트북만으로 높은 수준의 음질 개선 및 음성분석을 할 수 있는 방안을 공개했다.
이를 활용하면 소리가 통제되는 스튜디오가 아닌 환경에서도 높은 수준의 음질과 안정적인 음성회의를 지원하고 AI가 실시간 회의록 작성 및 번역 서비스를 제공할 예정이다.
MS는 휴대폰 등 일반적인 기기를 활용한 원격회의 프로젝트인 ‘프로젝트 덴마크’를 14일 공식 블로그를 통해 소개했다.
프로젝트 덴마크는 전용 하드웨어 없이 개인이 보유한 휴대폰, 노트북 및 태블릿 PC를 사용해 음성 정보를 여러 레벨로 녹음하고 이를 클라우드 환경에서 통합 후 AI가 분석해 더 높은 품질의 녹음 결과물을 제공해주는 서비스다.
3개와 7개 기기로 테스트한 결과 단일 장치 시스템과 비교해 결과물의 정확도가 각 14.8%p, 22.4%p 상승한 것으로 나타났다고 MS는 밝혔다.
이 프로젝트는 녹음 결과물을 실시간으로 AI가 분석해 누가, 언제, 어떤 발언을 했는지 회의록 작성을 제공한다. 언어가 다른 사용자 간에도 효과적으로 회의를 할 수 있도록 실시간 번역서비스인 MS 트랜스레이터와 연동하는 기능도 지원한다.
MS 측은 기기에 따라 사용되는 마이크가 달라 각자 음성 신호가 정렬되지 않을 뿐 아니라 기기가 녹음하는 위치, 녹음에 쓰이는 기기의 숫자 등에 일관성이 없어 이를 일관된 방식으로 통합하기 위한 시스템을 적용했다고 밝혔다.
대표적으로 각 기기의 위치를 파악하기 위해 빔 포밍 시스템이 도입됐다. 빔 포밍은 수집한 음향 신호에 특정 방향에서 나오는 소리를 분석할 수 있는 시스템이다.
관련기사
- KEB하나은행, AI기반 '하이뱅킹' 고도화 진행2019.09.17
- 김성수 의원, AI 시대 산업수학 진단 세미나 개최2019.09.17
- "스마트 용광로, 영상 저작권 보호"…마인즈랩, AI 활용사례 공개2019.09.17
- "상담자료분석·고령자맞춤응대"…BNK금융 AI퍼스트 실험2019.09.17
MS는 이를 이용해 확보한 음성신호를 분석해 위치를 파악하고 식별 모듈을 다시 기기에 전송해 기기간 위치 정보를 정렬한다.
또한 의료 또는 IT 전문 용어가 많이 쓰는 회의에 앞서 어휘 및 문법 등은 관련 텍스트를 AI에 사전 학습시켜 인식 정확도를 향상시킬 수 있다. 화자의 말하는 스타일, 악센트를 비롯해 특정 배경 소음 역시 사전 학습을 통해 불필요한 소리를 제외하거나 정확도를 높이는 것이 가능하다.