“전용 장비 없이 휴대폰만으로 고음질 원격회의”

MS, AI-클라우드 기반 원격회의 서비스 ‘프로젝트 덴마크’ 소개

컴퓨팅입력 :2019/09/17 13:30

마이크로소프트(MS)가 인공지능(AI)과 클라우드를 활용해 전용 녹음 장비 대신 휴대폰과 노트북만으로 높은 수준의 음질 개선 및 음성분석을 할 수 있는 방안을 공개했다.

이를 활용하면 소리가 통제되는 스튜디오가 아닌 환경에서도 높은 수준의 음질과 안정적인 음성회의를 지원하고 AI가 실시간 회의록 작성 및 번역 서비스를 제공할 예정이다.

MS는 휴대폰 등 일반적인 기기를 활용한 원격회의 프로젝트인 ‘프로젝트 덴마크’를 14일 공식 블로그를 통해 소개했다.

AI-클라우드 기반 원격회의 서비스 ‘프로젝트 덴마크’.

프로젝트 덴마크는 전용 하드웨어 없이 개인이 보유한 휴대폰, 노트북 및 태블릿 PC를 사용해 음성 정보를 여러 레벨로 녹음하고 이를 클라우드 환경에서 통합 후 AI가 분석해 더 높은 품질의 녹음 결과물을 제공해주는 서비스다.

3개와 7개 기기로 테스트한 결과 단일 장치 시스템과 비교해 결과물의 정확도가 각 14.8%p, 22.4%p 상승한 것으로 나타났다고 MS는 밝혔다.

이 프로젝트는 녹음 결과물을 실시간으로 AI가 분석해 누가, 언제, 어떤 발언을 했는지 회의록 작성을 제공한다. 언어가 다른 사용자 간에도 효과적으로 회의를 할 수 있도록 실시간 번역서비스인 MS 트랜스레이터와 연동하는 기능도 지원한다.

MS 측은 기기에 따라 사용되는 마이크가 달라 각자 음성 신호가 정렬되지 않을 뿐 아니라 기기가 녹음하는 위치, 녹음에 쓰이는 기기의 숫자 등에 일관성이 없어 이를 일관된 방식으로 통합하기 위한 시스템을 적용했다고 밝혔다.

대표적으로 각 기기의 위치를 파악하기 위해 빔 포밍 시스템이 도입됐다. 빔 포밍은 수집한 음향 신호에 특정 방향에서 나오는 소리를 분석할 수 있는 시스템이다.

관련기사

MS는 이를 이용해 확보한 음성신호를 분석해 위치를 파악하고 식별 모듈을 다시 기기에 전송해 기기간 위치 정보를 정렬한다.

또한 의료 또는 IT 전문 용어가 많이 쓰는 회의에 앞서 어휘 및 문법 등은 관련 텍스트를 AI에 사전 학습시켜 인식 정확도를 향상시킬 수 있다. 화자의 말하는 스타일, 악센트를 비롯해 특정 배경 소음 역시 사전 학습을 통해 불필요한 소리를 제외하거나 정확도를 높이는 것이 가능하다.