주파수 스펙트럼을 관찰해 실제 음성과 녹음된 음성을 구별할 수 있는 기술이 개발됐다. 녹음된 음성을 악용한 피싱 공격 등을 막는 데 기여할 것으로 전망된다.
미국지디넷은 호주 연방과학산업연구기구(CSIRO) 소속 데이터 연구 조직 '데이터61', 삼성리서치, 성균관대학교가 공동으로 이 기술을 반영한 솔루션 '보이드(Void)'를 개발했다고 21일(현지시간) 보도했다.
보이드는 생중계 음성 탐지(Voice liveness detection)'의 줄임말로 스마트폰, 음성 보조 기기 등에 탑재해 사용된다.
이 솔루션은 분광 사진에 나타나는 주파수 스펙트럼을 관찰해 실제 사람의 음성 여부를 판별한다. 유사 기술들이 딥러닝 모델을 활용하는 것과는 차이를 보인다.
데이터 61 소속 사이버보안 연구 과학자인 무함마드 에자즈 아흐메드는 음성 안내 기술이 전화 통화나 메시지 전송 뿐만 아니라 스마트 기기 제어, 은행 서비스, 온라인 쇼핑 등에 접목되는 상황이라고 언급했다.
음성 기반의 스푸핑 공격은 이런 상황에서 보편화되고 있다는 설명이다. 대상의 음성 녹취본만 확보하면 공격에 활용할 수 있는 반면, 실제 음성과 녹음된 음성을 구별하기는 어렵다는 특성 때문이다.
관련기사
- 코로나19 정부지원대출 미끼 '보이스피싱' 주의보2020.06.22
- 정부, 전국민에 코로나19 스팸 주의 문자 발송2020.06.22
- “해외송금 대행 보이스피싱 조심하세요”2020.06.22
- 최근 8개월 간 보이스피싱 악성 앱, 2만9천개 탐지2020.06.22
해당 기술을 개발하는 과정에서 삼성리서치는 가명화된 데이터셋을 제공했다. 기술 검증 결과 데이터셋 별로 각각 99%, 94% 가량의 정확도를 보였다. 판별 속도는 딥러닝 기반 기술 대비 8배 빨랐다.
이 기술은 오는 8월 미국 보스턴에서 개최 예정인 'USENIX 시큐리티 심포지엄'에서 발표될 예정이다.