인간의 ‘말’에는 ‘뜻(semantic)’과 ‘소리(phonetic)’가 같이 들어 있다. 뜻은 텍스트로 전환할 수 있고 소리는 음파로 표현된다. 거대언어모델(LLM)은 뜻과 소리를 분리 처리한다.
먼저 ‘뜻’ 처리를 보자. 글이나 이미지처럼 음성인식 또한 임베딩과 트랜스포머 기술을 통해 구현할 수 있다. 음성-to-텍스트를 생각해보자. 오디오 신호는 글처럼 시리즈로 나오나, 글과는 달리, 띄지 않고 붙어 나온다.
즉, I like an apple이라는 글이 소리로는 Ilikeanapple로 들린다. 인간은 이를 듣고 음소(phoneme), 음절(syllable), 그리고 단어를 차례로 잘라서 추출하고 결국 문장을 재구성한다. 반면 기계는 주파수와 진폭으로 구성된 음파 만을 보고 같은 결과를 얻어야 한다.
이를 위해 먼저 음파를 25ms 정도로 토막을 내어 각 토막의 아날로그 특성을 MFCC라는 방법으로 벡터 수치화한다. 이 벡터를 Whisper, Chirp나 Wav2Vec 같은 특수 신경망에 입력해 말의 최소 단위인 음소를 추정한다. 이 음소가 토큰이 돼 임베딩을 만든다. 임베딩을 트랜스포머로 처리한 후 텍스트를 추출한다. 일단 텍스트 세계에 들어오면, 수많은 ‘의미상의 작업’이 가능하다. ‘의미상 작업’에는 번역, 요약, 의문형, 부정형, 대답 등 LLM의 모든 특기가 포함된다
AI는 ‘소리’도 처리 조작할 수 있다. 목소리를 인식하고 생성할 수 있다. 또한, 변형을 통해 음색, 억양, 말 속도, 소리 크기, 음질을 바꿀 수 있다. 음성 ‘클로닝”이라 부른다. 친숙한 목소리로 “엄마, 나야,” 로 시작되는 전화 통화는 피싱일 수 있다. 목소리를 복제하려면 3초 분량의 목소리만 있으면 된다.
미국 정부는 알 수 없는 발신자로부터 전화를 받으면 먼저 말하지 말라고 조언한다. 사기꾼들이 내 목소리를 녹음해 악용할 수 있기 때문이다. 이렇게, AI는 ‘말’의 ‘소리’와 ‘뜻’ 두 속성을 각각 디지털화해서 완전 정복했다. 음성 기반 응용의 인기있는 공식은, 음성-to-텍스트, 텍스트-to-텍스트, 그리고 텍스트-to-음성을 연속으로 쓰는 것이다. 그 과정에서 어느 단계가 생략되기도 하고, 또 음성-to-음성(통역)이 첨가되기도 한다.
내과의사 김 박사는 환자와의 상담에 대부분의 근무 시간을 할애한다. 50분간의 상담 후, 대화를 요약해 기록으로 보관한다. 이 작업에 약 10분 정도 소비한다. 이제 AI가 도울 수 있다. AI 어시스턴트가 대화를 듣고 내용을 요약한다. 음성-to-텍스트 기능을 적용한 후, LLM은 이 텍스트를 쉽게 요약한다. 김 박사는 이를 검토하고 필요한 경우 수정한다.

비슷한 예로 콜센터의 ‘상담원 보조 프로그램’을 보자. 외부 고객이 전화로 질문을 할 경우 이 프로그램은 대화를 듣고 있다가 상담원에게 도움이 되는 말을 상담원의 컴퓨터 화면에 보여주는 것이다. 일종의 ‘컨닝 페이퍼(영어로는 cheatsheet)’가 된다. 언젠가 이 보조원이 상담원이 될 것이다. 또한 콜센터 대화는 밤마다 요약되어 고객의 관심사항과 제품의 문제점을 통계로 보여준다.
전통적으로 공장 자동화는 '센서'와 전기 신호로 변환해 통신했다. LLM은 '시각과 소리'를 센서 중개 없이 직접 처리한다. 조립공장에서 “전 단계에서 25번 나사가 빠졌네요”라는 말을 들을 수 있다. 또한 중장비 환경에서 치명적인 사고를 방지하기 위해 모든 기계는 사람이 "멈춰"라고 외칠 때 실행하도록 훈련돼야 한다. 이는 사람들의 생명을 구할 수 있다. 결국 모든 기계 안에 가벼운 챗봇이 포함될 것이다.
한 여름에 에어컨이 잘 작동하지 않을 때, 직접 기계에게 물어보면 된다. 또 음성을 암호로 사용해 문이나 컴퓨터의 잠금을 해제할 수 있다. 예로, 집주인이 “열려라, 참깨!”라고 말하면, 대문이 주인 목소리를 알아채고 진짜 열린다. 언젠가 우리집 개나 고양이도 혼자서 들락날락할 수 있을 것이다. 끝으로, 장애인은 음성 제어를 사용해 엑셀에 작업할 수 있다. “두 칸 아래, 한 칸 오른쪽으로 움직여. 그리고, ‘전기료’라고 써.”
애플(Apple) 시리(Siri)나 아마존 알렉사(Amazon Alexa) 같은 음성 기반의 가상비서를 생각해본다. 기계가 일단 말을 텍스트로 옮기기만 하면, 나머지는 LLM 고유의 텍스트 처리 능력으로 텍스트로 답을 내고, 이를 음성으로 옮겨 대답한다. 같은 원리를 기계 번역에도 적용할 수 있다. 국제 컨퍼런스에서 영어로 한 연설을 100개의 언어로 동시 통역할 수 있다. 사용자는 이어폰의 채널을 원하는 언어에 맞추면 된다. 그리고, 유튜브의 경우 ‘자동 캡션’은 위와 같은 음성모델을 사용해 말을 텍스트로 게시한다. 거기에 ‘자동 번역’(Auto-translate)을 선택하면 다른 언어로 번역된 글이 나온다. 이렇게 기계가 인간의 말을 가지고 논다.
관련기사
- [황승진의 AI칼럼] 강화학습과 최적화2025.05.03
- [황승진의 AI칼럼] 지식그래프·LLM·RAG···트리오의 만남2025.04.26
- [황승진의 AI칼럼] 힌튼 개발 '테스니' 분석서 맹활약2025.04.19
- [황승진의 AI칼럼] 쏟아지는 이미지 AI···비즈니스에는 어떻게 활용할까2025.04.12
흥미롭게도, 현대자동차는 AI가 자동차의 작동 소리를 듣고 문제의 원인을 찾을 수 있는 기능을 개발했다고 한다. 예를 들어, “쉿” 하는 소리가 나면 냉각수 누출을 나타낼 수 있다. “끼익” 소리라면 벨트 교체가 필요할 수 있다. 결국에는 소리내는 자동차는 자기 소리에 대해 설명까지 할 것이다. “주인 어른, 내가 이렇게 쿵쿵거리는 소리를 내는 것은 믹서가 잘 못 되었거나, 스파크 플러그가 손상되었을 수 있어요.”
만약 먼 조상이 지금 우리를 방문한다면, 인간이 전화기, 자동차, 에어컨, 공장 기계와 말을 주고받는 ‘이상한 나라’라고 여길 것이다.
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.