'조물주' 저커버그, 언어장벽 없는 메타버스 만든다

"모든 음성언어 실시간 번역"…원하는 환경은 빌더봇으로 구축

인터넷입력 :2022/02/24 16:43    수정: 2022/02/25 17:43

김익현 미디어연구소장 기자 페이지 구독 기자의 다른기사 보기

‘메타버스 퍼스트’를 선언한 마크 저커버그가 인류를 가로막고 있는 언어장벽을 허물어버리겠다고 선언했다. 전 세계 모든 언어를 실시간으로 번역해주는 시스템을 구축해 자유롭게 소통할 수 있도록 하겠다는 것이다. 

언어 장벽 붕괴는 국경을 뛰어넘는 메타버스를 구축하겠다는 저커버그의 야심을 실현해 줄 '마지막 열쇠'다. 

마크 저커버그 메타 최고경영자(CEO)는 23일(현지시간) 온라인으로 열린 ‘인사이드 더 랩(Inside the Lab)’ 행사에서 '범용 음성 인공지능(AI) 번역 시스템’ 개발 계획을 공개했다.

마크 저커버그가 메타의 범용 음성언어 번역 계획을 공개하고 있다. (사진=메타)

이날 행사에서 저커버그는 “메타버스에서는 오늘날 가능한 것과는 차원이 다른 경험을 하게 된다. 이를 위해선 하드웨어 기기부터 소프트웨어까지 모든 분야가 발전해야만 한다”면서 “이런 발전에서 핵심적인 분야는 AI이다”고 강조했다.

■ AI음성 비서 성능 확충→ 음성언어 실시간 번역 목표 제시 

방대한 계획의 출발점은 ‘카이라오케(CAIRaoke) 프로젝트’다. ‘자기 지도 학습(self-supervised learning)’ 모델인 카이라오케는 인공지능(AI) 음성 비서의 소통 능력을 획기적으로 개선시키는 데 초점을 맞추고 있다. 

단순한 질의응답 수준을 뛰어넘어 분위기에 맞게 맥락적인 대화를 할 수 있는 수준까지 끌어올리겠다는 것이다.

이를테면 AI 음성 비서는 “오늘 날씨 어때?” 같은 질문에는 쉽게 답을 한다. 하지만 "지난 주에 비해 날씨가 좋아?”란 질문은 조금 어렵다. 질문의 맥락과 함께 최근 동향을 잘 알고 있어야만 하기 때문이다. 

메타의 카이라오케 프로젝트

‘카이라오케 프로젝트’는 AI 비서가 이런 맥락들을 좀 더 잘 잡아낼 수 있도록 해 준다. 사람간의 대화에서는 시선, 얼굴 표정, 손동작 같은 정보까지 이해한 뒤 좀 더 맥락적인 대화까지 처리하도록 한다는 계획이다.

여기서 중요한 역할을 하는 것이 '자기 지도 학습’ 방법이다. 그 동안 나온 음성 비서들을 방대한 데이터를 토대로 언어를 익히는 방식을 택했다. 하지만 메타의 ‘카이라오케 프로젝트’는 흩어져 있는 정보 조각들을 결합해 자기 주도적으로 학습한 뒤 전체 대화를 익히는 능력을 갖도록 하는 데 초점을 맞추고 있다.

그 다음 단계가 모든 언어를 실시간으로 통역해주는 프로젝트다. 

이것도 크게 두 가지 단계로 구성돼 있다. 첫 번째는 ‘모든 언어 포괄(No Language Left Behind)’ 계획이다. 영어, 중국어처럼 많은 사람들이 사용하는 언어 뿐 아니라 아스투리아스, 루간다, 우르두어처럼 상대적으로 이용자가 적은 언어도 번역할 수 있도록 한다는 계획이다.

(사진=메타)

그런데 이게 생각처럼 간단한 과제는 아니다. 이용자가 적은 언어는 데이터가 부족해 기존 기계번역으로는 제대로 처리하는 것이 힘들었다. 일종의 빅데이터 분석 방법을 활용하는 기계 번역은 방대한 언어 데이터가 있어야만 제대로 번역을 할 수 있다.

그러다보니 전 세계 사람들이 사용하는 언어들 중에는 기계번역이 제대로 처리하지 못하는 것이 엄청나게 많다. 메타는 “현재 상용화돼 있는 번역 기술은 전 세계 인구 20% 가량이 사용하는 언어는 처리하지 못한다"고 지적했다.

■ 전 세계 언어 포괄…소수언어까지 전부 번역

메타는 데이터 부족 문제를 해결할 수 있는 AI 번역 기술을 개발하겠다는 것이다.

이를 위해선 무엇보다 여러 언어들의 훈련 데이터를 확보해 널리 활용하는 방법이 필요하다. 이와 함께 현재 입수할 수 있는 언어 데이터를 처리하는 새로운 방법을 찾아내야 한다. 이를 통해 자기 학습을 할 수 있도록 해야 하기 때문이다.

메타가 이 문제를 해결하기 위해 마련한 것이 레이저(LASER) 기술이다. 오픈소스 툴킷인 레이저는 28개 문서에 사용된 125개 이상의 언어 데이터를 수집 분석하고 있다.

현재 사용되고 있는 기계번역은 ‘두 언어 간 번역(bilingual translation)’ 방식을 주로 사용해 왔다. 이를테면 '영어 →스페인어', '독일어→ 영어' 같은 번역 방식이다. 대부분의 기계번역은 영어를 중심으로 번역망을 구축해 왔다. 

메타는 ‘영어 중심’ 두 언어간 번역이란 패러다임을 바꾸는 데 초점을 맞추고 있다. 메타는 공식 페이스북 페이지에 올린 글을 통해 “최초로 영어가 중심이 되지 않은 다중언어 텍스트 번역 시스템을 만들었다"고 주장했다. 이를 통해 전 세계 101개 언어를 포괄한다는 계획이다.

그 다음 단계가 ‘범용 음성 인공지능 번역 시스템’다. 음성 언어를 실시간으로 번역하는 것은 글자를 번역하는 것보다 훨씬 더 어렵기 때문이다.

(사진=메타)

범용 인공지능 음성 번역 시스템을 구현하기 위해선 앞에서 지적한 여러 문제들을 함께 해결해야만 한다. 두 사람의 대화를 동시 통역할 때는 문자 번역 때와 달리 '시간 지연’을 최소화해야 하기 때문이다.

시간 지연은 전문적인 동시 통역사들도 겪는 문제다. 아주 숙달된 인간 통역사들도 서로 다른 언어를 번역할 때 일반적으로 3초 정도 시간차가 생긴다. 서로 다른 언어들은 주어, 동사 등의 배치 순서가 다르기 때문에 생기는 어쩔 수 없는 한계다.

메타는 이 문제를 해결하기 위해 문자 번역에 사용된 레이저 기술을 음성언어 쪽으로 확대 적용하고 있다. 이미 영어를 비롯해 프랑스어, 독일어, 스페인어 등에선 1천400시간 분량의 음성 언어 번역 데이터를 확보했다고 메타 측이 밝혔다.

궁극적인 목표는 음성 언어를 단순 번역하는 수준이 아니다. 메타는 모든 사람들의 표현과 성격을 그대로 살리기 위해 음성 번역 때 억양 같은 요소들도 포함시키기 위한 연구를 진행하고 있다고 강조했다.

이런 정도로 기술이 구현될 경우엔 증강현실(AR) 안경 같은 기기를 활용해 서로 다른 언어를 사용하는 사람들끼리도 자유롭게 대화할 수 있게 될 것이란 게 메타의 주장이다.

■ 빌더봇으로 나만의 세상 구축…바벱탑 이전 세상 구현? 

메타는 왜 인류의 자유로운 소통을 가로막는 언어 장벽을 허물기 위해 공을 들이고 있는 걸까? 

당연한 얘기지만, 초국가적 플랫폼을 제대로 구현하기 위한 첫 단계가 '바벨탑 해체'이기 때문이다. 그 동안 메타가 페이스북에서 텍스트 번역 서비스를 지속적으로 향상시켜 온 것은 이런 사정과 밀접한 관련이 있다. 

그런데 지난 해 '메타버스 퍼스트'를 선언하면서 번역의 필요성은 더 커졌다. 이젠 문자 뿐 아니라 대화까지 통하도록 해줘야 하기 때문이다. 

서로 다른 나라에 거주하면서 다른 언어를 사용하는 사람들이 자유롭게 대화하면서 서로 소통할 수 있어야만 진정한 메타버스가 될 수 있다. 

메타가 '음성언어 실시간 번역'이란 쉽지 않은 화두를 꺼내든 것도 그 때문이다. 

(사진=메타)

이날 함께 선보인 ‘빌더봇(Builder Bot)’은 마크 저커버그의 메타버스 비전이 어느 쪽을 향하고 있는 지 잘 보여줬다. 빌더봇은 말 그대로 '무언가를 만들어주는 로봇'이다. 

실제로 행사에서 저커버그의 아바타는 빌더봇에게 공원을 만들어달라고 명령했다. 하지만 저커버그는 곧바로 변덕을 부려 "가상 해변으로 데려다달라"고 명령했다. 그러자 순식간에 해변이 나타났다. 저커버그가 이 해변에 구름, 섬 같은 요소들을 추가하라고 명령하자 곧바로 그럴듯한 해변 풍경이 완성됐다. 

빌더봇을 활용하면 메타버스 내에 원하는 환경을 자유롭게 만들 수 있다. 자신이 구축한 환경에 전 세계 사람 누구나 초대할 수 있다. 실시간 음성번역이 지원되면 그들과 자유롭게 대화를 주고받을 수 있다. 이게 저커버그가 이날 제시한 '메타표 메타버스'의 원대한 비전이었다.

음성언어 범용 번역 시스템은 그 원대한 꿈으로 가는 마지막 관문이다. 메타는 바로 그 관문을 향해 한 발 한 발 전진하고 있는 것이다.

관련기사

파리에 있는 페이스북 AI 연구소의 안젤라 팬은 씨넷과 인터뷰에서 “모든 사람이 새로운 기술을 자유롭게 접할 수 있도록 하기 위해선 번역 문제가 해결되어야만 한다”고 강조했다.

그 꿈이 실현되는 날 영어가 웹의 기본 언어라는 기존 상식도 함께 무너져 내릴 것 같다.

김익현 미디어연구소장sini@zdnet.co.kr