"콩글리시DB 쓰니 영어 음성인식 뜨네"

디오텍 윤재선 음성기술연구소 실장

일반입력 :2014/08/29 14:49    수정: 2014/08/29 16:57

최근 학원가를 비롯한 온오프라인 영어교육시장에 음성인식이 유행이다. 학습자의 발음을 컴퓨터가 듣고 원어민 수준으로 발음하도록 교정하는 방식이다.

국내 영어교육의 음성인식 도입은 꽤 오래전부터 진행됐다. 오프라인 영어학원들이 음성인식기를 탑재한 전용 단말기를 활용해온 것이다. 그러다 최근 태블릿 등 모바일 기기 활용이 늘면서 모바일 앱이나 웹서비스로 음성인식 기반의 영어학습법이 유행처럼 번졌다.

디오텍은 그동안 국내 다수 외국어 교육 전문 기업에 음성인식엔진을 공급해왔다. 외국 회사들이 한국에서 고전할 때도 디오텍은교원그룹, 청담러닝, GnB, YBM시사닷컴, 잉글리쉬무무, 코리아폴리스쿨, 위버스마인드 등 다양한 영어 학습 기업 등에 교육용 영어 음성 인식 엔진 기술을 제공했다.

디오텍에서 영어 교육용 음성인식 개발을 주도한 이는 윤재선 사업2본부 음성기술연구소 연구5실장이다.

“처음 음성인식을 이용해 만든 영어교육프로그램은 기계의 원어민 소리를 듣고 따라하면 다음 문장으로 넘어가는 식이었어요. 원어민 발음과 똑같지 않으면 다음 문장으로 넘어가지 않았죠. 문제는 음역 크기, 억양, 음의 길이 같은 게 중요한데 당시엔 발음만 봤어요. 지금은 발음뿐 아니라 억양도 같아야 높은 점수를 받는 걸로 진화했죠.”

윤 실장에 따르면 영어음성인식 기술은 단순히 소리를 내는 것과 차원이 다르다. 특히 음의 장단고저 같은 억양이 의사소통의 중요한 축을 담당한다. 사실 외국인과 똑같이 영어로 말한다는 건 발음과 억양 모두를 똑같이 한다는 뜻이다. “억양까지 고려한 엔진을 처음 만들 때 성인 원어민의 데이터베이스를 확보해서 만들었어요. 그런데 고객사에서 요구한 건 초등학생용이었거든요. 만들어서 원어민에게 테스트하면 별 문제가 없는데, 아이들한테 시키면 다음 문장으로 넘어가질 못하는 거에요. 외국에서 수집된 DB로 하면 한국인의 발음과 확실한 차이를 보이게 돼서 그걸 극복하는데 애를 먹었죠. 결국 고객사 협조를 통해 실제 학원수강생의 DB를 구했고, 여러 학원에 요청해서 초등학교, 중학교, 고등학교별로 DB를 모은 다음 ‘콩글리시DB’란 걸 만들었어요.”

한국인의 영어발음만 모은 DB라니 흥미롭다. 그에 의하면, 같은 한국인이라도 아이와 어른의 소리가 연령대, 성별마다 또 다르단다. 디오텍은 이에 콩글리시DB를 세분화해 엔진에 탑재했다. 엔진의 인식성능도 달리 했다고 한다. 나이나 성별에 따라 목소리의 크기가 다르기 때문이다.

“사실 음성인식엔진 자체도 외국회사의 제품이 한국에서 잘 안 통하는 이유가 한국인과 원어민의 차이를 극복하는 튜닝이 어렵기 때문이에요. 사실 구글도 아이들의 음성은 잘 인식 못해요. 처음 우리나라 학원들이 성인 외국인 DB로 만든 외국회사의 음성인식엔진을 썼어요. 그런데 그걸로 아이들한테 교육하니 점수가 20점도 안나오는 거에요. 그 문제를 해결 못하니까 그냥 변별력을 올리는 걸로 대응하다가 불만이 갈수록 심해지니까 한국회사를 찾기 시작한 거죠. 디오텍은 여러 학원을 통해 확보한 DB로 아동에 적합한 음성인식엔진을 만들어 공급하게 됐고, 그렇게 20여개 회사에 공급했죠.”

영어학습용 음성인식엔진의 변별력은 결국 DB였다. 이 DB를 완성도 있게 보유하지 못하면 아무리 정교한 음성인식엔진도 별무신통일 수밖에 없다.

DB말고 또 다른 무언가가 있다. 교육자의 철학이다.

“우리나라 영어학원들은 저마다 고유의 교육철학을 갖고 있어요. 그래서 학원마다 요청하는 게 다 달라요. 어디는 빨리 말하는 걸 중요하게 본다거나, 어디는 크게 말하는 걸 중요하게 본다거나 하는 식이죠. 이거에 맞게 다시 튜닝하는 작업도 꽤 오래 걸렸어요.”

이렇게 완성된 디오텍의 영어교육용 음성인식엔은 억양의 패턴, 소리 크기의 패턴, 발성의 길이, 유창성 평가 등이 가능해졌다. 원어민 발음과 똑같이 소리내는 것뿐 아니라 말하는 속도와 억양까지 학습할 수 있게 한다. 음성인식 후 부정확한 부분을 시각화해 보여주고, 어떻게 개선할 지 알려주는 것도 가능하다.

“한동안 서버를 기반으로 음성인식 기반 학습을 제공하는 게 많았어요. 하지만 이 경우 네트워크가 끊기거나 품질이 안좋으면 서비스 자체를 쓸 수 없죠. 그래서 요즘은 단말기 안에 인식엔진을 넣도록 소용량으로 공급하는 형태로 가고 있습니다.”

관련기사

요즘 영어 말하기에 대한 사회의 관심이 전연령대로 확산되고 있다. 영어 사교육시장이 아이들부터 대학생, 성인에 이르기까지 말하기 중심으로 재편된다고 봐도 될 정도다.

“가장 큰 이유는 토익스피킹테스트 때문입니다. 이제 토익 말하기 점수가 취업에서 요구되면서 말하기를 중요하게 여기게 됐죠. 이런 시장도 음성인식기술에게 기회가 될 거라 봅니다. 외국으로 진출하는 건 한류열풍을 타고 들어가는 걸 생각해볼 수 있어요. 미국 의료관련법이 바뀌어서 의사와 환자의 대화를 모두 녹취하게 하도록 했는데, 이 시장도 노릴 만하죠. 장애인 위한 실시간 자막방송도 음성인식이 유용할 거라 봅니다.”