그동안 해외여행에서 많이 쓰였던 구글 이미지 번역은 사진 촬영 후 손가락으로 번역하기 원하는 부분을 문질러야 하는 불편이 있었다. 무엇보다 한국어 번역이 자연스럽지 않았다.
네이버는 이런 불편함을 개선하기 위해 네이버 번역 플랫폼인 파파의 이미지 번역 기술을 고도화시켰다. 단어 단위를 넘어 문맥이 고려된 문장이나 문단 단위의 재구성을 할 수 있는 HTS 기술을 통해서다.
네이버 파파고팀은 인식된 문자들의 디자인과 문장 구조를 분석해 번역에 적합한 문장을 찾는 자체 딥러닝 모델 HTS를 연구 개발해 번역 품질을 한 단계 높였다. HTS 모델은 네이버가 보유한 방대한 언어 데이터와 언어처리 기술력에 기반한다.
또 번역 결과를 원본 이미지에 자연스럽게 합성할 수 있는 텍스트 에디팅 기술과 인페이팅 기술 등도 적용했다.
네이버는 25일 네이버 개발자 행사인 데뷰2020을 통해 파파고 이미지 번역 기술을 어떻게 발전시켜 왔는지 공개했다.
발표를 맡은 최찬규 네이버 엔지니어는 "이미지 번역은 해외여행을 할 때 외에도 SNS로 외국인과 소통하고, 외국 게임을 할 때 등 다양하게 쓰이기 때문에 파파고도 이런 기능 추가가 필요했다"고 운을 띄웠다.
이미지 번역은 OCR(Optical Character Reader) 기능으로 문자를 인식하고 검출한다. 그 후 검출된 글자를 바탕으로 기계 번역이 이뤄진다.
그러나 단순히 번역만으로는 만족할만한 번역 경험을 줄 수 없다. 문지 인식과 기계 번역 중간에 이러한 단어를 묶고 정렬하는 과정인 '단어 그룹화'가 필요하다.
사용자는 번역을 원하는 대상을 촬영하고, 이미지 안에서 텍스트 영역을 손가락으로 문질러 원하는 답을 얻는다. 네이버는 텍스트 영역 안에 있는 단어를 자동으로 묶고 잘 정렬할 수 있도록 했다.
최 엔지니어는 "이런 기술은 구글도 서비스하고 있는데, 구글 번역기는 단어들을 묶을 때 문맥 정보를 고려하지 않고 줄단위로 처리하기 때문에 번역이 자연스럽지 않다"고 말했다. 외국어 문장을 직독직해 한 느낌이라는 얘기다.
그는 "구글 번역을 벤치마킹하긴 했지만, 더 좋은 번역 결과를 위해 문장/문단 단위로 번역해 품질을 높이고 싶었다"며 "번역가들과 함께 사람이 어떻게 번역을 하는지 연구했고, 텍스트를 계층화하고 구조화할 필요가 있다는 결론을 내렸다"고 말했다.
네이버는 텍스트를 계층화 할 때 띄어쓰기 기준으로 볼 수 있는 단어와 단어들이 동일 선상에 묶여 있는 모습인 라인, 또 라인이 묶여서 만들어진 블록으로 나눴다. 이렇게 하니 좀 더 매끄러운 문장 해석이 가능했다.
또한 이미지에 있는 외국어를 한국어로 바꾸는 이미지 투 이미지 번역을 위해 객체를 자연스럽게 지우는 컴퓨터 비전 기술인 인페인팅을 도입했다.
파파고의 이미지 바로 번역은 한국어·영어·일어·중국어·베트남어·태국어 등 총 6개 언어에서 사용 가능하다.
관련기사
- 네이버 파파고, 사진 속 외국어 바로·더 똑똑히 번역해준다2020.11.04
- 네이버 파파고, AI번역 평가모델로 국제대회서 수상2020.08.25
- 네이버 파파고, 오프라인 번역 출시2019.11.11
- 네이버, 파파고 이미지 번역 기술 고도화2019.08.13
최 엔지니어는 "중국어를 영어로 번역하면 글자 수가 세 배 이상 늘어나고, 반대로 영어를 중국어나 한국어로 번역하면 글자 수가 줄어들어 번역 시 글자 크기를 줄이거나 장평이나 자간, 여백 등을 조절하는 기능도 넣었다"고 말했다.
그는 "정량/정성 평가를 통해 구글보다 네이버 파파고에서 만족할만한 번역 결과가 나오는 것을 확인했다"며 "주술 관계를 잘 살리고, 자연스러운 번역이 가능하다"고 발표를 마쳤다.