구글 인공지능 "뉴스 제목도 잘 뽑네"

컴퓨팅입력 :2016/09/05 13:02    수정: 2016/09/05 13:06

구글이 글의 내용을 살리면서 요약문을 만드는 방법을 컴퓨터에게 가르친 뒤 그 솜씨를 공개했다. IBM이 먼저 수행한 연구와 비슷한 주제다. 구글의 인공지능(AI)은 아직 글 전체를 다루진 못하지만, 배우는 과정에서 '괜찮은 뉴스 제목(headline)'을 쓸 줄 알게 됐다는 소식이다.

구글 브레인 팀의 소프트웨어 엔지니어 피터 리우는 지난달 24일 구글 리서치 공식 블로그 '텐서플로 라이브러리를 사용한 텍스트 요약(Text summarization with TensorFlow)'이라는 글을 게재했다.

[☞참조링크: Text summarization with TensorFlow]

텐서플로는 구글이 만든 기계학습(머신러닝) 라이브러리다. 구글이 자체 인프라와 서비스에 초점을 맞춰 내부에서만 쓰던 '디스트빌리프(DistBelief)'의 범용 확장판 성격이다. 구글은 지난해 11월 텐서플로를 오픈소스로 공개했다. 이후 구글은 텐서플로 활용 성과를 제시하며, 외부 개발자들이 관심을 갖거나 친숙하게 느끼도록 유도하는 분위기다. 피터 리우가 올린 내용도 그런 목적의 일환으로 해석된다.

구글이 텐서플로 라이브러리를 활용해 텍스트 요약문을 만들어낼 수 있는 딥러닝 알고리즘을 연구 중이다. 회사는 2016년 8월 그 기초 결과물로 뉴스 헤드라인을 생성할 수 있는 모델을 소개했다. [사진=Pixabay]

리우는 "요약은 기계의 읽기 이해력을 받쳐 줄 수 있다, 요약을 잘 하려면 기계학습 모델은 문서를 함축하고 중요한 정보를 추출해낼 수 있어야 하는데, 이는 컴퓨터에게는 대단히 도전적인 작업이고 특히 문서 길이가 증가할수록 더 그렇다"고 지적했다.

그의 연구팀은 기계학습 기반 텍스트 요약을 위해 시도한 몇 가지 접근법을 설명했다. "앨리스와 밥은 열차를 타고 동물원에 갔다. 그들은 어린 기린, 사자, 알록달록한 열대 조류 한 무리를 봤다." 이런 원문이 주어졌을 때, 접근법에 따라 다른 결과가 나온단 설명이었다.

하나는 텍스트마이닝 분야의 '역문서빈도(IDF)같은' 지표를 활용해 문서 안에서 중요해 보이는 부분을 추출하고 그걸 요약문에 담는 방식이다. 결과물은 이렇다. "앨리스와 밥은 동물원에 가다. 조류 한 무리를 봤다." 즉 이런 발췌 방식은 어색하거나 문법적으로 이상한 결과물을 만든다.

다른 하나는 사람이 하는 것처럼 본문 일부를 발췌하도록 강제하지 않고 내용을 고쳐 쓸 수 있도록 허용하는 방식이다. 추상적 요약(abstractive summarization)이라 불리는 이 방식을 적용한 결과물은 이렇다. "앨리스와 밥은 동물원에 갔고 짐승과 새를 봤다."

리우는 "이 예시에서 우리는 비슷한 분량의 단어에 더 많은 정보를 보존하도록, 원문에 없는 단어를 썼다"며 "추상적 요약이 더 나은 방식이라는 점은 분명했다"고 덧붙였다.

그는 연구팀의 모델에 구글이 메일서비스에 적용한 자동 회신(Smart Reply) 기능을 만든 것과 비슷한 딥러닝 기법, '시퀀스-투-시퀀스 러닝' 방식을 적용했다. 그러자 뉴스 텍스트를 읽혔을 때 적절한 헤드라인을 쓰게 만드는 식으로 이 모델을 훈련시킬 수 있다는 점을 깨달았다.

이어지는 설명은 여기에 텐서플로 모델을 활용해 알고리즘 기반으로 추상적 요약을 수행케 했다는 내용이다. 그는 "뉴스 헤드라인의 특성을 관찰해온 바, 이 모델은 기사의 도입부에서 몇 문장을 읽는 것으로 좋은 헤드라인을 생성할 수 있었다"고 자평했다.

■ 서두 제시된 내용 바탕으로 짧은 문장 만들어

모델이 뉴스 헤드라인 작성을 맡았을 때에도 원리는 앞서 언급된 추상적 요약과 같다. 기사의 전체 내용이 아니라 서두에 제시된 일부 내용을 바탕으로 그와 의미가 통하는 짧은 문장이나 어구를 만들어내는 식이다. 영어 원문 느낌을 최대한 살려 한국어로 옮겨 봤다.

원문(기사의 첫 문장) "메트로-골드윈-메이어(MGM)는 올해 도입된 회계규정의 영향으로 1천600만달러 순손실을 기록한 3분기 실적을 공시했다."

결과물(기사 헤드라인) "MGM, 늘어난 매출에 1천600만 순손실 공시"

원문 "7월 1일부터 중국 남부 하이난성의 섬은 유행성전염병 확산을 예방하기 위해 모든 가축 및 육가공품 수입에 강력한 시장 접근 제한 조치를 취하기 시작한다."

결과물 "하이난 질병 확산 방지 나서"

원문 "9월 호주 와인 수출량이 2억6천만달러(미화 1억4천300만달러)에 상당한 5천210만리터를 기록했다고, 월요일 정부 통계청이 발표했다."

결과물 "9월 호주 와인 수출량 높은 기록 세워"

구글은 이 텐서플로 라이브러리에 시퀀스-투-시퀀스 러닝 기법을 응용해 만든 일명 '기사 헤드라인 작성 모델'을 응용해 기계가 더 긴 글을 제대로 요약할 수 있도록 가르치는 방법을 연구 중이다. 연구팀은 깃허브 텐서플로 프로젝트에 해당 모델 관련 코드를 공개하기도 했다.

[☞참조링크: models/textsum at master · tensorflow/models · GitHub]

리우는 "이 작업이 괜찮은 개념증명(PoC)을 해 주긴 하지만, 우리는 괜찮은 요약문을 만들어내는 데 필요한 전체 문서 읽기라는 더 어려운 데이터셋을 들여다보기 시작했다"고 언급했다. 단순히 뉴스 헤드라인을 생성하는 테크닉을 확장해 본래 목적인 긴 글의 요약문을 만드는 작업까지 잘 해낼 수는 없겠지만, 기초를 닦는 정도는 됐다고 본 것이다.

관련기사

미국 지디넷 보도에 따르면 구글은 이 모델을 훈련시키기 위해 존홉킨스대학에서 만든 '주석달린 영어 기가워드(Annotated English Gigaword)'라는 데이터셋을 사용했다. 이는 여러 영어 뉴스통신사 서비스에서 작성한 뉴스 기사 1천만건의 40억개 단어로 구성됐다. 앞서 IBM 왓슨 연구팀이 수행한 비슷한 연구에 사용한 것과 동일한 데이터셋이라는 설명이다.

[☞참조링크: Rise of the robo-journalists? Google teaches an AI the art of writing a good headline]