IBM, 관용표현 식별하는 자연어처리 기술 상용화

컴퓨팅입력 :2020/03/11 15:40

IBM은 비즈니스 언어를 이해하고 인간과 토론할 수 있는 ‘프로젝트 디베이터’의 자연어처리(NLP) 기술을 IBM 왓슨에 통합해 상용화한다고 11일 밝혔다.

프로젝트 디베이터는 IBM 리서치 연구소에서 복잡한 주제로 인간과 토론할 수 있도록 개발한 인공지능(AI) 시스템이다. NLP 기술 중의 하나인 ‘어드밴스드 센티멘트 애널리시스’ 기술은 관용어나 구어적 표현을 식별하고 분석할 수 있다.

‘hardly helpful(그다지 쓸모 있지 않다)’, ‘hot under the collar(몹시 난처하다)’ 등의 표현은 알고리즘으로 파악하기 어렵기 때문에 AI 시스템에게 넘기 힘든 산과 같았다. 왓슨 API로 제공되는 기술을 통해 기업은 구어적 표현을 포함한 언어 데이터까지 분석할 수 있다. 이 기술은 이달 중 ‘IBM 왓슨 자연어 이해’에 통합된다.

IBM 프로젝트 디베이터를 적용한 애플리케이션이 사람과 토론하는 모습

IBM은 PDF, 계약서 등 각종 비즈니스 문서를 이해하는 기술도 AI 모델에 추가할 예정이다. 프로젝트 디베이터의 다양한 기술을 연내 IBM 왓슨 API로 제공한다는 방침이다.

IBM은 조달 계약 같은 비즈니스 문서에서 사용하는 조항을 쉽게 분류하는 AI 모델을 만들 수 있도록 새로운 분류 기술을 발표했다. 이 기술은 프로젝트 디베이터의 딥러닝 기반 분류 기술을 활용, 수백 개의 샘플만 학습해 새로운 조항과 문구를 빠르고 쉽게 구분하고 분류할 수 있다. 이 기술은 올해 말 ‘IBM 왓슨 디스커버리’에 추가된다.

'요약(Summarization)' 기술은 다양한 출처로부터 문자 데이터를 가져와 특정 주제에 관한 말과 글을 요약해 사용자에게 제공한다. 올해 그래미 시상식에서 이 기술의 초기 버전을 활용해 1천800 만 개 이상의 기사, 블로그 및 약력을 분석하고, 수백 명의 그래미 아티스트 및 유명 인사에 대한 간단한 정보를 제공했다. 이 데이터는 그래미닷컴의 레드 카펫 라이브 스트림, 주문형 비디오 및 사진에 녹여져 팬들에게 그날 밤의 주요 주제에 대한 심층적인 정보를 제공하는데 활용됐다. 이 기술 또한 연말에 ‘IBM 왓슨 자연어 이해’에 통합될 예정이다.

'어드밴스드 토픽 클러스터링(Advanced Topic Clustering)' 기술은 프로젝트 디베이터에서 얻은 인사이트로부터 탄생한 기술이다. 사용자가 수집되는 데이터를 무리로 묶어 관련 정보의 유의미한 토픽을 생성한 다음 분석할 수 있게 한다. 올해 후반에 ‘IBM 왓슨 디스커버리’에 통합될 예정이다. 이 기술은 분야별 전문가가 보험, 의료, 제조 등 특정 비즈니스 또는 업종 의 언어를 반영하도록 토픽을 맞춤화하고 정밀 튜닝하는 것을 가능하게 한다.

이런 IBM 왓슨의 기술은 앞으로 고객 경험, 프로세스 자동화, 데이터의 문맥화(contextualization) 등 다양한 영역에서 비즈니스 성과를 개선할 수 있는 여러 기회를 제공할 것으로 기대된다.

관련기사

롭 토마스 IBM 데이터 및 AI 총괄 사장은 “언어는 정보를 위한 도구일 뿐 아니라 사상과 의견을 표현하는 수단”이라며 “이것이 프로젝트 디베이터에서 기술을 추출해 IBM 왓슨에 통합시킨 이유”라고 설명했다.

그는 “이 기술을 통해 기업은 인간의 언어에서 더 많은 것을 파악, 분석, 이해할 수 있게 되고, 데이터에 담긴 지식을 활용하는 방법에 있어서도 진일보하게 됐다”고 강조했다.