LG CNS는 인공지능(AI) 스피커와 챗봇 개발을 위한 자연어이해(NLU) 학습용 한국어 표준데이터 '코쿼드(KorQuAD) 2.0'을 제작해 누구나 활용할 수 있게 공개했다고 5일 밝혔다.
AI 스피커와 챗봇은 개발 과정에 NLU 학습용 표준 데이터를 필요로 한다. 영어권에는 미국 스탠포드대학과 마이크로소프트 등이 제작한 영문 표준 데이터가 존재해 AI 개발에 활용되고 있으나, 한국에는 표준 데이터가 없어 영문을 번역하거나 자체 데이터를 마련해야 했다. LG CNS는 표준 데이터를 제작해 자사 AI 개발에만 활용하는 게 아니라 외부에 개방해 AI 연구자들간 시너지를 통한 국내 기술발전에 기여하기로 했다.
LG CNS는 지난해 12월 위키백과 정보 기반으로 AI 학습용 한국어 표준데이터 7만건을 포함한 '코쿼드 1.0'을 제작해 공개했다. 코쿼드라는 이름은 한국어 질의응답 데이터셋(Korea Question Answering Dataset)이라는 어구를 축약해 만들어졌다. 회사는 코쿼드 1.0 공개에 텐서플로코리아와 같은 AI 연구 커뮤니티에서 큰 호응을 보였고, 네이버와 카카오 등 AI 기술 기업과 종사자 그룹 50여 팀이 코쿼드를 사용한 AI 개발에 나섰다고 자평했다.
코쿼드2.0은 표제어와 그 설명을 담은 '정보' 4만건과, 그 내용을 기반으로 만들어진 단문 및 장문의 '질의응답' 10만건으로 구성돼 있다. 질의응답 10만건 중 약 9만건은 AI 학습용이고 1만건은 개발된 AI의 추론 성능 평가용이다. 코쿼드2.0 한국어 표준 데이터를 깃허브의 웹사이트(https://korquad.github.io)를 통해 누구나 내려받을 수 있다. 코쿼드2.0은 코쿼드1.0 대비 한국어 표준데이터 규모를 7만개에서 10만개로 늘렸고, 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 보강한 버전이다.
LG CNS 설명에 따르면 코쿼드1.0 학습으로 '대한민국의 수도와 그 면적은?'이란 질문에 '서울특별시, 605.25㎢입니다'라고 답하는 AI를 개발할 수 있었다. 코쿼드2.0 학습으로 '서울특별시의 특징은?'이라는 질문에 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…'이라고 답하는 AI를 개발할 수 있게 됐다. 또 코쿼드2.0은 AI가 표나 리스트 형태에 담긴 정보를 읽어 답변할 수 있도록 표준 데이터 범위를 확대했다.
코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능평가를 받을 수 있다. 등록된 AI의 평가결과는 '리더보드'에 등재돼 그 수준이 다른 AI와 대조될 수도 있다. 성능 평가 결과를 실제 정답과 정확하게 일치하는 비율을 의미하는 'EM' 점수와, 정답과 유사한 답변을 내놓는 비율을 의미하는 'F1' 점수로 나타낼 수 있다. 사람은 EM 점수 80.17점, F1 점수 91.20점이 평균이다. 현재 리더보드에는 네이버가 코쿼드를 사용해 개발한 AI의 EM 점수 86.84점, F1 점수 94.75점이 1위로 기록돼 있다.
관련기사
- BNK금융그룹, AI 언어모델 ‘버트’ 고객 상담 분석에 적용2019.09.05
- 마인즈랩, 인공지능 API 10종 오픈2019.09.05
- IBM, 기업용 오픈소스 머신러닝 데이터 저장소 열어2019.09.05
- MS "코타나 한국어 지원, 올해는 계획 없어"2019.09.05
이날 LG CNS는 서울 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 'AI테크톡 포 NLU'라는 AI커뮤니티행사를 열어 코쿼드2.0 공개 소식을 내놨다. 현장에 한국전자통신연구원(ETRI), 서울대학교, 한국과학기술원(KAIST) 등의 연구진과 교수진이 연사로 참석해 AI 연구성과와 최신기술 동향을 공유했다. LG CNS 코쿼드를 사용해 개발한 AI 모델 성능평가를 받고 리더보드에 등재된 50여 팀 가운데 선두인 네이버 '클로바AI' 팀이 참석해 AI 제작기를 발표했다.
LG CNS 최고기술책임자(CTO) 현신균 부사장은 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다"고 말했다.