LG CNS, AI 학습용 한국어 데이터 '코쿼드2.0' 공개

LG CNS는 인공지능(AI) 스피커와 챗봇 개발을 위한 자연어이해(NLU) 학습용 한국어 표준데이터 '코쿼드(KorQuAD) 2.0'을 제작해 누구나 활용할 수 있게 공개했다고 5일 밝혔다.

AI 스피커와 챗봇은 개발 과정에 NLU 학습용 표준 데이터를 필요로 한다. 영어권에는 미국 스탠포드대학과 마이크로소프트 등이 제작한 영문 표준 데이터가 존재해 AI 개발에 활용되고 있으나, 한국에는 표준 데이터가 없어 영문을 번역하거나 자체 데이터를 마련해야 했다. LG CNS는 표준 데이터를 제작해 자사 AI 개발에만 활용하는 게 아니라 외부에 개방해 AI 연구자들간 시너지를 통한 국내 기술발전에 기여하기로 했다.

LG CNS AI커뮤니티 행사에서 이주열 AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. [사진=LG CNS]

LG CNS는 지난해 12월 위키백과 정보 기반으로 AI 학습용 한국어 표준데이터 7만건을 포함한 '코쿼드 1.0'을 제작해 공개했다. 코쿼드라는 이름은 한국어 질의응답 데이터셋(Korea Question Answering Dataset)이라는 어구를 축약해 만들어졌다. 회사는 코쿼드 1.0 공개에 텐서플로코리아와 같은 AI 연구 커뮤니티에서 큰 호응을 보였고, 네이버와 카카오 등 AI 기술 기업과 종사자 그룹 50여 팀이 코쿼드를 사용한 AI 개발에 나섰다고 자평했다.

코쿼드2.0은 표제어와 그 설명을 담은 '정보' 4만건과, 그 내용을 기반으로 만들어진 단문 및 장문의 '질의응답' 10만건으로 구성돼 있다. 질의응답 10만건 중 약 9만건은 AI 학습용이고 1만건은 개발된 AI의 추론 성능 평가용이다. 코쿼드2.0 한국어 표준 데이터를 깃허브의 웹사이트(https://korquad.github.io)를 통해 누구나 내려받을 수 있다. 코쿼드2.0은 코쿼드1.0 대비 한국어 표준데이터 규모를 7만개에서 10만개로 늘렸고, 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 보강한 버전이다.

LG CNS가 자연어이해 AI 개발팀을 위한 한국어 학습용 표준 데이터 코쿼드(KorQuAD) 2.0을 공개했다.

LG CNS 설명에 따르면 코쿼드1.0 학습으로 '대한민국의 수도와 그 면적은?'이란 질문에 '서울특별시, 605.25㎢입니다'라고 답하는 AI를 개발할 수 있었다. 코쿼드2.0 학습으로 '서울특별시의 특징은?'이라는 질문에 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…'이라고 답하는 AI를 개발할 수 있게 됐다. 또 코쿼드2.0은 AI가 표나 리스트 형태에 담긴 정보를 읽어 답변할 수 있도록 표준 데이터 범위를 확대했다.

코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능평가를 받을 수 있다. 등록된 AI의 평가결과는 '리더보드'에 등재돼 그 수준이 다른 AI와 대조될 수도 있다. 성능 평가 결과를 실제 정답과 정확하게 일치하는 비율을 의미하는 'EM' 점수와, 정답과 유사한 답변을 내놓는 비율을 의미하는 'F1' 점수로 나타낼 수 있다. 사람은 EM 점수 80.17점, F1 점수 91.20점이 평균이다. 현재 리더보드에는 네이버가 코쿼드를 사용해 개발한 AI의 EM 점수 86.84점, F1 점수 94.75점이 1위로 기록돼 있다.

LG CNS, AI 학습용 한국어 데이터 '코쿼드2.0' 공개

관련기사

지금 뜨는 기사

이시각 헤드라인

[단독] 하정우, 국가AI전략위로…李정부 AI 삼각축 재편 마무리

젠슨 황 삼소회동 그 식당, 네이버 '페이스사인' 지금도 쓸까

"한국 첫 오프라인 상륙" 매진 행렬…쿠로게임즈 '퍼니싱' 팝업스토어 가보니

효성家 형제갈등 15년…조현준 회장이 동생을 고소한 이유

ZDNet Power Center