"AI로 순식간에 4천자 보고서 생성"···언어AI '코난 LLM' 시선

코난테크놀로지, 국내 첫 B2G·B2G용 선보여..."20억 건 문서 학습하고 전체 토큰 수 국내 최다"

컴퓨팅입력 :2023/08/17 15:36    수정: 2023/08/17 22:13

인공지능(AI) 소프트웨어 전문기업 코난테크놀로지(대표 김영섬)가 17일 오전 11시 콘래드 서울에서 기자간담회를 갖고 자체개발한 대규모 언어모델 ‘Konan LLM’(이하 코난 LLM)을 공개했다.

'코난 LLM'은 20억 건의 고품질 문서를 학습했다. 전체 토큰(token, 언어AI가 학습하는 기본단위로 1토큰은 0.7단어 정도임)은 7천억 개다. 회사는 "(코난 LLM이)국내 최다 토큰"이라면서 "온프레미스 LLM 시대를 열었다"고 강조했다. 

회사는 거대언어모델의 고비용 이슈를 해결하기 위해 학습 토큰 규모를 늘리는 한편 파라미터(매개변수) 크기는 줄이는 방식으로 ‘비용 효율성’을 꾀했다. 이번에 선보인 '코난 LLM'은 전체 토큰 4920억 개로 이중 한국어 토큰 2840억 개를 학습했다. 나머지 토큰은 영어다. 

회사는 '코난 LLM'에 이어 오는 11월에는 전체 학습 토큰 7000억 개, 이중 한국어 토큰이 3220억 개인 '2세대 코난 LLM'을 선보일 예정이다. 코난 LLM의 토큰 규모에 대해 회사는 "국내 최대 수준"이라면서 "오픈소스 기반의 LLAMA2보다 한국어를 270배 많이 학습했다"고 설명했다.

김영섬 코난테크놀로지 대표가 인사말을 하고 있다.

'코난 LLM'의 파라미터(매개변수로 불리며 AI의 성능을 좌우하는 중요 요소)는 131억 개(13.1Billion)다. 오는 11월 나오는 버전2 제품은 410억 개(41.0B)로 3배 정도 더 많다. 그만큼 성능이 좋아진다. 하지만 오픈AI의 GPT-3.5(1750억 개)와 네이버 하이퍼클로바(HyperClova(2040억 개)와 비교하면 차이가 있는데 이에 대해 회사는 "비용이 많이 드는 파라미터 사이즈(크기)는 줄이고 대신 학습 토큰은 늘려 성능을 좋게 했다"고 덧붙였다. 이것이 가능한 건 코난테크놀로지가 보유한 자체 데이터 덕분이다.

이날 발표를 한 임완택 상무(전략기획본부)는 "LLM을 개발하려면 최소 1천억 개 이상의 토큰을 확보할 수 있는 ‘양질’의 문서를 가지고 있어야 하는데, 좋은 글을 생성하고 글의 내용을 채울 정보와 지식도 모두 토큰에서 나온다. 학습 토큰이 많을수록 뛰어난 성능을 지닌 LLM을 개발할 수 있다"면서 "토큰의 원천이 되는 문서 자체의 품질도 중요하다. 코난테크놀로지는 2007년부터 국내외 데이터를 실시간 수집, 분석해 온 온라인 미디어 심화 분석 서비스 ‘PulseK’(펄스케이)를 통해 약 205억 개 문서를 자체 확보했다. 이 중 트위터나 뉴스 댓글 등 단문을 제외한 20억 건을 학습에 사용했다"고 설명했다.

임완택 코난테크놀로지 상무가 발표를 하고 있다.

“보고서 초안생성에 특화…질의답변 가능한 한국어 토큰 수는 4천개”

'코난 LLM'은 문서를 다루는 모든 기업의 △문서 초안 생성 △문서 요약 △질의응답을 지원한다. 즉, 사전학습을 한 후 ‘문서 초안 생성’에 집중해 파인 튜닝(세부 보강)을 한 덕분에 각종 문서, 보고서, 보도자료 등의 초안을 빠르고 손쉽게 생성해준다는 것이다. 회사는 "간단한 프롬프트(질문이나 입력) 만으로 4천자 분량의 문서를 만들어내고, 문서생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다"면서 "문서 작성에 소요되는 시간과 비용을 절감해주고 작업 생산성을 대폭 향상시킨다"고 강조했다. 

회사는 이의 비결로 문맥을 이해하는 정도인 'Context length(프롬프트와 답변을 묶어서 한번에 처리할 수 있는 토큰의 최대 갯수)'를 들었다. 'Context Length'가 크면 한번에 보다 긴 글을 생성할 수 있다. '코난 LLM 41B'의 경우 한번에 처리할 수 있는 토큰이 4K(Kilo)다.

회사는 "오픈소스로 공개된 'Polyglot-ko' 2K보다 2배 이상 뛰어나다. 또 LLAMA2에서 생성하는 한국어 단어 숫자는 코난 LLM의 20% 정도에 불과하다"면서 "코난 LLM이 문서 초안 생성 등에서 경쟁사 대비 뛰어날 수 밖에 없는 이유이자 매우 우수한 한국어 생성 및 답변 능력이 기대되는 지점이기도 하다"고 설명했다.

도원철 코난테크놀로지 상무가 발표를 하고 있다.

기업 전용 온프레미스 LLM으로 보안 우려 줄이고, 벡터검색 지원으로 답변 신뢰성 높여

챗GPT 등장으로 최근 생성형 AI에 대해 관심이 크게 높아졌는데, 반면 그럴듯한 거짓말(환각)과 보안 및 비용 문제가 대두됐다. '코난 LLM'은 이에 대응해 나온 언어AI다. 코난테크놀로지는 이런 문제를 해결하기 위해 보안 우려와 고객 비용 부담은 덜고 답변 신뢰성은 높인 최적화 된 AI모델인 '코난 LLM'을 선보였다. 특히 한국어 특성에 기반한 구조로 답변 성능이 매우 뛰어나고 보고서 초안생성에 특화된 B2B, B2G향 LLM을 표방했다. 회사는 "코난 LLM은 퍼포먼스와 비용 효율성 그리고 서비스 특색을 모두 갖춘 파운데이션 모델"이라면서 "차별화 포인트는 △국내 최다 학습 토큰 △20억 건에 달하는 양질의 문서기반 데이터 △벡터검색 기술"이라고 강조했다.

회사는 '코난 LLM'이 '보안'에 강하다고 밝혔다. 이는 기업 전용 LLM을 온 프레미스(On-premise)로 제공, 기업 내부 데이터 유출을 막을 수 있기 때문이다. 실제 온프레미스형 LLM은 회사의 기밀이 외부로 유출되거나 LLM 학습에 회사 데이터가 사용되는 것을 원천적으로 방지, 우수 보안 환경을 갖췄다. 

회사는 또 벡터 검색 엔진 구동으로 잘못된 정보를 내놓는 할루시네이션 문제를 해결했다. 벡터 검색기반의 ‘Konan Search’(코난 서치)를 연동해 답변과 함께 명확한 근거 및 출처를 ‘참고문서’ 형태로 제시한다. 회사는 "자체 개발한 디스크 기반 벡터 검색 기술을 상용화 한 국내 유일기업"이라면서 "10억 건 이상 문서에서 결과를 도출, 하이엔드 검색 기술을 축적했다"고 밝혔다.

'코난 LLM'은 기본적으로 온프레미스로 고객에게 제공되며, 라이선스 또는 연간 구독모델로도 판매된다. 또한 ‘Konan Chatbot’(코난 챗봇)과 AICC(AI for Contact Center) 비즈니스를 지원하는 ‘Konan VoiceBot’(코난 보이스봇)과 같은 자사의 서비스에도 '코난 LLM'을 도입해 여러 비즈니스 수요에 대응할 계획이다.

기자간담회서 국내 첫 시연…문서 초안생성부터 첨삭까지 보여줘 

출시를 기념해 열린 이날 기자간담회는 김영섬 코난테크놀로지 대표의 인사말로 시작됐다. 김 대표는 “생성형 AI시장에 빠르게 대응하기 위해 기술개발과 장비투자를 이어 왔고, 오늘 이 자리에서 노력의 결실을 공개하게 돼 기쁘다”면서 “앞으로도 기술 고도화에 매진하겠다”고 밝혔다.

관련기사

이어 임완택 전략기획본부장이 ‘코난테크놀로지, 온프레미스 LLM 시대를 열다’를 주제로 △국내 생성형 AI 시장 개요 △생성형 AI시장 참여자 분류 등에 대해 개괄적으로 짚은 뒤 △코난 LLM 특장점 및 비즈니스모델를 소개했다. 이후 자체 개발환경을 소개하고 실시간 제품 시연을 보여줬는데, 시연은 이 회사 도원철 상무가 맡았다. 시연에서 '코난 LLM'은 어떤 프롬프트에도 뛰어난 답변 성능을 보여줬고, 답변 분량도 풍부했다. 또 채팅 방식을 통해 문서 생성 중에도 질의가 대화형으로 지원되는가 하면, 도표(테이블), 이어쓰기, 요약하기 등 문서 첨삭까지 차별화된 기능을 소개했다.

한편 코난테크놀로지는 1999년 설립이래 자연어 심층 처리 분야에서 국내 최고 수준 입지를 다지며 인공지능 원천 기술을 축적했다.

임완택 상무와 도원철 상무 등이 발표 후 기자들 질문에 답변을 하고 있다.