19일 이기창 네이버 클로바 리더는 2022 AI/BC 테크 트렌드 콘서트에서 ‘초거대 언어모델의 현재와 미래’라는 주제로 보다 자연스러운 대화를 위한 언어 모델 개발 과정을 소개했다.
하이퍼클로바는 우리말에 대한 이해도가 가장 높은 초거대 AI다. GPT-3보다 한국어 데이터를 6천500배 이상 학습했다. 문장을 완벽하게 구성하지 않아도 맥락을 이해하고, 호응하는 등 자연스러운 대화가 가능하다
언어 모델은 인공지능(AI)이 데이터를 학습해 입력 받은 자연어를 처리하는 과정에서 다음에 나올 단어, 문장의 확률을 예측하는데 활용된다. 언어모델의 성능을 좌우하는 중요 요소가 말뭉치의 품질이다.
네이버는 하이퍼클로버를 학습시키기 위해 네이버 블로그, 카페 등을 통해 1.8TB 규모의 양질의 한국어 말뭉치를 확보했다. 말뭉치 품질 향상 및 개인정보 보호를 위해 비속어 및 중복 문서와 민감한 개인정보는 모두 제거했다.
이어서 한국어에 적합하게 맞춰 AI가 학습할 수 있도록 토큰화 기법을 적용한다. 토큰화 기법은 단어와 문자를 최소 단위로 나누는 데이터 전처리 단계다.
하이퍼클로바는 형태소 단위의 바이트 페어 인코딩을 적용했다. 자주 등장한 문자열을 토큰으로 먼저 분석하는 기법으로 기계독해, 번역 등 벤치마크 태스크에서 좋은 성능 기록했다.
AI모델의 크기를 나타내는 파라미터의 수가 높을수록 AI는 더 많은 문제를 해결하거나 정확도를 높일 수 있다.
이기창 리더는 “초거대 언어 모델을 만든다는 것은 초음속 비행기를 만드는 것과 비슷하다”며 “일반 비행기를 만드는 작업과 비슷해 보이지만 안전한 비행을 위해선 모든 부품을 다 바꾸는 것처럼 완전히 다른 작업과 시행착오가 요구된다”고 설명했다.
하이퍼클로바가 거대 언어모델로 형태로 자리잡으면서 인컨텍스트 러닝이 가능해졌다. 지시문, 예제 등 입력 문서의 의미를 파악해 요약, 번역, 대화 등 구체적인 과제를 해결하는 기능이다. 이를 통해 몇 개의 예제 또는 예제가 제공되지 않아도 번역, 일부 문장 생성 등의 태스크를 수행할 수 있다.
이를 활용해 대량으로 대화 예시를 작성해 고품질 학습 데이터를 작성하거나, 챗봇 등에 적용할 수 있다.
다만 필터 기능이 부족해 예제에 악성어가 포함될 경우 이를 걸러내지 못하고, 아직 예제가 없거나 부족하면 만족스러운 수준의 결과물은 기대하기 어려웠다.
네이버 클로바 팀은 이러한 한계를 극복하기 위한 방안도 마련 중이다. 하이퍼클로바가 성희롱, 욕설 등 악성 발화를 하지 않도록 제어하는 악성 발화 억제 기능을 적용한다. 또한 악성 발화 데이터를 수집한 뒤 해당 발화를 할 경우 패널티 부여하고, 성희롱, 욕설 등 감지해 사후 필터링을 적용하는 2~3중 방어책을 적용하고 있다.
불안정한 생성 능력 극복을 위해 모델 일부 요소를 업데이트해 적은 데이터로도 비교적 좋은 성능을 제공하는 연구 중이다.
관련기사
- AI·BC 전문가 한 곳에…AI/BC 테크 트렌드 콘서트 개막2022.10.19
- 네이버 ‘클로바 스튜디오’, 스타트업 성장 가속 역할 톡톡2022.07.19
- "AI 스피커와 대화하세요”...네이버, 클로바 스피커에 '똑똑사전' 추가2022.04.15
- '초거대 AI' 기술 상용화 성큼…네이버 '하이퍼클로바'로 초격차 벌린다2022.01.31
사전에 대화한 내용을 기억하는 모듈을 추가하거나, 프로필, 캐릭터 등 사전 정보를 파악하고 이를 참조해 대화하는 등 보다 자연스러운 대화를 위한 AI를 위한 연구도 진행 중이다.
이기창 리더는 “AI가 다양한 능력을 수행하며 생각치도 못한 능력을 발현한다면 우리의 삶에 큰 도움을 주지 않을까 기대한다”고 말했다.