인텔리콘, 한국법률 특화 AI '코알라' 개발

인텔리콘연구소(대표 임영익)는 국내 최초로 한국 법률에 특화한 언어모델(sLLM) '코알라(KOALLA, Korean Adaptive Legal Language AI)' 개발에 성공했다고 23일 밝혔다.

이번에 개발한 '코알라1.0'은 리걸테크의 다양한 응용 서비스에 적용이 가능하다. 기업이나 로펌의 대용량 문서 기반 생성AI(RAG) 시스템에도 장착할 수 있다. 이에, 기업의 다양한 환경과 요구에 부응하는 온-프레미스(On-Premise, 서버 구축형)나 설치형(Appliance) 방식 법률특화 생성AI 도입이 가능해진다.

'코알라'는 메타의 오픈소스 AI모델인 '라마2(Llama-2)'의 7B(70억 파라미터),13B(130억 파라미터)모델을 파인튜닝(Fine-Tuning)해 개발했다. 특히 인텔리콘은 '코알라' 성능을 높이기 위해 널리 알려진 'DPO(Direct Preference Optimization)'같은 기법 외에 학습 데이터 구성 자체를 최적화하는 '데이터 재규격화(Renormalization)' 기술을 자체 개발해 추가 학습에 사용했다. 수 백만개의 법률, 판례, 상담자료, 주석자료 등을 기반으로 학습 데이터 규격화 작업을 먼저 한 후, 성능향상에 도움이 되는 데이터만을 선별해 재규격화했다.

데이터 '재규격화' 기법은 인텔리콘이 자체로 고안한 특허 기술이다. 방대한 학습 데이터에서 성능향상에 불필요한 데이터를 제거하는 '데이터 디노이징(Data-denoizing)' 기법과 실제 사용자의 행동 패턴 데이터를 융합하는 '리셔플링(Re-shuffling)' 기술을 포함했다. 또 사용자 데이터는 살아 움직이는 데이터(Dynamic Data)로 인텔리콘이 지난해 5월 개발한 법률GPT(LawGPT)와 '도큐브레인(DocuBrain)'을 통해 얻은 자료들이다.

GPT같은 거대언어모델(LLM)은 거짓 답변을 만들어 내는 환각현상(Hallucination)때문에 법률, 의료 등에 직접 사용하면 위험하다. 이런 문제를 해결하기 위해 근거기반 생성AI(RAG)가 인기를 모으고 있다. 최근에는 경량화 거대언어모델(sLLM)을 기반으로 수천개에서 수만개의 데이터만으로 파인 튜닝을 해 독자모델을 완성하는 방향으로 생성AI 생태계가 조성되고 있는 상황이다.