LG CNS "금융 특화 LLM 평가 도구, AI 도입 기준점 될 것"

비공개 데이터 기반 객관적 성능 검증… GPT·클로드·딥시크 등 수십 개 모델 평가

컴퓨팅입력 :2025/04/03 11:02

금융권에서도 생성형 AI에 대한 관심이 높아지고 있지만, 보안과 정확성 문제로 인해 실제 도입은 쉽지 않다.

LG CNS는 이런 현실적인 장벽을 해결하기 위해, 금융 업무에 특화된 대규모언어모델(LLM) 평가 도구를 자체 개발했다. AI를 실제로 도입할 수 있는지 여부를 객관적으로 판단할 수 있도록 설계돼, 금융 현장에서의 신뢰성과 실용성을 함께 고려한 것이 특징이다.

이 도구는 LG CNS가 미리 구축한 금융 특화 데이터셋을 바탕으로 시중에 공개된 수십 개의 개방형 LLM(Open-source LLM)을 평가하고 비교해 뱅킹, 보험, 증권 등 다양한 금융 업무 환경에 가장 적합한 모델을 추천한다.

(왼쪽부터) LG CNS AI센터 어드밴스드 생성형AI 연구소 황윤구 팀장, 강민수 선임, 이민형 선임(사진=남혁우 기자)

"도입보다 신뢰가 우선"… 금융에 맞춘 자체 평가 도구

3일 서울 마곡 LG CNS 사옥에서 만난 AI센터 어드밴스드 생성형AI 연구소의 황윤구 팀장은 "금융은 보안과 규제가 모두 중요한 환경이라 일반 AI처럼 쉽게 적용하기 어려운면이 있다"며 "만약 이자율을 잘못 알려주거나 금융용어를 잘못 해석하는 순간 그 피해가 치명적일 수 있다"라고 설명했다.

그는 이어 "그래서 우리는 AI를 '신뢰하고 도입할 수 있는가’를 판단할 수 있는 기준이 먼저 필요하다고 봤다"고 강조했다.

이러한 문제의식은 실제 프로젝트 경험에서 출발했다. LG CNS는 다양한 금융사와의 시스템 통합(SI) 프로젝트에서 AI 도입이 실패하거나 지연되는 사례를 반복적으로 목격했고, 이를 해결하기 위한 방법론을 내부에서 구축하기로 한 것이다.

황 팀장은 "우리가 직접 부딪히며 실패하고 배운 것들을 하나씩 정리해간 결과물이 바로 이번 평가 도구"라고 설명했다.

평가 도구는 총 29개 세부 테스크로 구성돼 있으며, 약 1천200개의 비공개 질문·지문 데이터셋을 기반으로 운영된다. 외부에 공개된 수능형 문제처럼 명확한 정답이 있는 문항도 있고, '모른다’라고 답하는 것이 오히려 정답이 되는 문항도 포함돼 있다.

공개된 리더보드는 학습·평가용 데이터가 외부에 노출돼 있어, 모델이 문제 유형을 암기해 정답률을 높이는 방식으로 성능이 과장될 수 있기 때문이다.

황윤구 팀장은 "벤치마크 데이터를 공개하는 순간, 고도화된 LLM은 문제 유형을 학습해 정답률을 인위적으로 끌어올릴 수 있다"며 "이 경우 실제 역량과 상관없이 높은 점수를 받을 수 있기 때문에, 평가의 객관성이 훼손될 우려가 있다"라고 설명했다.

정량적 평가지표도 체계적으로 설계돼 있다. LG CNS는 ▲정답 유사도 ▲지문 기반 내용 일치도 ▲지시 수행 정확도 등 세 가지 기준을 종합해 점수를 산정하며, 평가 결과는 단순 스코어가 아닌 실무 도입 가능성을 가늠하는 기준으로 사용된다.

또한 금융 도메인 지식과 문맥 이해도를 평가하기 위해, 질문에 포함된 용어와 문장의 배경 의미를 얼마나 정확히 해석했는지도 주요 요소로 반영된다.

이민영 선임은 "단순히 질문에 대답하는 것이 아니라, 오히려 '대답하지 않는 게 맞는 상황’에서 어떤 선택을 하는지가 금융에서는 더 중요하다"며 "그런 정교한 평가 항목이 저희 도구의 특징"이라고 설명했다.

모델별 성능 비교…"GPT·클로드 상위, 딥시크는 예상보다 낮아"

모델별 성능 비교도 진행됐다. GPT-4, 클로드 등 상용 API 모델이 평가에서 가장 높은 성능을 보이는 것으로 나타났다. 다만 퍼블릭 클라우드만 지원하는 만큼 금융사 등에서 적극적으로 활용하기엔 한계가 있다는 지적이 있었다.

최근 주목받는 오픈소스 LLM인 딥시크(DeepSeek)는 평가에서 대부분 낮은 점수를 기록했다.

황윤구 팀장은 "딥시크는 성능뿐 아니라 학습 데이터의 출처와 개인정보 이슈 등 여러 면에서 금융사 입장에서 채택하기 어려웠다"며 "특히 컴플라이언스 관점에서 리스크가 큰 것으로 나타났습니다"라고 밝혔다.

반면 LG 그룹의 자체 LLM인 엑사원(Exaone)은 상대적으로 높은 평가를 받았다. 이민영 선임은 "질문과 관련 없는 내용이 지문에 섞여 있어도, 질문에만 집중해 정확하게 응답하는 능력이 뛰어났다"며 "특히 다양한 정보가 뒤섞인 긴 지문에서도 흔들리지 않고 핵심을 잘 잡는 모습을 보였다"며 대화형 AI에 높은 성능을 제공한다고 설명했다.

또한 이번 평가 도구의 평가 테스크는 고정된 항목이 아니라 고객사 니즈나 기술 트렌드에 따라 지속적으로 업데이트된다.

생성형AI 연구소는 올해 이 평가 도구를 실제 금융 현장에 적용해 활용 사례를 축적하는 데 집중하고 있다.

이민영 선임은 "지난해에는 평가도구를 만드는 것 자체가 목표였다면 올해는 이 도구를 적용해 실제 금융 AI 평가 로그를 얼마나 확보하는지가 주요 실행 과제"라며 "이제는 실적 기반으로 이 툴이 얼마나 많이 쓰이느냐가 핵심이 될 것"이라고 밝혔다.

LG CNS는 계열사를 중심으로 엑사원 테스트를 완료했으며, 일부 금융사들과도 PoC 형태로 적용 가능성을 검토 중이다. 다만 보안 및 계약 이슈로 인해 외부 공개는 제한적이다.

금융 넘어 공공·제조 확산 목표

LG CNS는 향후 공공 문서나 제조 환경처럼 금융과 유사한 폐쇄형·도메인 특화 환경으로의 확장도 고려하고 있다.

이민영 선임은 "공공기관 보도자료나 행정문서는 형식이 딱 정해져 있는 만큼, 우리의 금융 평가 프레임워크를 확장하면 충분히 적용 가능할 거라 예상한다"라고 말했다.

관련기사

황윤구 팀장은 "금융처럼 민감한 환경에서는 '잘 쓴다’보다 '믿고 쓸 수 있는가’가 더 중요하다"며 "우리는 먼저 금융환경에 적합한 기준을 세운 후, 직접 사용해보고 끊임없이 개선해가고 있다"고 말했다.

이어 그는 "AI 기술의 발전도 중요하지만, 결국 기업이 그것을 신뢰하고 안심하고 쓸 수 있는 '기준선’을 만드는 것이 더 본질적"이라며 "LG CNS가 만든 이 평가 도구가 금융권의 AI 도입을 앞당기고 다양한 선업에서 적용 가능한 신뢰의 기준의 '눈금자’가 되기를 기대한다"라며 포부를 밝혔다.