웨이츠&바이어시스(W&B)가 LG CNS의 금융 인공지능 전환(AX) 기술력을 결합한 새로운 대형언어모델(LLM) 성능 평가 리더보드를 선보인다.
웨이츠&바이어시스(W&B)는 LG CNS와 함께 금융 산업에 특화된 한국어 LLM 성능 평가 리더보드인 '황소'를 공식 출시한다고 29일 밝혔다.
W&B는 황소 리더보드를 통해 금융 분야의 특수성을 반영한 심층적인 평가 기준을 제공할 계획이다. 금융 산업 고객들이 각자 비즈니스에 최적화된 LLM을 선택·활용하는 데 필수적인 지표를 제시한다는 목표다.
특히 황소 리더보드는 LG CNS가 최근 공개한 기업용 에이전틱 AI 플랫폼에 탑재돼 제공될 예정이다.

W&B는 이미 국내에서 '호랑이' 리더보드를 통해 한국어 LLM 성능 평가를 제공해왔다. 이번 황소 리더보드는 금융 데이터를 포함한 복잡하고 전문적인 금융 도메인 지식을 바탕으로 설계됐다.
이번 협력에서 LG CNS는 금융 사업에서 다년간 축적한 노하우와 AX 기술력을 결합해 황소 리더보드의 평가항목 개발과 데이터셋 구축·개발을 지원했다.
황소 리더보드는 기존의 폐쇄적이고 비공개로 운영되던 평가 리더보드와 달리 평가 카테고리, 세부 태스크별 평가항목, 기준, 점수를 투명하게 공개함으로써 AI 생태계에 기여한다는 방침이다.
금융 규제 준수, 보안, 최신 금융 상품 및 시장 동향에 대한 이해도를 평가해 실제 금융 환경에서 요구되는 정확성·신뢰성을 검증하는 데 중점을 둔다는 설명이다. 주요 평가항목은 ▲금융 지식 기반 논리적 추론 능력 ▲금융 도메인 지식 평가 ▲지시사항 준수 등이다.
황소 리더보드는 금융 특화 성능뿐 아니라 ▲다양한 학문 분야에서의 지식과 추론 능력 ▲한국어로 된 다양한 학문 분야에서의 지식과 추론 능력 ▲한국어 논리적 사고 능력을 평가 등과 같은 범용 성능에 대해서도 비교 기능도 제공할 계획이다.
또 일반적으로 AI 모델 평가 시 파라미터 수에 따라 성능차가 발생하는 것과 달리 정확한 검증을 위해 AI 모델 크기별 성능 비교 기능도 제공한다.
황소 리더보드는 글로벌 프론티어 모델들과 정부 및 국내 AI 연구소 등에서 많이 활용되는 모델을 포함해 22개 이상의 LLM 모델을 평가하며 향후 주기적으로 업데이트할 예정이다.
금융 업계는 해당 리더보드를 활용해 중요한 기술 요구사항에 대한 충분한 정보를 바탕으로 의사결정을 내릴 수 있으며 개발자 커뮤니티는 모델 성능을 비교·개선하는 데 활용 가능할 전망이다.
관련기사
- AI가 엉뚱한 말을 하는 이유?…오픈AI가 찾은 '근본 원인'2025.09.08
- 이스트소프트, AI 검색 '앨런' 구독제 도입…LLM 서비스 수익화 시동2025.07.07
- 국가 AI 전략 앞세운 中…바이두, '어니 5.0'으로 챗GPT 넘본다2025.06.30
- LG AI연구원 '엑사원 4.0' 개발 중…추론형 AI 역량 강화 시동2025.06.24
LG CNS 측은 "양사의 협력 시너지는 금융 기업들이 LLM 도입 시 겪는 시행착오를 줄이고 보다 효율적으로 AX를 가속화할 수 있도록 지원할 것"이라고 밝혔다.
W&B 로빈 보르돌리 최고매출책임자(CRO)는 "황소 리더보드는 강력한 실험 관리 및 평가 기술과 LG CNS의 금융 전문성이 결합된 결과물"이라며 "금융 기업 고객들이 황소 리더보드를 통해 비즈니스에 가장 적합한 모델을 신속하게 파악하고 LLM 기반의 혁신을 이끌어낼 수 있도록 적극적으로 지원할 것"이라고 말했다.