"산업 현장 데이터가 경쟁력"…LG, '엑사원 3.5'로 오픈소스 AI 시장 공략

LG AI연구원이 오픈소스 AI 모델 '엑사원(Exaone) 3.5'를 공개했다.

이번 발표는 초경량(2.4B), 범용(7.8B), 고성능(32B) 모델을 모두 오픈소스로 공개한 국내 기업 중 보기 드문 사례로, 글로벌 오픈소스 AI 시장에서 산업 특화 '니치(niche)' 공략에 나서겠다는 전략으로 해석된다.

9일 업계에 따르면 메타의 '라마(LLaMA)'는 오픈소스 AI 시장에서 현재 압도적인 1인자로 자리하고 있다. 메타는 지난 2022년 이후 다양한 크기의 모델을 공개하며 연구자와 기업들로부터 폭넓은 피드백을 받아왔다. 12월 기준으로 6억5천만 회 이상을 기록한 '라마' 앱 다운로드는 그 생태계가 얼마나 탄탄한지를 보여준다.

매개변수 규모도 거대하다. 가장 최신인 '라마 3.3'의 매개변수는 700억(70B) 파라미터로, '엑사원' 고성능 모델과 비교해 약 두 배 가까운 차이를 보인다.

LG AI연구원이 9일 오픈소스 AI 모델 '엑사원(Exaone) 3.5'를 공개했다. (사진=LG)

실제로 라마의 지배력에 도전장을 내밀었던 오픈소스 경쟁자들의 성과는 미미했다. 마크롱 프랑스 대통령의 지원을 받는 초거대 AI 기업인 미스트랄은 올해 초 완전 오픈소스 라이선스를 적용한 모델을 출시하며 시장에 도전했으나 '라마' 생태계의 벽을 넘지 못하고 한정된 사용자층 확보에 그쳤다.

이러한 빅테크의 오픈소스 AI 시장 독주 속에서 LG AI연구원은 단순히 파라미터를 늘리는 대신 효율성을 극대화하는 경량화 전략을 내세우고 있다. '라마' 최신 모델의 절반 수준인 32B 모델만으로 고성능을 구현하면서도 전력 소비와 운영 비용을 대폭 줄여 실질적인 산업 적용이 가능하게 한 것이다.

이러한 전략을 시도할 수 있었던 것은 LG가 축적해온 전문 데이터 때문이다. LG 계열사들은 생화학·병리학·제조업 등 다양한 산업 분야에서 고품질 도메인 데이터를 확보해왔다. 이 데이터를 활용해 엑사원의 성능을 강화하면서도 매개변수 규모는 줄이는 효율적인 모델 설계가 가능했다는 설명이다.

LG 관계자는 "엄청난 자금력을 가진 빅테크들과 같은 전략을 쓰는 대신 회사가 오랜 기간 쌓아온 자체 데이터를 활용해 산업별 맞춤형 역량을 제공하는데 집중하고 있다"며 "단순히 크롤링한 데이터가 아닌 양질의 도메인 데이터가 특화의 비결"이라고 설명했다.

이러한 전문 데이터 기반 경량화 전략은 실질적인 성과로 이어지고 있다. 최근 LG는 병리학 모델인 '엑사원 패스(EXAONEPath)'를 개발해 기존 대비 10배 경량화된 모델로도 우수한 성능을 구현했다. 이 모델은 특히 병리학 데이터에서 높은 정확도를 기록하며 글로벌 의료 AI 시장에서도 주목받았다.

이로 인해 LG는 현재 잭슨 랩(Jackson Laboratory)과 협업을 진행하고 있다. 잭슨 랩은 전임상 시험 분야에서 세계 최고의 기술력을 보유한 미국의 연구기관으로, LG의 우수한 병리학 데이터 덕분에 협업을 결정한 것으로 알려졌다.