업스테이지가 최신 언어모델 '솔라'를 둘러싼 기술 도용 의혹에 대응하기 위해 모델 설계도에 해당하는 학습 로그와 내부 데이터를 공개했다. 이는 독자 기술로 모델을 처음부터 구축했다는 '프롬 스크래치' 진위 논란에 정면 돌파하려는 전략이다.
김성훈 업스테이지 대표는 2일 서울 강남 인근 사무실에서 온·오프라인으로 '솔라 오픈' 현장 검증회를 열었다.
이번 검증회는 지난 1일 제기된 모델 프롬 스크래치 논란을 해소하기 위해 마련됐다. 앞서 고석현 사이오닉AI 대표는 솔라 오픈 100B가 중국 지푸AI의 'GLM-4.5-에어(Air)' 모델에 기반을 둔 파생 모델이라는 의혹을 제기했다. 솔라 오픈 100B는 지난달 30일 업스테이지가 '독자 AI 파운데이션 모델' 1차 성과 발표회에서 공개한 모델이다.
이날 업스테이지는 일부서 제기한 레이어놈(LayerNorm) 유사성을 근거로 타 모델 가중치를 재사용했다는 주장은 통계적 착시에 불과하다고 밝혔다.
레이어놈은 AI 모델 학습 안정성을 높이기 위해 데이터 수치를 일정하게 정돈하는 기술이다. LLM이 수조 개 데이터를 학습하는 과정에서 연산 값이 지나치게 커지거나 작아져 계산이 꼬이는 것을 방지하는 안정장치 역할을 한다. 솔라를 비롯해 'GPT', '라마' 등 전 세계 다수 AI 모델이 채택하고 있는 트랜스포머 핵심 표준 기술이다.
일각에선 솔라와 지푸가 레이어놈 유사성이 존재한다는 이유로 이같은 의혹이 등장했다. 솔라가 프롬 스크래치 모델이라면 해당 수치가 우연히 일치할 확률이 극히 낮다는 이유에서다.
이에 업스테이지는 해당 구간은 모델 전체 약 0.0004%에 불과한 미세 영역이라며 정면 반박했다. 오히려 솔라 오픈의 99.9996%가 타 모델과 완전히 상이함을 보여주는 역설적 지표라는 설명이다.
김 대표는 레이어놈 유사성 판단에 사용된 '코사인 유사도' 역시 적절한 비교 기준이 아니라고 선그었다. 그는 "코사인 유사도는 벡터 방향만 비교하는 단순 지표"라며 "통상 언어모델들의 레이어놈은 비슷한 구조와 특성을 공유한다"고 설명했다. 이어 "독립적인 모델 간 유사도가 높은 값으로 나오는 것이 오히려 자연스러운 현상"이라고 덧붙였다.
김 대표는 토크나이저 도용 주장 역시 어휘 수와 중복률 데이터로 반박했다. 그는 "솔라 오픈의 어휘 수는 19만6천 개로 비교 대상 모델인 15만 개와 차이가 크다"며 "공통 어휘는 41% 수준에 불과해 통상적인 동일 계열 모델의 중복률인 70%에 한참 못 미치는 독자적 결과물"이라고 주장했다.
관련기사
- "실무에 강해"…업스테이지, '다큐먼트 AI' 문서 인식 시연2025.12.30
- 업스테이지, 조달청에 AI 서비스 첫 공급…"공공업무 지원"2025.12.04
- 업스테이지, 日 온프레미스 AI 시장 공략…현지 맞춤형 모델 1위2025.10.23
- 클리브, 토스·네이버 출신 뭉쳤다…'국가대표 AI' 업스테이지와 맞손2025.10.13
업스테이지는 소스코드 무단 사용·라이선스 조작 의혹도 기술적 근거로 선을 그었다. 김 대표는 "외부 접근이 불가능한 학습 코드를 재사용한다는 주장은 기술적으로 성립할 수 없다"며 "인퍼런스 코드는 서빙 호환성을 위해 '아파치 2.0 라이선스'에 따라 정당하게 활용한 것"이라고 설명했다.
김 대표는 "의견을 주고받는 건강한 토론은 환영하나 허위 사실을 단정적으로 전달하는 행위는 AI 3강을 향해 최선을 다하고 있는 기업과 정부 노력을 심각하게 훼손하는 것"이라고 지적했다. 이어 "앞으로 투명한 기술 공개 바탕으로 글로벌 최고 수준 기술력을 증명하고 국내 AI 생태계 확장에 힘쓰겠다"고 밝혔다.











