AI 인프라 전문기업 디노티시아가 거대언어모델(LLM) 추론의 최대 병목으로 꼽히는 메모리 용량과 처리 속도 문제를 획기적으로 해결할 수 있는 신기술을 세계적 학회에서 선보인다.
디노티시아는 UC 샌디에이고(UCSD) VVIP 랩과 함께 연구한 KV 캐시(KV Cache) 압축 기술인 ‘STAR-KV’ 논문과 소스코드를 공개했다고 2일 밝혔다. 해당 논문은 세계 최상위 머신러닝 학회인 ‘ICML 2026’의 스포트라이트 논문으로 전격 채택됐다.
KV 캐시는 LLM이 이전에 읽은 문맥을 다시 계산하지 않도록 메모리에 저장해 두는 임시 기억 공간이다. 최근 AI가 대화 이력, 검색 결과 등 방대한 컨텍스트를 동시에 처리하는 에이전트형 시스템으로 진화하면서, KV 캐시는 그래픽처리장치(GPU) 메모리 사용량과 추론 비용을 좌우하는 핵심 병목으로 부상했다.
실제로 LLaMA-3.1-8B 모델이 배치 크기 4로 128K 토큰의 긴 컨텍스트를 처리할 경우, KV 캐시가 전체 GPU 메모리의 약 81%를 차지할 정도다.
이번에 공개된 STAR-KV는 저랭크 압축만으로 KV 캐시를 최대 75% 줄였으며, 혼합정밀도 양자화 기법을 결합해 전체 용량을 최대 20배까지 압축하는 데 성공했다. 특히 용량 압축에 그치지 않고 맞춤형 GPU 커널을 활용한 실행 최적화를 통해 연산 속도까지 끌어올렸다. 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상시키면서도 기존 압축 방식보다 높은 정확도를 유지했다.
STAR-KV 논문이 발표될 ICML은 NeurIPS, ICLR과 함께 AI·머신러닝 분야의 최고 권위 학회로 꼽히며, 올해는 오는 7월 6일부터 11일까지 서울 코엑스에서 개최된다. 올해 심사에 들어간 2만3918편의 논문 중 6352편이 채택됐으며, 디노티시아의 논문이 선정된 '스포트라이트' 세션은 전체 심사 논문의 상위 약 2.2%(536편)에만 허락된다.
관련기사
- 디노티시아, 기업 맞춤형 AI 모델 'DNA 3.0' 공개2026.06.02
- 디노티시아, AI 법령 에이전트 '리걸큐' 공개2026.05.06
- 디노티시아, 시리즈A 900억원 유치...국내 AI 칩 최고 투자액 경신2026.04.21
- 디노티시아, SBS와 대규모 영상 검색 고도화 추진2026.03.20
디노티시아는 향후 STAR-KV가 실제 AI 서비스 환경에 적용될 수 있도록 기술을 고도화하는 한편, vLLM을 비롯한 주요 오픈소스 LLM 추론 프레임워크에 이를 통합할 계획이다.
정무경 디노티시아 대표는 “AI가 더 긴 맥락을 더 낮은 비용으로 빠르게 처리할 수 있도록 돕는 기술이 중요해지고 있다”라며 “STAR-KV는 핵심 병목인 KV 캐시 용량과 처리 속도 문제를 실질적으로 해결하는 기술이며, 소스코드 오픈소스화를 통해 글로벌 AI 추론 생태계 발전에 기여하겠다”고 말했다.











