디노티시아, 메모리 병목 해결할 KV 캐시 20배 압축기술 'STAR-KV' 공개

AI 인프라 전문기업 디노티시아가 거대언어모델(LLM) 추론의 최대 병목으로 꼽히는 메모리 용량과 처리 속도 문제를 획기적으로 해결할 수 있는 신기술을 세계적 학회에서 선보인다.

디노티시아는 UC 샌디에이고(UCSD) VVIP 랩과 함께 연구한 KV 캐시(KV Cache) 압축 기술인 ‘STAR-KV’ 논문과 소스코드를 공개했다고 2일 밝혔다. 해당 논문은 세계 최상위 머신러닝 학회인 ‘ICML 2026’의 스포트라이트 논문으로 전격 채택됐다.

KV 캐시는 LLM이 이전에 읽은 문맥을 다시 계산하지 않도록 메모리에 저장해 두는 임시 기억 공간이다. 최근 AI가 대화 이력, 검색 결과 등 방대한 컨텍스트를 동시에 처리하는 에이전트형 시스템으로 진화하면서, KV 캐시는 그래픽처리장치(GPU) 메모리 사용량과 추론 비용을 좌우하는 핵심 병목으로 부상했다.

실제로 LLaMA-3.1-8B 모델이 배치 크기 4로 128K 토큰의 긴 컨텍스트를 처리할 경우, KV 캐시가 전체 GPU 메모리의 약 81%를 차지할 정도다.

이번에 공개된 STAR-KV는 저랭크 압축만으로 KV 캐시를 최대 75% 줄였으며, 혼합정밀도 양자화 기법을 결합해 전체 용량을 최대 20배까지 압축하는 데 성공했다. 특히 용량 압축에 그치지 않고 맞춤형 GPU 커널을 활용한 실행 최적화를 통해 연산 속도까지 끌어올렸다. 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상시키면서도 기존 압축 방식보다 높은 정확도를 유지했다.

STAR-KV 논문이 발표될 ICML은 NeurIPS, ICLR과 함께 AI·머신러닝 분야의 최고 권위 학회로 꼽히며, 올해는 오는 7월 6일부터 11일까지 서울 코엑스에서 개최된다. 올해 심사에 들어간 2만3918편의 논문 중 6352편이 채택됐으며, 디노티시아의 논문이 선정된 '스포트라이트' 세션은 전체 심사 논문의 상위 약 2.2%(536편)에만 허락된다.

디노티시아, 메모리 병목 해결할 KV 캐시 20배 압축기술 'STAR-KV' 공개

관련기사

지금 뜨는 기사

이시각 헤드라인

"피지컬AI 수출하는 나라로"...3년 내 집중 육성

[르포] 해마다 신차 쏟아내는 중국…현대차·기아 남양연구소가 찾은 해법은?

홈플러스 회생 열쇠는 '점포 매각'인데…팔릴까

애플, '美 블랙리스트' 中 반도체 칩 구매 추진

ZDNet Power Center