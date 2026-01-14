SK하이닉스가 향후 다가올 커스텀 HBM(고대역폭메모리) 시대를 위한 무기로 '스트림DQ(StreamDQ)'를 꺼내 들었다. 기존 GPU가 담당해 추론 과정에서 병목 현상을 일으키던 작업을, HBM이 자체적으로 수행해 데이터 처리 성능을 끌어올리는 것이 골자다.

GPU 업체 입장에서도 HBM으로 일부 기능을 이전할 수 있기 때문에 칩 설계를 보다 유연하게 할 수 있다는 이점이 있다. SK하이닉스는 해당 기술을 통해 엔비디아 등 주요 고객사와 협의를 진행할 것으로 관측된다.

SK하이닉스는 지난 6일(현지시간) 미국 라스베이거스 베니션 호텔에서 'CES 2026' 프라이빗 전시관을 마련하고 커스텀 HBM 기술을 공개했다.

SK하이닉스가 설명한 '스트림DQ'의 개념도. 기존 GPU가 수행해 LLM 추론에서 병목 현상을 일으키던 역양자화 기술을 HBM 베이스다이 내부에서 직접 수행해, 추론 속도를 높인다. (사진=지디넷코리아 장경윤 기자)

커스텀 HBM 시장 정조준…고객사에 '스트림DQ' 기술 제안

커스텀 HBM은 차세대 버전인 HBM4E(7세대 HBM)부터 본격적으로 적용될 것으로 전망되는 제품이다. 기존 HBM이 표준에 따라 제작됐다면, 커스텀 HBM은 고객사가 원하는 기능을 베이스 다이에 추가하는 것이 가장 큰 차별점이다.

베이스 다이는 HBM을 적층한 코어 다이의 메모리 컨트롤러 기능을 담당하는 칩으로, HBM과 GPU 등의 시스템반도체를 PHY(물리계층)로 연결한다. 기존에는 메모리 회사가 이를 제조했으나, 다양한 로직 기능이 추가되면서 HBM4부터는 주로 파운드리 공정을 통해 양산된다.

SK하이닉스는 커스텀 HBM 상용화를 위해 고객사에 스트림DQ라는 기술을 제안하고 있다. 얼마전 막을 내린 CES 2026 전시관이 고객사 대상으로 운영된 만큼, 엔비디아 등 글로벌 빅테크에 적극적인 프로모션을 진행했을 것으로 예상된다.

SK하이닉스 관계자는 "스트림DQ는 커스텀 HBM의 한 사례로서, SK하이닉스는 해당 기술을 논문으로도 냈다"며 "고객사가 커스텀 HBM 관련 기술을 우리에게 제안하기도 하지만, 반대로 SK하이닉스가 제시하기도 한다"고 설명했다.

GPU 일부 기능 HBM으로 이전…빅테크 부담 덜어준다

스트림DQ 기술은 기존 GPU 내부의 컨트롤러 기능 일부를 HBM의 베이스 다이로 이전하는 것이 주 골자다. 이렇게 되면 GPU 제조사는 칩 내부 공간을 더 넓게 쓸 수 있어, 시스템반도체의 성능 및 효율성 향상을 도모할 수 있다.

SK하이닉스 입장에서는 베이스 다이에 GPU 컨트롤러 등을 추가하더라도 큰 부담이 없다. 대만 주요 파운드리인 TSMC의 선단 공정을 적용하기 때문이다.

또한 SK하이닉스는 해당 베이스 다이에 UCIe 인터페이스를 적용해 칩의 집적도를 더 높였다. UCIe는 칩을 기능별 단위로 분할해 제조한 후, 서로 연결하는 최첨단 기술이다.

GPU와 스트림DQ 기반의 HBM 간의 데이터 처리 과정(사진=지디넷코리아 장경윤 기자)

HBM이 '역양자화' 대신 처리…LLM 처리 속도 7배 향상 가능

AI 가속기의 데이터 처리 성능 역시 획기적으로 높아진다. 대규모언어모델(LLM)은 메모리 사용량을 효율적으로 감축하기 위해 낮은 비트 정수로 데이터를 압축하는 '양자화(Quantization)' 과정을 거친다. 이후 실제 연산 과정에서는 데이터를 다시 압축 해제하는 '역양자화(Dequantization)'를 진행한다.

기존 역양자화 작업은 GPU가 담당했다. 그런데 GPU가 역양자화를 진행하면 전체 LLM 추론 시간의 최대 80%를 잡아먹는 메모리 병목 현상을 일으키는 문제가 발생해 왔다.

반면 스트림DQ는 양자화된 정보를 그대로 GPU에 보내는 것이 아니라, HBM 내부에서 데이터가 흘러가는 과정에서 역양자화를 곧바로(on-the-fly) 진행한다. 덕분에 GPU는 별도의 작업 없이 곧바로 연산 작업을 진행할 수 있게 된다. 이처럼 흘러가는(스트림) 데이터를 곧바로 역양자화(DQ)한다는 관점에서 스트림DQ라는 이름이 붙었다.

관련기사

이를 통해 병목 현상이 발생했던 LLM 추론 처리 속도가 약 7배 이상으로 개선될 수 있다는 게 SK하이닉스의 설명이다. 전체 AI 가속기의 추론 속도 역시 크게 향상될 것으로 기대된다.

SK하이닉스 관계자는 "방대한 양의 데이터를 처리하는 시스템반도체를 메모리 근처에 가져다 놓고 데이터 결과값만 받게 하면 시스템적으로 굉장히 효율적"이라며 "프로세싱 니어 메모리(PNM)의 개념으로 볼 수 있다"고 말했다.