[황승진의 AI칼럼] "세계가 딥시크 쇼크···이제는 우리 차례"

대형 전산 시대서 홈PC 시대로 전환 보는 듯...홈LLM도 가능할 듯

전문가 칼럼입력 :2025/02/01 09:13    수정: 2025/02/01 13:27

황승진 스탠퍼드경영대학원 잭디프 로시니 싱 석좌명예교수

지디넷코리아는 미국 스탠퍼드대학 최초 한국인 종신교수인 황승진 스탠퍼드경영대학원 잭디프 로시니 싱 석좌명예교수(Jagdeep and Roshni Singh Professor)의 AI칼럼을 주 1회 게재합니다. 총 20회 게재합니다. 황 교수는 1974년 서울공대를 졸업하고, 미국 로체스터 대학에서 전산정보학 분야에서 경영학 박사를 취득한 후 스탠포드 경영대학원에서 35년간 교수로 재직했습니다. 2022년 은퇴 후, 현재 동 대학원에서 싱 석좌 명예교수로 있으며 여러 경영자 과정에서 가르치고 있습니다. 그의 전공분야는 공급망관리와 전산경제학입니다. 이 분야에 50여편의 학술논문을 출판했습니다. 특히 ‘채찍효과’ 논문은 1만2000번 인용되며 공급망 관리의 대표적 논문이 됐습니다. 대외 활동으로 알토스 벤처와 길리아드를 비롯한 20여 기업에서 자문단 혹은 사회이사 직을 맡은 경험이 있습니다. 작년 3월 '경영이라는 세계'의 제목으로 한국어 에세이집을 출판해 정진기 언론문화상을 받기도 했습니다. 그의 최근 관심사는 인공지능으로 경영 분야 응용과 영향을 연구하고 있습니다. (편집자 주)


1987년 필자가 로체스터 경영 대학원의 전산정보학 과정에서 대학원생시절에는 AI가 일부 과학자의 연구 분야로 결코 실용성이 있어 보이지 않았다. 2015년 알파고가 이세돌 9단을 4 대 1로 이겼을 때도 AI가 “참 세다”라고 생각했지, 우리 삶과는 여전히 동떨어진 먼 과학 세계의 한 성공담이라 느꼈다. 2022년 11월 오픈AI가 챗GPT를 출시하자 우리는 AI가 우리 생활 속으로 성큼 들어왔다는 것을 깨달았다. 그저 무뚝뚝한 인터넷 검색에 반해, 이 녀석은 알기도 많이 알고, 또 인간과 대화를 부드럽게 할 수 있는 놀라운 재주가 있다는 것을 알았다. 허나 이는 시작점이었다.

LLM이라 불리는 이 녀석은 대화 이상의 능력을 갖춰 우리 비즈니스에 큰 역할을 할 수 있다는 것을 알았다. 업무를 편하고 빠르게 도와준다. 또 RAG, 에이전트, 도구와 합작했을 때 폭발적 힘을 발휘한다. ‘LLM과 그의 일당’은 아예 기업의 전체 IT를 대체하거나 지배할 능력을 갖추고 있다. 제품의 기능과 성능을 높이고, 작업 과정을 정밀화 또는 가속화하고, 신 제품을 개발해 기업의 경쟁력을 높일 수 있다. 어느 형태의 기업이건 상관없다.

가히 혁명적인 기술이다. 이는 결국 국가 경쟁력과 직결된다. 멀리 앞선 미국은 접어 두고라도, 이웃 나라 중국은 AI를 국가적 차원에서 선도하고 대기업, 벤처캐피털(VC), 스타트업이 힘을 모아 AI 혁명을 세계적으로 이끌고 있다. 솔직히 부럽다. 더 이상 값싸고 낮은 품질이란 중진국 틀에서 벗어나 창의적이고 고품질인 제품을 저렴하게 제공할 거다. 대한민국에는 위기이자 기회다. 우리 기업들도 이에 맞서서 좀더 적극적으로 이 세기의 테크놀로지에 대응해야 한다. 이를 돕는 것이 내가 이 칼럼을 시작하는 이유다. 나는 이번 고정 칼럼을 통해 AI의 응용 사례를 주로 다룰 것이다. 약간의 기술 소개를 곁들인다. 우리 각자 기업이 어떤 아이디어를 도입할까 고민해 볼 기회가 되기를 바란다. 첫 회 주제는 최근 세계 AI산업계를 강타한 '딥시크(DeepSeek) 쇼크'다.

지난 1월 27일 월요일, 중국 스타트업체 딥시크(DeepSeek, DS)는 실리콘밸리와 증권시장을 충격의 도가니로 몰았넣었다. 불과 5% 설비비용과 10% 시간만에, 기존 대형언어모델(LLM)에 버금가는 혹은 능가하는 LLM인 DS R1을 오픈소스로 내놓았다. 일반 사용자에게는 공짜고, API 가격은 경쟁사에 비해 10% 밖에 안된다. 오픈AI나 구글(Google), 메타(Meta) 같은 기존 대형 LLM 제조사 들은 벼락 맞은 듯한 쇼크를 느꼈을 것이다.

황승진 스탠퍼드경영대학원 잭디프 로시니 싱 석좌명예교수.

 이들의 핵심관계사인 GPU 제조사, 데이터 센터, 스타게이트(Stargate) 프로젝트 투자가 모두 쇼킹하고 불편한 하루였을 것이다. 반면에 많은 스타트업이나 사용자 기업에는 반가운 뉴스였다. 매달 만 달러 내던 게 90% 세일이라니, 즐거운 하루였을 것이다. 어찌 이런 일이 생겼을까?

DS R1은 DS 67B라는 기초 모델을 독자적으로 구축했다. 이후 파인튜닝 단계에서 기존 오픈소스 LLM Llama 3에서 지식을 증류(distill)한다. 증류라 함은 큰 언어모델(Teacher)에서 답을 추출해서 작은 모델(Student)에 이식하는 것이다. 여기에 R1 제작에서 다음 4가지 2루타급 혁신을 합쳐 홈런 효과를 내놓았다. 아래에 간단히 소개한다.

*MLA(Multi-Heads Latent Attention): 일반 LLM에 이용하는 어텐센(Attention) 메카니즘은 데이터 처리량과 캐시(Cache)이용 면에서 요구가 크다. 특히, Cache에는 세개 행렬과 Attention에서 전에 처리한 결과 등이 저장된다. 빨리 꺼내 쓸 수 있기 때문에 Cache를 쓰는데, 처리량이 많으면 성능이 떨어져 처리가 오래 걸린다. 사이즈 문제를 해결하기 위해, MLA는 Attention에 입력되는 임베딩 벡터를 낮은 차원으로 줄여 Attention을 시행한 후 원래 크기로 돌려 놓는다.

*MoE (Mixture of Experts, 전문가들 복합): 일반 LLM은 모든 입력을 신경망 전체가 처리한다. 이는 비효율적이다. MoE는 배당을 담당하는 별도의 ‘배당 신경망’이 있어, 입력을 신경망의 일부인 ‘전문 소(小)신경망’에게 보낸다. 또 ‘일반 소신경망’도 있어 모든 입력을 받아 작업을 행한다. 은행 고객 한 사람을 위해 전 직원 30명이 몰려가 서비스할 필요가 없고, 1~2 명이면 되는 식이다. 마찬가지로  DS는 6710억개의 매개변수가 있지만, MoE는 주어진 작업에 따라 이 중 5.5% 정도만 처리에 가담시켜 계산 부담을 줄인다.

*Multiple Token Prediction(복수의 토큰 추측): 일반 LLM은 NWP(다음단어추측)로 다음 한 단어(토큰)만 예측한다. DS는 아예 1~2개를 더 예측한 후에야 다음 예측어를 내놓는다. 즉 NWP를 두 세번 되풀이해 다음(+1), 그 다음(+2), 또 그 다음(+3) 예측을 한 다음, 첫번째(+1) 예측어 만을 발표한다.

'The man forgot ____'에서 'The man forgot about the meeting'이라고 3 토큰을 속으로 예측하고, about을 다음 예측어로 밖에 제출한다. 멀리 보는 덕분에 문맥을 더 잘 이해할 수 있다.

*논리에 강화학습(RL): DS는 수학, 코딩, 논리에 훈련돼 있다. 그들의 사고 방식은 CoT(Chain of Thought)로써 생각을 잘라 단계적으로 또 논리적으로 말하는 방식이다. 5*8+15는 5*8=40, 그리고 나서 40+15=55라고 답합니다. CoT는 원래 환각 현상을 줄이겠다고 만들었지만, 논리 전개에도 효과적이다. 게다가 강화학습(RL)이 신경망과 연결해 수행한다. 행위자-비평가 방식으로 행위자의 정책이 신경망에 매개변수 형태로 들어가 있다. 이를 비평가가 평가하면, 행위자가 이를 받아 점수를 높이도록 매개변수를 수정한다. 과거 LLM들은 RL을 파인튜닝에 썼는 데 반해, DS는 기초 모델에 적용했다.

관련기사

이러한 개선은 수출 규제로 인해 고성능 GPU가 아닌 조금 낮은 NVIDIA H800를 쓰며, 할 수 없이 절약하다 보니 기존 LLM 제조사가 놓친 혁신을 이끌었다.  또 DS의 다른 성공요인으로는, 대학교 막 졸업생으로 LLM 개발에 경험이 없는 젊은이들이 겁 없이 새로운 생각과 그들 고유의 열정으로 큰 일을 저질렀다.

이러한 혁신은 타기업에 의해 복사되고 발전될 것이다. DS는 게임체인저로서 영원히 기억될 것이다. DS 창업자가 한 일은 ‘로컬화’다. DS의 성공적인 절약 덕에 이제 LLM을 기업 서버나 센 desktop에서 작동(런)할 수 있게 됐다. 기존 LLM은 중앙 데이터 센터에서 작동한다. 이러한 변화는 IBM 대형 전산시대에서 홈PC 시대로의 전환을 생각나게 한다. 즉 ‘홈LLM’이 가능해질 것이다. 또 미래 LLM은 실시간 인터넷이나 엑셀, 워드 같은 다른 애플리케이션을 통제 관리할 것이다. 기업 역시 전사적으로 ERP, RDB, CRM을 연결하는 단일 UI(유저 인터페이스)가 될 것이다. 겁나게도, 2025년초에 발생한 이 쇼크는 중국의 새로운 힘과 새로운 시대에 대한 경고로 읽혀진다. 자, 우리 차례다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.