[황승진의 AI칼럼] LLM이란 별의 탄생

516차원 실수 벡터로 표현하자는 아이디어서 트랜스포머 나와...2012년 엔비디아 GPU 사용 '알렉스넷' 등장

전문가 칼럼입력 :2025/02/08 16:21

황승진 스탠퍼드경영대학원 잭디프 로시니 싱 석좌명예교수

 중국 AI 스타트업 딥시크가 세계 AI시장에 준 충격의 여진이 계속되고 있다. 이번 2회에서는 거대언어모델(LLM)의 탄생을 다루고자 한다.

2012년 체코 과학자 토마스 미콜로프(Thomas Mikolov) 박사의 논문은 ‘벡터 공간에서의 단어 표현’을 다뤘다. 임베딩이라 부르는 이 아이디어는 간단하면서도 훌륭했다. 각 단어를 516차원의 실수(實數) 벡터로 표현하자는 제안이었다. 516개 숫자는 내 마음대로 생성하는 것이 아니라, 그 단어와 그 벡터와의 의미 있는 연결이 있어야 한다.

두 단어가 의미적으로 유사하거나 관련이 있다면, 그 두 숫자는 고차원 벡터 공간에서 서로 가깝다.  예로, ‘사과’와 ‘바나나’는 서로 근처에 있고, ‘아파트’는 멀리 있다. 그 정도에 그치는 게 아니라 임베딩에는 의미와 해당 숫자가 나란히 같이 가는 미스터리한 논리적 관계가 있다. 예를 들어 '왕–남자+여자=여왕'이 대략이나마 성립한다.

이 임베딩을 채택해 2017년 구글 과학자들은 또 다른 혁명적인 개념인 '트랜스포머(transformer)' 아키텍처를 개발했다. 트랜스포머는 인코더와 디코더라는 2단계로 작동하는 소프트웨어다. 1단계로, 인코더는 문장을 입력 받아 X라는 임시 출력을 생성하는데, X는 입력에서 추출한 압축 데이터다. 2단계로, 디코더는 X를 받아 출력을 생성한다. 그 중간에는 여러 계층의 신경망과 지능형 알고리즘이 작동한다.

이들 신경망은 웹 페이지, 위키피디아, 책 및 문서에서 읽은 수조 개의 문장으로 사전 훈련된다.  이 기술은 궁극적으로 오픈AI의 챗GPT와 같은 대형 언어 모델(LLM)의 탄생을 이끌었다. LLM은 많은 ‘지식’을 보유할 뿐만 아니라 읽고, 쓰고, 듣고, 말하고, 줄이고, 늘리고, 평하고, 통합하고, 구분하고, 바꾸고, 저장하고, 가져오고, 코드 쓰고, 예측하고, 창작하는 ‘능력’을 갖고 있다.

어찌해 이런 괴물 작품이 탄생했을까? 사실, LLM이라는 혁명적인 작품이 나오는데는 임베딩이나 트랜스포머 외에도 많은 요소가 잘 섞여 잘 맞아떨어졌기 때문이다. 그 시작은 신경망이란 훌륭한 모델을 사용했다. 정보 저장 및 처리 능력이 좋은 줄 알았지만 이렇게 좋을 줄 몰랐다. 물론 힌튼(Hinton) 르쿤(LeCun), 벤지오(Bengio) 같은 학자와 그들 제자가 한 결정적인 기여 덕택이다.

황승진 스탠퍼드경영대학원 잭디프 로시니 싱 석좌명예교수.

트랜스포머 핵심은 ‘어텐션’이란 메커니즘인데, 이게 기가 막히게 효과적이다. 오죽하면 이를 발표한 구글 논문 제목이 '어텐션만 있으면 다 된다 (Attention is all you need)'였다. 문맥을 보고 단어의 모호성을 제거하는 방법이다. 이런 이론적 업적을 현실화한 것은 엄청난 양의 공공 데이터, 즉 WWW와 위키피디아, 디지털 서적 등이 있었기 때문이다.

LLM은 데이터를 먹고 사는 '크리처'다. 이 녀석은 먹성이 좋아 수백억 내지 수조 단위의 데이터 입력이 있어야 일을 제대로 한다. 이 정도 데이터를 1-2년 만에 다 소화할 수 있던 것은 하드웨어 GPU와 이를 잘 활용한 트랜스포머 덕택이다.

LLM을 훈련시킨 방식 NWP(Next Word Prediction) 또한 큰 몫을 했다. 문장의 첫 부분을 주고 그 다음 단어를 예측하게 하는 이 훈련법은 나중에 LLM의 작문 실력을 키웠다. OpenAI의 공동창업자인 슈츠커브(Sutskever)에 따르면, NWP는 추론 및 추리 능력을 키운다고 한다. 추리소설은 모든 증거를 내놓고 독자에게 범인을 추측하라고 도전한다. NWP 역시 같은 게임을 하고 있다는 주장이다. LLM의 2단계 제조 방식도 AI 생태계 발전에 큰 역할을 했다.

거대한 신경망을 사전 훈련시켜 기초모델을 만든 후, 이를 미세 조정해 응용을 개발한다. 우리에게 익숙한 LLM인 ChatGPT는 GPT라는 기초 모델(파운데이션모델)에 Chat이란 애플리케이션을 올린 것이다. 비슷한 사례로 메주 제조법이 있다. 먼저 콩으로 메주를 만든 후, 그 메주로 된장, 고추장이나 간장을 만든다. 이렇게 LLM은 두단계로 개발됐다.

놀랍게도, 임베딩과 트랜스포머의 아이디어가 이미지 처리 기술에도 적용됐다. 2009년, 페이 페이 리(Fei-fei Li) 교수가 이끄는 미국 프린스턴대 연구진은 2만 가지 카테고리로 분류한 1400만 장의 라벨이 들어간 (즉, 식별용 딱지가 있는) 이미지 DB를 구축했다. 그리고 연구자들이 1000개의 이미지를 인식할 수 있는 AI 프로그램을 개발하도록 하는 오픈 경진대회를 시작했다. AI 프로그램은 라벨을 읽거나 인간의 개입 없이 "이것은 개이고, 저것은 고양이입니다"라고 말할 수 있어야 한다. 이 경진대회는 이미지 AI개발에서 신의 한수였다. 특히, 2012년에 가장 주목할 만한 성과를 거둔 것은 Krizhevsky, Hinton, Sutskever가 개발한 CNN이란 신경망 기반으로 만든 알렉스넷(AlexNet)이었다. 이는 엔비디아(NVIDIA)의 2개 GPU에서 실행됐고, 이것이 GPU와 AI의 긴밀한 로맨스의 시작이었다.

최근에는 트랜스포머가 이미지에도 적용됐을 뿐 아니라 오디오에도 적용됐다. 소위 말하는 텍스트, 이미지와 오디오의 3자 멀티모달이 하나의 기술 파라다임으로 가능해졌다. 더욱이, 각 모달마다 읽기 뿐 아니라 ‘쓰기’까지 가능하게 됐다. 말 대답하고, 시키는 대로 그림 그리고, 남의 목소리로 말할 수 있다. 이렇게 LLM이란 별이 태어나고 새로운 AI의 기반이 형성됐다.


황승진 교수는...

관련기사

 1974년 서울공대를 졸업하고, 미국의 로체스터 대학에서 전산정보학 분야에서 경영학 박사를 취득한 후 스탠포드 경영대학원에서 35년간 교수에서 재직했다. 2022년 은퇴 후, 현재 동 대학원에서 씽 석좌 명예교수로 여러 경영자 과정에서 가르치고 있다. 전공분야는 공급망관리와 전산경제학이다. 이 분야에 50여편의 학술논문을 출판했다. 특히 ‘채찍효과’ 논문은 1만2000 번 인용, 공급망관리의 대표 논문이 됐다. 대외 활동으로는 알토스 벤쳐와 길리아드를 비롯한 20여개 기업에서 자문단 혹은 사회이사 직을 맡은 경험이 있다. 작년 3월 '경영이라는 세계' 라는 제목의 한국어 에세이집을 출판해 매경의 정진기 언론문화상을 받았다. 최근 관심사는 인공지능으로 경영과의

응용과 영향을 연구하고 또 스타트업 자문단으로 활동하고 있다. 

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.