구글 PaLM 2, 더 작아졌지만 더 많이 공부했다

매개변수 3천400억개, 학습 토큰 수 3조6천억개

컴퓨팅입력 :2023/05/19 12:49    수정: 2023/05/20 07:56

베일 속에 가려졌던 구글의 최신 대규모언어모델(LLM) 'PaLM 2'의 세부 정보가 알려졌다. 1년 전 버전인 PaLM보다 매개변수(파라미터) 규모는 오히려 줄어든 반면, 학습 데이터 양은 5배 늘어났다.

CNBC는 16일 구글 PaLM 2 모델이 이전 버전보다 5배 더 많은 텍스트 데이터를 학습했고, 3천400억개의 파라미터 규모를 가졌다고 보도했다.

CNBC가 확보한 구글 내부 문서에 따르면, PaLM 2는 3조6천억개의 토큰으로 훈련됐다. 단어 문자열을 의미하는 토큰은 생성하는 문장의 맥락 속에서 다음 단어를 예측하는 트랜스포머 기반 LLM의 주요 구성요소다. 1년전 모델인 PaLM의 경우 7천800억개의 토큰을 학습했다. PaLM 이전의 구글 LLM이었던 LaMDA의 경우 1조 5천억개의 토큰을 학습했다.

구글이 차세대 LLM 'PaLM 2'를 공개했다.

PaLM 2의 매개변수는 3천400억개인 것으로 확인됐다. 이는 이전 버전인 PaLM의 5천400억개의 63%에 해당한다. 그동안 LLM 성능을 가늠하는 주요 척도로 여겨졌던 매개변수 규모에서 그동안의 통념과 다른 방향성을 보인 것이다.

최신 모델이 이전 버전보다 더 작은 규모로 만들어졌다는 점이 흥미롭다. 이는 공개된 논문에서도 언급된 부분이다.

PaLM 2 논문 저자들은 "모델 크기가 성능 향상의 유일한 방법이 아니다"라며 "세심한 데이터 선택과 효율적인 아키텍처 및 모델을 통해 성능을 높일 수 있다"고 밝혔다. 이어 "더 작지만 더 높은 품질의 모델은 추론 효율성을 크게 개선하고 서비스 비용을 줄이며 더 많은 애플리케이션과 사용자를 위해 모델의 다운스트림 애플리케이션을 활성화한다"고 덧붙였다.

딥마인드 주빈 가흐라마니 부사장도 구글I/O 언론브리핑에서 "모델의 크기가 더 크다고 더 좋은 것은 아니란 것을 발견했다"며 "파라미터 수는 모델의 기능에서 유용한 방법이 아니며, 기능은 실제로 모델을 사용하고 달성하려는 테스트에서 유용한지 여부를 알아내는 사람이 판단해야 한다"고 설명했다.

PaLM 2는 코드 작성과 디버깅 기능 지원 역량도 향상됐다. 자바스크립트, 파이썬 등의 언어 외에 Prolog, Verilog, 포트란 등 20개 개발언어를 학습했다. 구글은 상식적인 추론, 수학, 논리 등도 타 모델보다 더 우수하다고 밝혔다. 수학적 표현과 대량의 수학 및 과학 텍스트를 모델에 학습시켰고, 코드 작성과 디버깅 기능 지원 역량도 향상시켰다. PaLM 2는 자바스크립트, 파이썬 등의 언어 외에 Prolog, Verilog, 포트란 등 20개 개발언어를 학습했다.

구글은 PaLM 2를 네가지 크기로 제공한다. 활용 사례에 따라 작은 크기 순으로 겍코(Gecko), 오터(otter), 바이슨(Bison), 유니콘(Unicorn) 등이 존재한다. 가장 작은 모델인 '겍코'는 모바일 기기에서도 작동가능하며, 오프라인 환경에서도 대화형 애플리케이션을 실행할 수 있다.

구글은 지난 10일 열린 구글 I/O에서 차세대 LLM 'PaLM 2'를 공개하는 한편, 92페이지 분량의 PaLM 2 기술 논문을 발표했지만 매개변수 규모를 비롯한 모델의 구체적 정보를 공개하지 않았다.

구글의 PaLM 2 논문 저자들은 "PaLM 2는 새로운 최첨단 언어 모델로 모델 크기에 따라 매개변수가 달라지는 트랜스포머 아키텍처를 기반으로 적층 레이어를 사용하는 소형, 중형, 대형의 변형을 갖고 있다"며 "모델 크기와 아키텍처에 대한 자세한 내용은 외부 간행물에서 보류된다"고 적었다.

불과 1년전 공개된 PaLM 논문은 매우 상세하게 기술 내역을 밝혔었다. AI 기술은 연구자들의 적극적인 정보 공개를 통해 발전해왔다. 구글도 능동적인 정보 공개를 통해 AI 기술의 진보를 이끌었다. 구글에서 간행한 AI 연구 논문은 2019년부터 500건에 달한다.

관련기사

구글은 2017년 'Attention is all you need'란 논문을 통해 트랜스포머 개념을 자세히 공개했다. 이는 생성 AI의 기폭제였다. 그런 구글이 180도 돌변한 것이다.

이런 태도 변화는 오픈AI 때문이다. 오픈AI는 구글의 트랜스포머 논문을 참고해 GPT 모델을 개발했는데, 구글은 자세한 기술 내역 공개로 역풍을 맞았다고 판단했다. 또, 오픈AI는 지난달 GPT-4를 공개하면서 세부 정보를 밝히지 않았다. 당시 AI 학자들은 오픈AI의 선택이 업계 전반에 오싹한 영향을 미칠 수 있다고 경고했고, 구글의 PaLM 2 논문은 학계의 전망을 증명하는 첫번째 신호로 여겨진다.