오픈소스가 인공지능의 요람인 이유

컴퓨팅입력 :2023/09/29 08:45

치열한 인공지능(AI) 경쟁에서 오픈소스는 새로운 도전을 받고 있다. 주요 AI 기업들이 개발한 대규모언어모델(LLM)을 독점 소프트웨어로 남겨두고, 오픈소스 진영은 기존 대형 스폰서 다수를 잃은 채 독자 생존의 길을 모색해야 하는 상황이다.

최근 미국지디넷의 오픈소스 소프트웨어 전문기자인 스티븐 보간니콜스는 '오픈소스가 인공지능의 요람인 이유'란 칼럼을 게재했다.

이 칼럼은 "치열한 경쟁을 벌이는 AI 비즈니스 속에서 오픈소스는 항상 신부의 들러리 역할을 할 운명인가, 결코 신부 역할을 할 수 없는가"를 주제로 쓰였다.

(사진: DALL-E 2 생성 이미지)

스티븐 보간니콜스는 "어찌보면 오픈소스와 AI는 함께 탄생했다"고 밝혔다.

그는 "1971년 대중에게 AI를 언급했다면, 그들은 아이작 아시모프의 로봇공학 3가지 법칙을 떠올렸을 것"이라며 "그러나 AI는 그해 이미 MIT에서 실제 주제였으며, 리처드 스톨만(RMS)이 MIT AI연구소에 합류했다"고 했다.

이어 "몇년 후 독점 소프트웨어 등장으로 RMS는 자유 소프트웨어란 급진적 아이디어를 개발했으며, 수십년 후 오픈소스로 변형된 이 개념은 현대 AI의 탄생지가 됐다"고 강조했다.

현대 AI 운동을 시작한 사람은 컴퓨터 과학자 앨런 튜링이다. 튜링은 1950년 논문 '컴퓨팅 머신과 인텔리전스'를 통해 튜링 테스트를 시작했다. 이 테스트는 기계가 사람을 속여 인간과 대화하고 있다고 생각하게 할 수 있다면 그 기계가 지능적이라고 말한다는 것이다.

오늘날의 AI 중 일부는 이미 튜링테스트를 통과할 수 있다는 주장도 최근 제기되고 있다.

1960년 컴퓨터 과학자 존 매카시는 '인공지능(AI)'이란 용어를 만들었다. 그 과정에서 만들어진 언어가 '리스프(Lisp)'다. 컴퓨터 과학자 폴 그레이엄은 메카시의 업적을 "유클리드의 기하학적 업적과 같다"며 "그는 몇가지 간단한 연산자와 함수 표기법을 통해 전체 프로그래밍 언어를 구축하는 방법을 보여줬다"고 평가했다.

리스프는 데이터와 코드를 혼합한 언어로, AI의 첫번째 언어였다. 리처드 스톨만은 리스프를 사랑했다.

1980년대 자유 소프트웨어를 기반으로 GNU-챗GPT라 할 만한 이론이 다수 등장했다. 여러 훌륭한 아이디어에도 불구하고, 하드웨어가 그 도전에 부응하지 못했다.

2010년대 빅데이터 기술은 오늘날 AI를 만들어내는 경로를 만들어줬다. 오늘날 같은 최신 AI 기술을 만들어내는 직접적 역할은 아니었다.

하둡, 스파크, 카산드라 같은 오픈소스 프로젝트는 하드웨어 클러스터에 대량의 데이터를 저장하고 처리하는데 필요한 AI 및 머신러닝 도구를 제공했다. 빅데이터와 이에 대한 빠른 접근을 할 수 없었다면 대규모언어모델(LLM)은 작동할 수 없다.

오픈소스를 좋아하지 않았던 빌 게이츠도 1980년 그래픽사용자인터페이스(GUI) 아이디어 후 가장 큰 놀라움으로 오픈소스 기반 AI를 꼽았다.

빌 게이츠는 "2016년부터 오픈AI 팀과 만났고, 그들의 꾸준한 발전에 깊은 인상을 받았다"며 "2022년 중반 그들의 작업이 너무 흥미로워서 AI를 훈련시켜 AP 생물학 시험에 합력하라는 과제를 제시했다"고 밝혔다.

빌 게이츠가 오픈AI에 던진 과제는 특별히 교육받지 않은 질문에도 답할 수 있게 AI를 만들라는 것이었다. 빌 게이츠는 "그 도전이 오픈AI를 2~3년동안 바쁘게 만들 것이라 생각했다"며 "그들은 그것을 단 몇 달만에 끝냈다"고 했다.

그는 "젖체 경험은 놀라웠고, GUI 이후 가장 중요한 기술 발전을 목격했다는 것을 알았다"며 "앞으로 5~10년 안에 AI가 달성할 수 있는 모든 것을 생각하게 만들었다"고 덧붙였다.

챗GPT와 라마2(Llama2) 같은 인기있는 생성 AI 모델은 오픈소스에서 탄생했다. 물론 챗GPT, 라마2, 달리 같은 AI 모델은 오픈소스가 아니다.

오픈AI 초기 투자자였던 일론 머스크는 "오픈AI는 오픈소스로 만들어졌고, 구글의 균형추 역할을 하기 위해 비영리 기업이었다"며 "비공개 소스와 마이크로소프트가 효과적으로 통제하는 이익회사는 내가 의도한 게 아니다"라고 밝히기도 했다.

그럼에도 오픈AI와 기타 모든 생성 AI 프로그램은 오픈소스를 기반으로 구축됐다. 허깅페이스의 트랜스포머는 ML 모델 구축을 위한 우수한 오픈소스 라이브러리다. 이 라이브러리는 자연어 처리 작업을 위한 사전 훈련된 모델과 아키텍처, 도구를 제공한다. 개발자는 기존 모델을 기반으로 특정 사례에 맞게 미세조정할 수 있다.

챗GPT는 특히 GPT 언어모델을 위해 허깅페이스의 라이브러리를 사용한다. 트랜스포머가 없으면 챗GPT도 없다.

구글과 페이스북이 각각 개발한 '텐서플로우'와 '파이토치'는 챗GPT의 등장을 촉진했다. 파이썬 프레임워크는 딥러닝 모델을 구축하고 훈련하는데 필수적인 도구와 라이브러리르 제공한다. 오픈소스 AI 및 ML 프로그램은 이 도구들을 기반으로 구축된다. 고급 텐서플로우 API인 '케라스(keras)'는 딥러닝 배경지식 없은 개발자의 신경망 구축에 사용된다.

텐서플로우와 파이토치의 우열을 가리는 건 어렵다. 확실한 건 두 프레밍워크 모두 여러 프로젝트에서 활용되는 기본이란 점이다. 여러 AI 챗봇의 뒷단엔 다양한 오픈소스 프로젝트가 혼합돼 있다.

메타는 라마2를 오픈소스라고 주장한다. 많은 오픈소스 개발자가 오픈소스 친화적 성격 때문에 라마를 선택했지만, 자세히 들여다보면 라마2는 오픈소스가 아니다.

라마2는 자유롭게 다운로드해 사용할 수 있고, 사전 학습된 모델과 대화형 미세조정 버전을 위한 모델 가중치 및 시작 코드를 사용하면 애플리케이션을 쉽게 구축할 수 있다.

그러나 라마2는 월간활성사용자(MAU) 7억명 이상의 경우 메타에서 별도 라이선스 금액을 지불해야 한다. 메타는 단독 재량으로 유상 라이선스 부여를 결정할 수 있다.

월 7억 사용자란 게 달성하기 어려운 조건이긴 하지만, 라마2로 페이스북이나 챗GPT 수준의 대성공을 거둬 억만장자가 되는 건 포기해야 한다는 의미다.

진정한 오픈소스 LLM으로 '팰컨(Falcon) 180B'가 있다. 그러나 대다수 주요 상업용 LLM은 오픈소스가 아니다. 모든 주요 LLM은 공개 데이터로 학습했다. 가령 GPT-4를 비롯한 대부분의 LLM은 웹에서 크롤링한 페타바이트 규모 텍스트 아카이브인 '커먼크롤(CommonCrawl)'에서 일부 데이터를 가져온다. 이 아카이브는 페이스북의 생일 소원, 리눅스의 레딧 댓글, 위키피디아 언급, 아카이브닷오알지의 책 등 공개 사이트에 작성한 HTML 문서를 포함한다.

스티브 보간니콜스는 "그렇다면 오픈소스는 AI 비즈니스에서 항상 신부 들러리로 존재할 운명일까"라고 자문하고 "그렇게 빠르지는 않다"고 자답했다.

유출된 구글 내부 문서에서 구글 AI 엔지니어는 "불편한 사실은 우리가 이 생성 AI 군비 경쟁에서 이길 수 있는 위치에 있지 않으며, 오픈AI도 마찬가지란 것"이라며 "우리가 다투고 있는 동안 제3의 세력이 조용히 점심을 먹고 있다"고 적었다.

여기서 제3의 세력은 오픈소스 커뮤니티다.

생성 AI에서 유용한 답변을 얻는데 하이퍼스케일 클라우드나 수천개 고가 GPU가 반드시 필요한 건 아니다. 스마트폰도 LLM을 실행할 수 있다. 초당 5개의 LLM 토큰으로 구글 픽셀6에서 파운데이션모델을 실행한 사례도 있다. 노트북으로 개인화된 AI를 미세조정하는 것도 가능하다.

허깅페이스 오픈소스 LoRA와 같은 미세조정 메커니즘 덕분에 훨씬 적은 비용과 시간으로 LLM 미세조정이 가능해졌다.

구글의 AI 엔지니어는 "소비자 하드웨어에서 몇시간 만에 언어모델을 개인화할 수 있다면 정말 대단한 일"이라며 "LoRA를 매우 효과적으로 만드는 이유 중 하나는 다른 형태의 미세조정과 마찬가지로 스택 가능하다는 것"이라고 적었다.

그는 "지침 조정 같은 개선 사항을 적용한 다음 다른 기여자가 대화, 추론 또는 도구 사용을 추가함에 따라 활용할 수 있다"며 "개별 미세조정은 낮은 순위고, 그 합계가 필요하지 않으므로 시간이 지남에 따라 모델에 대한 전체 순위 업데이트가 누적될 수 있다"고 했다.

또 "새롭고 더 나은 데이터세트와 작업을 사용할 수 있게 되면, 모델을 전혀 사용하지 않고 저렴하게 최신 상태로 유지할 수 있다"고 덧붙였다.

그는 오픈소스와 경쟁하지 말아야 한다고 결론지었다. 그는 "오픈소스와 직접 경쟁하는 것은 패배하는 제안"이라며 "따라잡을 수 있다고 기대해선 안된다"고 했다.

관련기사

그는 "현대 인터넷은 오픈소스에서 실행된다"며 "오픈소스엔 복제할 수 없는 몇가지 중요한 이점이 있다"고 결론내렸다.

스티브 보간니콜스는 "30년 전만 해도 오픈소스 운영체제가 유닉스나 윈도 같은 독점 시스템을 능가할 것이란 꿈을 꾸는 사람은 아무도 없었다"며 "아마도 진정한 개방형 AI 프로그램이 오늘날 우리가 사용하는 준독점 프로그램을 압도하는데 30년도 채 걸리지 않을 것"이라고 전망했다.