네이버 초거대 AI '하이퍼클로바X', 어떻게 만들었나

저작권 문제 해결…한국어 데이터 챗GPT의 6천500배 수준

인터넷입력 :2023/07/19 08:51    수정: 2023/07/19 16:13

구글·마이크로소프트(MS) 등 빅테크를 포함해 국내외 정보기술(IT) 기업 간 초거대 언어모델(LLM)을 둘러싼 기술·서비스 경쟁이 하반기 본격화 된다. 

네이버는 재작년 내놓은 하이퍼클로바 업그레이드 버전 ‘하이버클로바X’를 내달 공개해 시장 패권을 쥐겠다는 포부다. 회사는 20년간 토종 플랫폼으로서 검색 엔진 시장을 주도해 온 역량을 토대로, 데이터 관리와 LLM 저작권 이슈에서 자유로운 한국형 AI 모델을 선보인다는 방침이다. 

19일 관련 업계에 따르면 네이버는 하이퍼클로바X를 일부 직원들에게 공개하고, 사내 테스트를 진행하며 출시 예열에 나서고 있다. 출시 예정일은 8월24일. 하이퍼클로바는 2021 네이버에서 선보인 LLM으로, 오픈AI 챗GPT와 달리 국내 이용자에 특화된 서비스다. 특장점은 바로 한국어. 네이버는 지식인을 비롯해 뉴스 50년치, 블로그 9년치에 달하는 데이터를 익혔다. 오픈AI 챗GPT와 비교하면, 하이퍼클로바는 6천500배 더 많은 한국어를 학습했다.

(사진=지디넷코리아)

그간 네이버는 클로바 케어콜이나 스마트스토어 등 내부 서비스 위주로 하이퍼클로바를 적용해 왔다. 클로바 케어콜은 돌봄이 필요한 노인 1인 가구에 AI가 전화를 걸어 식사·수면·건강 등 주제로 안부를 확인하는 서비스다. 올 초 기준 부산·대구 등 지방자치단체 50곳과 전국 의료·복지기관에서 클로바 케어콜을 활용하고 있다.

하이퍼클로바는 네이버 쇼핑 리뷰 요약과 중소상공인(SME) 생산성을 높이는 도구로도 쓰이고 있다. 이전에는 이용자들이 네이버 지식으로 질문하고 원하는 답변을 기다렸다면, 하이퍼클로바X를 통해서는 원하는 답을 바로 듣고 추가로 연이어 질의할 수 있게 된다.

또 하이퍼클로바가 기업소비자간거래(B2C) 형태라면, 하이퍼클로바X는 기업간거래(B2B)향으로 한층 고도화한 성격을 띤다. 이용자뿐만 아니라, 금융·법률·의료 기관에서 하이퍼클로바X를 도입해 사용할 수 있다는 얘기다.

(사진=지디넷코리아)

"하이퍼클로바X, 네이버 플랫폼 기반 고품질 데이터"

네이버 하이퍼클로바X 외 카카오와 LG, KT 등에서 순서대로 ‘코지피티’·‘엑사원’·‘믿음’ 등 LLM을 개발하고 있다. 시장 관심이 이처럼 한껏 달아오르면서, 업계 안팎에선 과연 범용 모델 한계를 극복한 특화모델이 나올지 여부를 살피는 형국이다.

챗GPT의 경우 뛰어난 성능에도 전문 분야에 활용되기에는 정확·신뢰도가 낮은 것으로 평가됐는데, 이런 기류에 국산 LLM이 양질 데이터를 바탕으로 편향성과 허위 정보 등 ‘환각’ 현상과 저작권 문제 등 한계를 해결할지도 관건으로 떠오른다.

재작년 엑사원을 공개한 LG AI 연구원은 환각 이슈를 해소하고자, 새로운 구조 LLM 모델을 준비하고 있다. 기업 내부 데이터를 기반으로 커스터마이징한 LLM을 만들어, 맞춤형 기능을 제공한 동시에 운영비용을 최적화하는 방식이다. KT도 영역별 맞춤형 모델을 제공하고자 정보 신뢰·시의성 있는 데이터 확보를 위한 작업을 추진하고 있다.

하이퍼클로바X는 포털 선두주자인 네이버 운영 노하우를 내세워, 고품질 데이터를 서비스한다. 기존 하이퍼클로바 대비 고차원 데이터를 학습한 건 아니지만 하이퍼클로바X가 지식인·블로그 등 방대한 누적 데이터를 앞세워 빅테크는 물론, 여타 기업에서 구현할 수 없는 한국형 LLM을 시현하는 데 충분한 학습데이터를 갖고 있다는 설명이다.

하정우 네이버클라우드 AI이노베이션 센터장은 “우리는 학습 데이터 사용 여부를 가리거나 이용 가능한 지식재산권(IP)을 판별할 수 있는 토대를 이미 갖춘 상태”라며 “기존 하이퍼클로바를 공개하는 데 오랜 시간이 소요된 것도, 이같은 (데이터 관리) 리스크 해소 절차를 거쳤기 때문”이라고 설명했다.

(사진=지디넷코리아)

뉴로 클라우드 기반으로 B2B향 데이터 보안 문제 해결…"저작권 문제 無"

이어 B2B 서비스에 있어, 경쟁 우위를 자신했다. 하정우 센터장은 “전문지식일수록 원하는 결과물을 얻기 어려운데, 이는 법률이든, 금융이든, 각 분야별 보유 데이터가 부족한 점이 작용한 탓”이라며 “하이퍼클로바X는 파트너 고객이 가진 데이터를 우리 모델과 함께 학습시켜 전문성을 제고한, 성장 엔진”이라고 강조했다.

또 파트너십을 맺은 고객사들만 하이퍼클로바X를 쓸 수 있는 ‘뉴로 클라우드’ 기반으로 제공된다. 클라우드 중심으로 일부 영역에 AI를 적용한 뒤 데이터를 학습하기보다, 파트너사가 직접 데이터를 업로드해 하이퍼클로바X를 데이터센터에 압축한 다음 그대로 사용할 수 있는 ‘클라우드 미니어처’ 형태다. 데이터 보안 문제를 자연스레 해결할 수 있다.

학습 데이터 저작권 문제도 짚어볼 부분이다. 네이버는 4월 뉴스·검색 등으로 제공받은 콘텐츠를 계열사나 제3자가 활용할 수 있게끔 제휴 약관을 개정하려다 한국기자협회와 한국인터넷신문협회 등 4개 언론단체 반대에 부딪히자, 언론사 동의를 구하는 방법으로 개정안을 수정했다.

AI 저작권은 올 초 국내 웹툰 업계에서 화두에 오른 이슈다. 저작권법상 저작물이란 인간 사상 또는 감정을 표현한 창작물을 의미하는데, 국내에서는 AI로 생성된 저작물이 여러 학습 데이터 소스에 의해 생성됐을 때 저작자가 누군지 아직 명확한 규제나 가이드라인이 부재하다.

(사진=지디넷코리아)

뉴스 보도나 교육, 학술 연구 등 특정 목적을 위해 저작권이 있는 자료를 사용하는 건 저작권법에 따라 공정이용으로 간주된다. 다만, AI로 생성된 저작물이 공정 이용에 해당하는지를 현행법상으로 판단하기에는 어려운 실정이다.

관련기사

LG AI 연구원의 경우, 이미지나 논문·특허 등 전문 문헌 저작권을 보유한 기업과 제휴를 맺어, 합법적으로 데이터를 구매해 학습에 사용하면서 관련 문제를 해소하고 있다. 네이버도 하이퍼클로바X 데이터 저작권에 대해 "문제가 없다"고 했다. 법무팀과 논의 후 사전학습을 했고, 저작권 문제가 없는 데이터만 갖고 학습했다는 설명이다.

네이버 관계자는 “초거대 모델이 떠오르기 시작한 지 얼마 안 돼 저작권 문제 해결 논의가 진행되고 있는 단계다. 이해 관계자들이 많아 특정 기업이 나서 규칙을 정할 수 없다”면서도 “우린 이용 약관에 따라 데이터를 학습하고 있다”고 말했다.