20년 전 설립된 국내 최대 검색 포털 회사인 네이버는 한정된 자원 내에서 방대한 데이터 관리와, 인공지능(AI) 서비스 구현을 어떻게 하고 있을까?
많은 기업들이 4차산업혁명시대를 맞아 데이터를 모으고 이를 활용한 AI 서비스를 하려고 하지만, 막상 현실에서는 이런 저런 한계에 부딪치게 된다. 데이터를 모으기도 쉽지 않을뿐더러, 생각보다 막대한 컴퓨팅 자원이 필요해 애를 먹기 때문이다.
이 같은 문제를 똑같이 경험한 네이버는 어떻게 시행착오를 겪었는지, 또 어떤 방법으로 문제를 해결해 나가고 있는지 설명한 자리가 열려 AI 종사자들의 이목을 끌었다.
네이버 빅데이터&AI 플랫폼 정재부 리더는 14일 지디넷코리아가 서울 광화문 포시즌스호텔에서 열린 ‘ATS(Asia Tech Summit) 2019’ 컨퍼런스에서 ‘네이버 검색, 추천 서비스를 실현하는 데이터&AI 스위트’란 주제로 강연을 진행했다.
정 리더에 따르면 네이버는 국내에서 70%가 넘는 검색 점유율을 가진 대표적인 검색 포털 사이트다. 네이버 블로그만 23억개, 50억 카페 문서가 네이버 서버에 저장돼 있다. 하루에 80만개 문서가 신규 생성된다. 네이버 쇼핑에는 9억개 제품 목록과 가격비교가 이뤄진다.
네이버는 검색, 언어, 뉴스, 쇼핑, 장소, 문자인식 등의 분야에 AI 기술을 접목해 똑똑하고 편리한 추천 서비스를 제공한다.
정재부 리더는 “AI가 새로운 것은 아니지만 다시 관심을 받게 된 이유는 딥러닝의 등장 때문”이라며 “딥러닝이 관심을 받은 이유는 딥뉴럴 네트워크 알고리즘 정확도 향상과 빅데이터, GPU를 통한 연산이 쉽고 빠르게 가능해졌기 때문”이라고 설명했다.
이어 정 리더는 “많은 기업들이 기계학습(머신러닝)을 자사의 서비스에 접목하고자 했을 때 핵심성과지표(KPI)를 정의하고 알고리즘 최적화에 많은 시간을 쓸 것 같지만 실제는 데이터를 모으고 인프라 구축에 많은 시간을 소비한다”면서 “결국 빅데이터와 GPU를 쉽게 다룰 수 있는 플랫폼이 필요하다”고 덧붙였다.
이 때 필요한 플랫폼은 데이터셋에 있어 ▲대용량 데이터를 저장하기 위한 분산 저장 플랫폼 ▲원하는 작업을 자유롭게 수행할 분산 컴퓨팅 플랫폼 ▲피처 엔지니어링을 위한 데이터 분석, 시각화 플랫폼이다.
또 모델과 학습을 위해서는 ▲GPU를 고려한 스케줄링 플랫폼 ▲다양한 딥러닝 프레임워크의 컨테이너 환경 ▲자유로운 알고리즘 개발을 위한 노트북 환경 등이 필요하다.
마지막 추론 부문에는 ▲사용자 요청을 처리할 확장 가능한 서버 플랫폼 ▲가성비를 고려한 CPU, GPU 인스턴스 제공 플랫폼 ▲모델 관리와 배포 자동화 플랫폼이 요구된다.
이에 네이버는 아파치 하둡 에코시스템 기반으로 새로운 형태의 데이터 스위트 플랫폼을 자체 구축했다. 이를 통해 무제한의 데이터를 한 플랫폼에 저장하고 다중 프레임워크에서 일관된 데이터 접근이 가능해졌다. 또 다양한 리소스 자원의 효율적인 스케줄링도 실현했다.
데이터 스위트의 분산 저장 플랫폼은 크게 데이터스토어와 데이터 로그로 나뉜다. 데이터스토어는 네입의 다양한 데이터를 저장하고, 잘 유통하기 위한 플랫폼이다. 데이터로그는 로그 데이터 인입과 실시간 색인을 지원하며 SQL(Structured Query Language)을 통해 데이터를 쉽게 다룰 수 있도록 제공한다.
데이터 스위트위 분산 컴퓨팅 플랫폼인 데이터프록은 아파치 하둡, 하이브, 스파크, H베이스 및 다양한 빅데이터 프레임워크를 손쉽게 실행할 수 있는 플랫폼을 제공한다.
또한 네이버는 새로운 형태의 AI 플랫폼인 AI 스위트도 만들어 사용 중이다. AI 스위트의 피처 엔지니어링 플랫폼인 AI 피처는 학습데이터를 쉽게 가져와서 검증과 간단한 가시화로 데이터에 대한 인사이트를 얻어 좋은 모델을 위한 데이터를 주기적으로 가공한다.
또 AI 스위트의 모델 학습 플랫폼 AI트레이닝은 다양한 딥러닝 프레임워크를 이용해서 모델을 학습할 수 있는 플랫폼으로, 자유로운 GPU 사용과 효율적인 스케줄링을 지원한다. 아울러 모델 서빙 플랫폼인 AI서빙은 학습된 모델을 확장 가능한 분산 컴퓨팅 플랫폼에서 서빙할 수 있게 도와주는 플랫폼이다.
정재부 리더는 “데이터 스위트와 AI 스위트는 대용향 분산 저장 플랫폼과 대규모 분산 컴퓨팅 플랫폼을 기반으로 AI 서비스 개발을 지원한다”며 “데이터 인입부터 모델 서빙까지의 라이프사이클을 관리하고 클라우드 기반의 가성비 좋은GPU 인프라 환경을 제공한다”고 말했다.
관련기사
- AI판사 시대 도래… "딥러닝, 이젠 인간을 예측한다"2019.11.14
- “IT기술 더 이상 IT기업 전유물 아니다"2019.11.14
- 인공지능이 우울증도 치료하는 시대 왔다2019.11.14
- "구글이 만든 텐서플로, AWS 위에서 쓰면 성능 더 좋아진다"2019.11.14
이어 “리소스 상황을 고려한 효율적인 CPU, GPU 스케줄링과, 허가받지 않은 접근에 대한 강력한 데이터 보호를 지원한다”면서 “데이터를 다루는 사용자와 앱에 대한 명확한 정의와 감사고 가능케 한다”고 덧붙였다.
이어 “네이버가 자체 구축한 데이터 스위트와 AI 스위트 플랫폼은 국내뿐 아니라 일본 라인에도 동일하게 쓰인다”며 “데이터, AI 플랫폼을 구축하고자 하는 기업들이 우리의 경험을 보고 도움을 얻고 시행착오를 줄이길 바란다”고 첨언했다.