퓨어스토리지 "AI 시스템의 병목은 스토리지”

로이 킴 퓨어스토리지 인공지능부문 이사

컴퓨팅입력 :2018/12/05 15:58

“인공지능(AI) 알고리즘은 데이터를 더 많이 넣을수록 더 정확해진다. 그런데 어느 수준에 이르면 개선에 필요한 데이터양이 기하급수적으로 증가한다. 경우에 따라 1% 개선을 위해 천만배 데이터세트가 필요하다. 당연히 그 많은 데이터를 담고, 빠르게 처리할 수 있는 스토리지를 고민하게 된다.”

로이 킴 퓨어스토리지 인공지능부문 리드는 최근 기자와 만나 이같이 밝혔다.

퓨어스토리지는 올플래시 스토리지로 업계 판도를 바꾼 회사다. 올해들어 엔비디아와 손잡고 AI 전용 어플라이언스인 ‘에이리(AIRI)’를 출시하는 등 AI 분야에 집중투자중이다. 머신러닝이나 딥러닝 알고리즘 연산을 위해 고가의 GPU가 필수적인 상황에서 하드디스크 대비 비싼 플래시 미디어까지 사용해야 하는지 의구심이 많다.

로이 킴 퓨어스토리지 인공지능부문 리드

이에 대해 로이 킴은 바이두에서 실행했던 연구사례를 들어 반박했다. 그는 “바이두는 만다린어를 영어로 번역하는 언어모델을 연구하면서 얼마나 많은 데이터를 넣어야 모델 정확도를 높일 수 있나 실험했다”며 “그 결과 알고리즘이 개선될수록 기하급수적으로 많은 데이터 세트가 필요하다는 사실을 밝혀냈다”고 설명했다.

그는 “97%까지 정확도를 개선한 뒤부터 1%를 개선하는데 천만배 이상의 데이터세트가 필요한 것으로 나타났다”며 “그만한 데이터가 필요하기 때문에 고객은 AI 진행을 위해 스토리지를 고민할 수밖에 없어진다”고 덧붙였다.

에이리 출시 후 퓨어스토리지는 성공적 AI 프로젝트를 위한 3가지 고려사항을 찾았다고 한다. 데이터 통합, 우수한 시스템 구축 역량, GPU 활용도 향상 등이다.

많은 기업이 전통적인 데이터웨어하우스(DW)와, 데이터레이크, 클라우드, AI 시스템 등 독립적인 데이터 저장소를 갖고 있다. 데이터레이크이 원래 모든 데이터 저장소를 통합하는 개념이다. 하지만, 실제로 단일 데이터 저장소를 구현한 곳은 극히 드물다고 로이 킴은 설명했다. 저장소마다 다른 시스템 요건을 갖고 있기 때문이란 것이다. DW는 정형데이터를 처리하는 스케일업 환경을, 데이터레이크는 비정형데이터를 처리하는 스케일아웃 환경을, 클라우드는 스트리밍 분석 환경을 AI는 대규모 병렬 시스템 구성을 원한다. 통합을 위해선 높은 성능, 확장성, 대규모 병렬처리 등의 복합적 요건을 다 충족해야 한다.

퓨어스토리지는 이를 충족하는 제품으로 ‘플래시 블레이드’를 강조한다. 높은 성능을 제공하면서 쉽게 확장가능하고, 데이터 종류에 관계 없이 대규모 병렬 처리를 수행할 수 있다고 한다.

AI 도입을 위해 많은 기업이 새로운 기술과 지식을 익혀야 한다. 개발자보다 데이터 과학자의 몸값이 높아졌다. 반면 AI에 맞춘 시스템을 갖추는데 여력과 시간을 투입하기 힘들어한다. 퓨어스토리지 에이리는 AI 시스템을 단시간에 구축하도록 돕는다.

바이두 AI 연구 결과, 1% 정확도 개선에 1천만배 데이터가 필요한 것으로 나타났다.

많은 투자를 통해 구축한 AI 시스템도 활용도에 한계를 갖는다. 100여명의 데이터 과학자를 보유한 미국 퓨어스토리지 고객인 ‘엘리먼트AI’는 수백개 GPU를 구축했지만, 20%밖에 활용하지 못했다. GPU가 데이터에 접근하는 구간에서 병목현상을 보였기 때문이다. 세계서 가장 빠른 슈퍼컴퓨터 ‘서밋’은 2만7천개의 GPU를 갖고 있지만, 모든 데이터세트에 접근하지 못해 낮은 GPU 활용도 문제를 겪었다.

로이 킴은 “스토리지가 데이터를 취합하는 과정에서 속도가 둔화되는 것”이라며 “고객사는 스토리지 내 데이터를 임의로 복사해서 수백개 SSD나 수천개 서버 디스크에 임시저장해두는 것으로 해결하려 했는데, 현실적으로 사람이 임의로 데이터를 서버나 신경망에 푸시하면 AI가 모든 데이터에 접근하기 어려워진다는 문제가 있다”고 말했다.

그는 “엘리먼트AI는 HPC 시스템과 데이터레이크를 플래시블레이드로 교체해 속도를 10배 개선하고, GPU 활용도를 100%로 끌어올렸다”며 “아무리 소프트웨어가 좋다해도 하드웨어로 받쳐주지 않으면 전체 성능의 20%밖에 쓸 수 없다는 걸 보여준 사례”라고 덧붙였다.

에이리는 엔비디아의 GPU 컴퓨터인 DGX를 탑재한다. 이 DGX의 구매 단가가 억대 가격이다. 올플래시 스토리지까지 구축할 가치가 있을까. 클라우드 서비스를 필요한 때 사용하는 게 더 저렴하지 않냐는 지적이 많다.

로이 킴은 “DGX1과 아마존웹서비스 EC2 인스턴스를 비교해보면, 3년 총 소유비용 측면에서 DGX가 15만달러, EC2 리저브인스턴스가 42만달러이며 온디맨드 인스턴스로 62만달러”라며 “CIO에게는 시스템 구매비용보다 데이터과학자 연봉이 더 골치아픈 문제이므로, 비용효과적으로 더 강력한 툴을 고임금의 데이터과학자에게 제공하는 게 더 저렴하다”고 설명했다.

관련기사

에이리는 출시 반년 만에 대규모 고객을 다수 확보했다. 페이지AI란 헬스케어 기업은 10페타바이트 규모의 에이리 환경을 구축했다. 한국을 포함한 국내외 자동차기업 다수가 에이리를 활용중이다. 금융사의 경우 큰 규모는 아니지만, 고객 이력정보를 다루는데 에이리를 도입했다.

그는 “작년올해 에이리는 여러 AI 컨퍼런스에서 혁신상을 휩쓸었다”며 “소프트웨어나 알고리즘을 다루는 행사에서 하드웨어면서 더구나 스토리지업체의 제품이 혁신상을 받았다는 건 그만큼 데이터 관리의 문제가 AI의 문제를 해결해준다는 걸 보여준다”고 강조했다.