클라우데라 "생성 AI를 제대로 구현하는 데이터 플랫폼”

다니엘 핸드 클라우데라 아시아태평양지역 최고기술책임자(CTO)

컴퓨팅입력 :2023/11/15 15:13

“생성형 인공지능(AI) 시대가 되면서 기업에서 차세대 데이터 플랫폼를 구축하기 위해 세가지를 요청한다. 엔터프라이즈 컨텍스트를 넣어 모델의 성능을 높이고, 독점 소스 모델 외에 오픈소스 모델에도 접근할 수 있어야 하며, 대규모언어모델(LLM) 배포를 온프레미스와 퍼블릭 클라우드를 하이브리드 형태로 유연하게 하는 것이다. 클라우데라 데이터 플랫폼은 기업의 이런 요구사항과 생성 AI 전략을 모두 충족할 수 있다.”

다니엘 핸드 클라우데라 아시아태평양지역 최고기술책임자(CTO)는 15일 시그니엘 서울에서  클라우데라코리아가 개최한 ‘이볼브 2023’ 컨퍼런스 기자간담회에서 이같이 밝혔다.

다니엘 핸드 CTO는 “생성 AI는 자연어 처리와 LLM을 통해 새롭게 데이터와 소통할 수 있는 인터페이스를 만들어줬다”며 “ETL로 데이터를 모아 정리하고 SQL로 분석하던 전통적 아키텍처와 달리 최신 AI 스택은 LLM에 자연어로 질문하고 임베딩 기술을 통해 기존 데이터 모델이나 ETL 계층을 없애는 형태가 됐다”고 설명했다.

다니엘 핸드 클라우데라 아태지역 CTO

그는 기업에서 생성 AI를 활용하면 생산성을 높이고, 효율성을 개선하며, 다양한 최적화를 이룰 수 있다고 했다. 연구개발(R&D)에서 생산성을 55% 향상시키고, 세일즈 및 마케팅에서 콘텐츠 생성부터 타깃 전달까지 속도를 10배 높일 수 있다고 예를 들었다. 어려운 법률 문서도 생성 AI로 요약하고 쉬운 언어로 변환할 수 있고, 인사관리도 최적화될 수 있다고도 했다.

그는 기업에서 생성 AI의 가치를 극대화하면서 안전하게 사용하고, 성과를 얻으려면 데이터레이크하우스 아키텍처를 활용해야 한다고 강조했다. 특정 퍼블릭 클라우드에 올인하거나 온프레미스에 사일로 형태로 분산된 데이터 아키텍처를 활용하면 가치를 제대로 누릴 수 없다는 것이다.

그는 “기업은 자신의 비즈니스 맥락에 맞는 정보를 활용해 언어모델의 성능을 높여야 한다”며 “전통적 머신러닝은 특정 훈련을 위한 데이터세트를 특수 목적의 AI 알고리즘에 넣고 수백수천개 특화 모델을 운영하는 반면, 생성 AI는 다양한 앱이 대형 모델을 공유하면서 튜닝이나 파인튜닝으로 접근하는 형태”라고 설명했다.

그는 “모든 앱을 지원하려면 데이터를 완전히 통합해 공유하는 것과 데이터를 튜닝하는 게 모두 필요해진다”며 ‘상용 모델과 오픈소스 모델을 유연하게 쓸 수 있어야 하고, 학습 및 추론 그리고 미세조정 등의 비용을 최적화하기 위해 퍼블릭 및 프라이빗 클라우드를 적절히 혼용해야 한다”고 강조했다.

클라우데라는 아파치 아이스버그를 주요 테이블 포맷으로 지정함으로써 개방형 데이터레이크하우스 전략을 취하고 있다. 그 데이터 플랫폼 위에 상용 언어모델과 오픈소스 언어모델(허깅페이스)을 올리고, 그 위에 여러 애플리케이션을 올리게 한다. 기업 소유 데이터를 통해 비즈니스 맥락을 LLM에 투입하는 RAG를 위해 파인콘과 협업하고 있으며, 여러 벡터 데이터베이스(DB)를 활용하게 하고 있다. 분산형 컴퓨팅 프레임워크인 레이(Ray)를 지원해 분산된 GPU 자원을 효율적으로 학습이나 추론에 사용하게 돕는다.

클라우데라는 AI용 장기 데이터를 제공하는 벡터 데이터베이스 기업인 파인콘과 전략적 파트너십을 지난 3일 발표했다. 향후 파인콘의 AI 벡터 데이터베이스를 클라우데라의 개방형 데이터 플랫폼에 통합해 AI의 환각 현상을 크게 줄이는 등 효율적 운영과 개선된 고객 경험을 제공할 방침이다.

관련기사

다니엘 핸드 CTO는 엔터프라이즈형 생성 AI를 빠르게 구축하고 사용하고자 하는 기업을 위해 클라우데라에서 사전에 제작한 템플릿을 활용하라고 조언했다. 클라우데라는 생성 AI나 전통적 머신러닝을 쉽게 만들 수 있는 기초 요소를 묶은 ‘어플라이드 머신러닝 프로토타입(AMP)’이란 서비스를 운영중이다. 최근까지 LLM의 지식증강을 위한 템플릿을 비롯해 생성 AI 특화 템플릿 5종을 추가했다. 현재 40여개의 AMP를 제공한다. 다니엘 핸드 CTO는 기자간담회에서 지식 증강 AMP를 시연했는데, 디플로이해서 실제 사용하기까지 15분도 걸리지 않는다고 강조했다.

최승철 클라우데라코리아 지사장은 “기존에 폐쇄적이거나 온프레미스에 올인하거나 특정 클라우드에 편협된 데이터 플랫폼은 빠르게 변화하는 시장에 능동적으로 대처하기 어렵게 한다”며 “클라우데라는 기업용 생성AI를 구축하는 데이터 플랫폼으로서 자리매김하기 위해 많은 투자를 하고 있다”고 말했다.