생성 AI 활용을 원하는 기업이 늘어나고 있지만, 기밀정보 유출이나 정보 오염 등의 이유로 직접 통제가능한 생성 AI 환경을 고민하는 상황이다. 이에 기존 데이터 플랫폼 기업들의 생성 AI 포섭이 경쟁적으로 이뤄지고 있다.
이처럼 기업에 자체 데이터 플랫폼을 공급하는 전문회사의 움직임은 대형 퍼블릭 클라우드 사업자의 움직임과 통한다. 아마존웹서비스(AWS)는 다양한 LLM을 활용해 기업 자체적인 생성 AI 환경을 쉽게 구축할 수 있는 '베드락'을 출시할 예정이다. 마이크로소프트는 오픈AI의 GPT 시리즈를 비록한 오픈소스 LLM을 활용해 기업 자체 생성 AI 도구를 개발할 수 있게 할 예정이다. 구글클라우드는 버텍스AI를 통해 PALM2 등 LLM을 다룰 수 있게 지원한다.
퍼블릭 클라우드 기업은 데이터 처리 인프라를 넘어 완성형 데이터 플랫폼 자체를 추구하고 있다. 세 업체 모두 자사의 클라우드 서비스 내에서 모든 LLM 구축과 운영이 가능하며, 모델 미세조정과 커스터마이징, 자체 정책 적용 등을 할 수 있다고 한다. 기업 내부 데이터의 클라우드로 이관도 추천한다.
이 시나리오가 대세를 이루면 데이터 전문업체의 설자리가 줄어들 수밖에 없다. 프라이빗 데이터 플랫폼으로 만족도 높은 생성 AI를 구축하도록 지원해 고객 유출을 방어한다는 전략이다.
스노우플레이크, 데이터브릭스, 클라우데라 등 주요 데이터 플랫폼 기업은 최근 대규모언어모델(LLM)을 기존 데이터 분석 솔루션에 통합하는 발표를 연이어 내놨다.
스노우플레이크는 지난달 개최한 연례 컨퍼런스 '스노우플레이크 서밋 2023'에서 생성 AI 관련 발표를 쏟아냈다.
스노우플레이크는 우선 엔비디아와 파트너십을 발표했다. 다양한 규모의 기업은 자체 보유한 데이터로 스노우플레이크 데이터 클라우드에서 커스터마이즈된 생성형 AI 애플리케이션을 더욱 빠르게 만들 수 있게 됐다.
스노우플레이크 엔터프라이즈 고객은 대규모 언어 모델(LLM) 개발용 엔비디아 네모(NeMo) 플랫폼과 엔비디아 GPU 가속 컴퓨팅을 사용해 기업 내부 데이터로 커스터마이즈한 LLM을 구성할 수 있게 된다. 이를 기반으로 기업은 고급 생성형 AI 앱 개발, 챗봇, 검색 및 요약 등을 개발할 수 있다. 이때 고객은 스노우플레이크의 단일 플랫폼 위에서 데이터 이동 없이 커스터마이즈 LLM을 사용하기 때문에 내부 보안 정책이 적용된 데이터를 그대로 활용할 수 있어 데이터가 완벽히 보호된다.
스노우플레이크는 데이터 클라우드에서 네모를 호스팅하고 실행할 계획이다. 고객은 챗봇 및 인텔리전스 검색과 같은 생성형 AI 애플리케이션에 사용되는 커스텀 LLM을 구축하고, 사용자 지정하고, 배포할 수 있다. 또한 네모 가드레일 소프트웨어를 사용하면 개발자는 자신의 애플리케이션이 비즈니스별 주제, 안전 및 보안 요구 사항을 충족하는지 확인할 수 있다.
이와 함께 지난해 9월 인수한 애플리카의 생성 AI 기술로 구축한 LLM ‘도큐먼트 AI’를 공개했다. 스노우플레이크의 도큐먼트 AI는 문서를 이해하고 비정형 데이터를 쉽고 빠르게 활용할 수 있도록 한다. 비정형 데이터를 지원하는 스노우플레이크의 빌트인 LLM인 ‘도큐먼트 AI’를 이용하면 자연어 처리를 통해 오류없이 문서에서 쉽게 인사이트를 추출할 수 있다.
조직은 스노우플레이크 플랫폼 내에서 멀티모달 LLM을 통합해 문서에서 필요로 하는 콘텐츠를 쉽게 추출하고 비주얼 인터페이스 및 자연어를 사용해 결과를 정교하게 조정할 수 있다. 고객들은 조직이 비즈니스를 더 스마트하게 운영하고 확장 가능한 방식으로 생산성을 높이기 위해 ‘도큐먼트 AI’를 사용하고 있다. ‘도큐먼트 AI’를 시작으로 스노우플레이크는 더 많은 유형의 비정형 데이터를 지원할 예정이다.
스노우플레이크는 또한 최근 마이크로소프트와 인공지능, 로우코드 노코드 앱 개발, 데이터 거버넌스 분야 협력을 강화했다. 스노우플레이크는 마이크로소프트와의 전략적 협업을 통해 데이터 사이언티스트와 개발자들이 스노우플레이크 데이터 클라우드와 마이크로소프트 애저 머신러닝(ML)을 통합하고, 애저 오픈AI 및 마이크로소프트 코그니티브 서비스도 활용하도록 지원한다.
최신 AI 혁신을 활용한 지능형 데이터 제품을 구축할 때 스노우플레이크 고객은 스노우플레이크 플랫폼의 데이터로 애저 오픈AI 및 마이크로소프트 코그니티브 서비스를 쉽고 안전하게 활용할 수 있게 된다.
스노우플레이크 고객은 데이터 거버넌스를 위한 퍼뷰, 로우코드 노코드 앱 개발을 위한 파워 앱스 및 오토메이트, ELT용 애저 데이터 팩토리, 데이터 시각화를 위한 파워BI 등 마이크로소프트 제품을 통합적으로 활용하면서 끊김없는 서비스를 경험할 수 있게 된다.
데이터브릭스는 AI 스타트업 모자이크ML을 13억달러에 인수했다. 모자이크ML은 창업 3년차 기업으로 데이터베이스 기술에 AI를 결합하는 것에 집중해왔다. 특히 거대하고 값비싼 대규모언어모델 대신 기업과 도메인에 특화된 더 작으면서도 정교한 생성 AI 모델을 개발하게 한다는 주장으로 주목받았다. 오픈AI의 GPT 같은 표준 버전의 AI 모델을 저렴하고 쉽게 사용할 수 있는 신경망 '컴포저'를 보유했다. 올해 유료로 신경망을 교육하고 사용자 쿼리에 대한 응답을 예측해 렌더링하는 추론을 수행하는 클라우드 서비스를 상용화했다.
데이터브릭스는 자사의 AI 지원 데이터 관리 기술과 모자이크ML의 언어모델 플랫폼을 결합하면, 기업이 자체 언어모델을 저렴하게 구축할 수 있게 된다고 설명했다.
데이터브릭스는 '레이크하우스IQ'를 공개 미리보기로 출시했다. 레이크하우스IQ는 최종 사용자와 개발자 모두를 위한 LLM 기능 모음이다. 분석 공급 업체가 추가한 데이터 검색 및 쿼리에 LLM 기반 자연어 인터페이스를 제공한다. 데이터브릭스는 레이크하우스IQ를 통해 고객의 스키마, 문서, 쿼리, 인기, 계보, 노트북 및 BI 대시보드를 사용해 더 많은 쿼리에 응답할 수 있다고 설명한다. 개발자는 레이크하우스IQ로 코드 완성, 생성, 설명, 수정, 디버깅, 보고서 생성 등을 수행할 수 있다.
데이터브릭스는 머신러닝 브랜드를 '레이크하우스 AI'로 변경하고, MPT-7B, 팰컨-7B, 스테이블디퓨전 등의 오픈소스 LLM모음에 접근하게 했다. 데이터브릭스 마켓플레이스에서 LLM을 사용할 수 있다.
데이터브릭스 마켓플레이스가 확장돼 '레이크하우스 앱'으로 출시됐다. 레이크하우스 앱은 사용자가 여러 혁신적인 신규 애플리케이션에 보다 안전하고 쉽게 액세스 하는 동시에, 데이터 및 AI 애플리케이션을 채택, 통합 및 관리하는 데 드는 시간과 노력을 최소화하도록 한다. AI 모델 공유를 통해 업계 최고 수준의 AI 모델에 자신의 데이터를 신속하고 안전하게 적용할 수 있다. 데이터브릭스는 명령어 추종 및 텍스트 요약과 같은 일반적인 사용사례 전반에 걸쳐서 오픈소스 모델을 선별 및 공개하고, 데이터브릭스 플랫폼에서 해당 모델의 튜닝 및 배포를 최적화하는 작업을 진행할 계획이다.
클라우데라는 기업에서 대규모 언어모델(LLM)을 안전하고 신뢰할 수 있게 활용하게 해주는 개방형 데이터 레이크하우스 전략을 10일 발표했다.
관련기사
- 클라우데라, LLM 위한 데이터 레이크하우스 발표2023.07.10
- 스노우플레이크, 문서 내 통찰력 도출하는 LLM 공개2023.06.28
- 스노우플레이크-엔비디아, 생성 AI 앱 개발 지원2023.06.27
- 데이터브릭스, AI 스타트업 '모자이크ML' 13억달러에 인수2023.06.27
클라우데라의 개방형 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 기능을 통합해 비즈니스 인텔리전스, AI, 머신러닝 솔루션을 구동한다. 이를 통해 기업은 모든 클라우드 환경에서 해당 솔루션을 사용할 수 있게 된다. 또한, 클라우데라는 프라이빗과 퍼블릭 클라우드 환경에서 데이터의 가치를 발견하고 이를 관리할 수 있게 지원한다.
클라우데라는 데이터를 외부 서비스와 공유하지 않고 올바른 컨텍스트에서 데이터에 대한 대화형 경험을 구축할 수 있도록 한다. 기업은 기업 내부에서 관리되는 오픈 소스 LLM으로 구동되는 자체 AI 애플리케이션을 구축할 수 있다.