마이SQL의 활용 범위가 계속 넓어지고 있다. 오라클이 마이SQL 히트웨이브를 통해 벡터스토어, 데이터베이스 내 머신러닝, 오토파일럿, 자바스크립트, 레이크하우스 등의 기능을 제공하면서다. 전통의 오픈소스 관계형 데이터베이스가 생성 AI 백엔드 시스템으로 진화하고 있다.
오라클은 지난달 26일 미국 라스베이거스에서 열린 오라클클라우드월드(OCW) 2023 컨퍼런스에서 ‘마이SQL 히트웨이브’ 대규모 업데이트를 발표했다.
마이SQL 히트웨이브는 단일 데이터베이스 서비스를 통해 트랜잭션 처리, 실시간 분석 기술, 머신러닝, 데이터 레이크 쿼리, 머신러닝 기반 자동화 등의 기능을 모두 이용할 수 있는 클라우드 서비스다. 오라클의 분산형 클라우드 전략의 핵심으로써 OCI뿐 아니라 아마존웹서비스(AWS) 에서 이용 가능하며, 애저용 오라클 데이터베이스 서비스의 일환으로도 이용할 수 있다. OCI 전용 리전을 사용 중인 고객의 데이터센터에서도 이용 가능하다.
신규 업데이트는 벡터 스토어 지원, 생성형 AI, 신규 데이터베이스 내 머신러닝 기능, 마이SQL 오토파일럿 개선, 새로운 히트웨이브 레이크하우스 기능, 자바스크립트 지원, JSON 쿼리 가속, 신규 분석 연산자 지원 등을 포함한다.
비공개 프리뷰 버전으로 제공되는 벡터 스토어가 가장 눈에 띄는 대목이다. 이 기능을 통해 마이SQL 에 저장된 데이터에 대규모언어모델(LLM)을 적용할 수 있다. 챗GPT 같은 대화형 AI는 공개 데이터만 학습하기 때문에 데이터 최신성과 전문성이 부족하다. 마이SQL 벡터스토어를 이용하면 기업이나 조직 내 비즈니스 데이터를 생성형 AI 애플리케이션에 제공해 더 정확한 답변을 받을 수 있다.
이뿐 아니라 사용자는 생성형 AI 및 벡터 스토어 기능을 통해 마이SQL 히트웨이브와 자연어로 상호 작용하고, 히트웨이브 레이크하우스에 저장된 다양한 파일 형식의 문서를 효율적으로 검색할 수 있다.
벡터 저장소는 PDF를 비롯한 다양한 포맷의 문서를 수집하고, 인코더 모델을 통해 생성된 임베딩 형식으로 저장한다. 사용자 쿼리가 입력되면 벡터 저장소는 저장된 임베딩과 임베딩된 쿼리에 대한 유사성 검색을 수행해 가장 유사한 문서를 식별한다. 식별한 문서로 LLM에 입력된 프롬프트를 보강함으로써 추후 질문자의 의도에 더욱 부합하는 답변을 제공한다.
다양한 데이터 유형 및 소스를 대상으로 분석, 트랜잭션 처리, 머신러닝, 생성형 AI 관련 작업들을 수행하는 고객사를 지원하기 위해 다양한 마이SQL 호환 워크로드 및 비 마이SQL 워크로드를 위한 기능도 마이SQL 히트웨이브에 추가됐다.
마이SQL 히트웨이브는 완전히 자동화된 모델 학습용 파이프라인을 갖춘 데이터베이스 내 머신러닝 기능을 제공한다. 별도의 머신러닝 서비스로 데이터를 이동할 필요 없이 마이SQL 히트웨이브에 저장된 데이터를 사용해 머신러닝 학습, 추론, 설명을 쉽고 안전하게 진행할 수 있다
히트웨이브 오토ML은 마이SQL 데이터베이스에 저장된 데이터와 더불어 객체 스토리지에 저장된 데이터를 바탕으로 학습, 추론, 설명 작업을 수행한다. 이는 훨씬 더 광범위한 데이터를 머신러닝에 사용할 수 있게 한다.
텍스트 열 단위로 이상 징후 탐지, 예측, 분류, 회귀, 추천 시스템과 같은 머신러닝 작업을 수행할 수 있도록 지원함으로써 고객사가 히트웨이브 오토ML을 적용할 수 있는 데이터 코퍼스의 범위가 더욱 넓어졌다.
히트웨이브 오토ML용 베이지안 개인화 순위(BPR) 지원이 추가돼 암시적 피드백(과거 구매, 브라우징 행동) 및 명시적 피드백(평점, 좋아요)을 모두 고려해 개인화된 추천을 생성할 수 있다. 예를 들어, 데이터 분석가는 이제 해당 추천 시스템을 활용해 특정 사용자가 좋아할 만한 품목, 특정 품목을 좋아할 만한 사용자, 각 품목이 받게 될 등급 등을 미리 예측할 수 있다.
히트웨이브 오토ML을 사용해 모델 학습의 진행 상황을 모니터링함으로써 보다 효율적으로 리소스를 관리할 수 있다.
마이SQL 오토파일럿은 머신러닝 기반 자동화 기술을 사용해 데이터베이스 튜닝에 대한 전문 지식 없이 데이터베이스 성능 및 확장성을 개선할 수 있는 기능이다. 쿼리 실행 때마다 학습해 다음 쿼리 실행 계획을 개선한다.
새로운 마이SQL 오토파일럿 인덱싱 기능은 워크로드 증가로 많은 시간을 소요하게 되는 OLTP 워크로드에 대한 최적의 인덱스 생성 및 유지 관리 작업의 필요성을 제거한다. 마이SQL 오토파일럿은 머신러닝을 통해 개별 애플리케이션 워크로드에 대한 예측을 수행하고 고객이 테이블에서 생성 또는 삭제해야 하는 인덱스를 자동으로 결정함으로써 OLTP 처리량을 최적화한다. 오토파일럿 인덱싱은 인덱스를 실제로 생성하거나, 사용자의 테넌시에서 컴퓨트 또는 스토리지 오버헤드를 발생시키지 않고도 해당 기능이 추천한 인덱스를 실제로 적용했을 시 기대되는 기능 향상 수준을 사전에 예측할 수 있다.
자동 압축은 각 열에 대한 최적의 압축 알고리즘을 결정할 수 있도록 지원한다. 더 빠른 데이터 압축 및 압축 해제를 통해 로드 및 쿼리 성능 향상에 기여한다. 메모리 사용량을 줄임으로써 최대 25%의 비용을 절감할 수 있다.
적응형 쿼리 실행은 쿼리 실행 시작 후 고객의 쿼리 실행 계획 최적화를 지원해 임시 쿼리 성능을 최대 25% 향상시킨다. 쿼리의 부분 실행에서 얻은 정보를 사용해 데이터 구조 및 시스템 리소스를 조정하고, 이후 런타임 시 실제 데이터 배포를 기반으로 각 히트웨이브 노드에 대한 쿼리 실행을 독립적으로 최적화한다.
자동 로드 및 언로드 기능으로 오토파일럿은 애플리케이션 워크로드에서 사용 중인 열을 히트웨이브에 자동으로 로드하고, 쿼리된 적이 없거나 거의 없는 테이블은 자동으로 언로드한다. 고객은 이 기능을 통해 인적 개입 없이 자동으로 로드 및 언로드 작업을 수행해 메모리를 확보하고 비용을 절감할 수 있다.
마이SQL 히트웨이브는 데이터베이스에서 자바스크립트를 지원하게 된다. 자바스크립트에서 스토어드 프로시저와 함수를 작성하고 마이SQL 히트웨이브에서 실행할 수 있도록 지원한다. 이를 통해 개발자는 풍부한 애플리케이션 로직을 자바스크립트로 보다 간단하게 작성하고, 마이SQL 데이터베이스 안에서 프로그램을 실행해 높은 성능을 확보할 수 있다. 데이터가 데이터베이스에서 클라이언트로 전송되지 않고, 코드가 그랄VM 런타임에서 적시에 컴파일되므로 자바스크립트 애플리케이션의 성능을 향상시킬 수 있다.
JSON 가속을 통해 개발자와 DBA는 마이SQL 데이터베이스에 저장된 JSON 문서의 실시간 분석에 히트웨이브를 활용해 쿼리 속도를 대폭 향상시킬 수 있다. 큐브(CUBE), 하이퍼 로그, 퀄리파이, 테이블 샘플 등의 신규 분석 연산자 지원이 추가돼 더 많은 고객사 워크로드를 마이SQL 히트웨이브로 마이그레이션할 수 있다.
마이SQL 히트웨이브로의 대량 수집 기능을 통해 CSV 파일에서 데이터를 대량으로 로드하는 동안 인덱스 하위 트리를 병렬 구축할 수 있게 된다. 아마존 오로라 대비 10배 향상된 데이터 수집 성능을 활용할 수 있도록 지원한다고 회사측은 강조했다. 데이터를 더 빨리 쿼리하고, 데이터 로딩에 사용되던 시스템 리소스를 훨씬 더 빠르게 재확보할 수 있어 고객의 비용도 절감된다.
관련기사
- 오라클DB 23c 정식 출시…‘AI 벡터 검색’ 도입2023.09.22
- "생성 AI 시대, 관계형 DB가 견고한 기반될 것"2023.09.22
- 오라클, 클라우드 개방의 선두에 서다2023.09.21
- 마이크로소프트 애저에서 오라클 엑사데이터 쓸 수 있다2023.09.15
오라클의 에드워드 스크리븐 최고기업아키텍트는 "마이SQL 히트웨이브의 새로운 기능은 시급한 고객 데이터, 분석, AI 관련 문제들을 해결하기 위한 오라클의 여정에 새겨질 또 하나의 중요한 이정표"라며 "오라클은 지금까지 업계 최고의 가성비를 갖춘 실시간 데이터 분석, 자동화된 머신러닝, 레이크하우스, 멀티클라우드 등의 기능들을 히트웨이브에 추가해 왔다”고 강조했다.
그는 “새롭게 추가되는 벡터 스토어 및 생성형 AI 기능은 고객사가 LLM 모델을 활용해 보유 데이터와 상호 작용하고, 비즈니스에 필요한 정확한 답변을 도출할 수 있는 직관적 방법을 제공한다”고 덧붙였다.