오라클 마이SQL, ETL 없이 머신러닝 돌린다

오라클 마이SQL에서 데이터 이동 없이 머신러닝(ML)을 다룰 수 있게 됐다. 현업 시스템과 AI용 시스템에서 두벌의 DB를 운영하는 부담을 없애고, 성능 향상도 기대할 수 있다.

오라클은 오라클클라우드인프라스트럭처(OCI)의 오라클 마이SQL 히트웨이브 내에 ML 기능을 추가했다고 5일 밝혔다.

니푼 아가르왈 오라클 연구 및 고급개발 부문 수석부사장은 이날 한국기자 대상 온라인 간담회에서 “마이SQL 히트웨이브는 오라클에서 가장 빠른 성장세를 자랑하는 클라우드 서비스이며, 아마존웹서비스나 기타 클라우드 데이터베이스 서비스를 사용하던 고객이 마이SQL 히트웨이브로 이전하는 사례가 증가하고 있다”며 “단일 데이터베이스에서 OLTP, OLAP, ML 등을 동시에 수행하면서 가장 많은 기능, 높은 속도, 저렴한 비용을 별도 수정도 없이 이용할 수 있다”고 설명했다.

오라클 마이SQL 히트웨이브는 OCI 상에서 마이SQL 데이터베이스 서비스를 지원하는 인메모리 쿼리 가속기다. 이로써 오라클 마이SQL 히트웨이브는 기존 트랜잭션 프로세싱과 분석 업무 에 머신러닝 작업도 동시에 수행하는 다목적 데이터베이스로 변모했다.

마이SQL 히트웨이브 ML은 머신러닝의 수명 주기를 완전 자동화하고 학습된 모델 모두를 마이SQL 내에 저장해, 외부의 머신러닝 도구나 서비스로 데이터와 모델을 이동하지 않아도 된다. 추출, 변환 및 적재(ETL) 절차가 필요없게 되고, 애플리케이션 복잡성과 비용이 감소한다. 머신러닝 모델과 데이터의 보안성도 개선됐다.

히트웨이브 ML 기능은 전 세계 37개의 모든 오라클 클라우드 인프라스트럭처(OCI) 리전에서 마이SQL 히트웨이브 데이터베이스 클라우드 서비스에 포함돼 제공된다.

마이SQL 애플리케이션에 머신러닝 기능을 추가하는 일은 아직까지도 많은 개발자들이 오랜 시간을 소모하는 고난이도의 작업이다.

이를 위해 먼저 데이터베이스에서 자료를 추출해 다른 시스템에 옮긴 후 머신러닝 모델을 만들고 구축하는 과정을 거쳐야 한다. 이러한 접근 방식은 애플리케이션 데이터가 머신러닝에 적용되는 과정에서 다수의 데이터 사일로 현상을 야기하고, 데이터 이동으로 인해 지연 시간을 발생시킨다. 급증하는 데이터는 데이터베이스의 보안 취약점을 드러내고, 개발자의 프로그램 작성 복잡성을 높인다. 기존 서비스를 고려해 머신러닝 모델을 학습시키는 과정에 개발자의 전문적인 지식이 필요하다. 이를 만족하지 못할 경우 최적화된 모델을 보장할 수 없고, 예측의 정확성은 감소한다.

완전 자동화된 히트웨이브 ML의 모델 학습 프로세스는 주어진 데이터 세트에서 지정된 작업에 최적화된 특징(feature)과 초매개변수(hyper-parameter), 알고리즘을 갖춘 모델을 생성한다.,

히트웨이브 ML에서 생성한 모든 모델과 예측 결과에는 설명도 함께 제공된다. 예를 들어, 은행에서는 고객의 대출이 거부된 경우, 모델이 어떠한 매개변수를 고려했는지, 모델에 편향된 부분이 존재하는지를 확인할 수 있어야 한다. 예측의 설명가능성(explainability)은 머신러닝 모델이 특정 결과를 예측한 이유를 알려주는 기술이다. 오늘날 머신러닝 모델을 기반으로 내린 결정에 대한 기업의 설명이 필수화되면서 예측 설명의 중요성이 커지고 있다.

히트웨이브 ML은 모델 학습 과정의 일부로서 모델 설명과 예측 설명을 통합한다. 따라서 히트웨이브 ML에서 생성된 모든 모델은 모델뿐 아니라 추론 설명을 함께 제공하고, 이 덕분에 추론 설명을 위해 데이터를 학습하는 시간이 별도로 필요하지 않다. 오라클은 기존의 설명 기술을 강화하여 성능과 해석능력, 품질을 개선했다.

오라클 마이SQL 히트웨이브 ML과 아마존 레드시프트, 스노우플레이크, 구글 빅쿼리, 애저 시냅스 벤치마크 비교(자료:오라클)

오라클은 뉴머라이, 노마오, 은행권 마케팅 등의 데이터 세트를 비롯해 분류 및 회귀 분석 작업을 위해 일반에 공개된 다양한 머신러닝 데이터의 벤치마크 결과를 공개했다. 가장 작은 클러스터로 구성된 머신러닝 모델의 경우, 히트웨이브 ML은 아마존 레드시프트 ML 대비 평균 1%의 비용으로 25배 빠른 학습이 가능하다.

니푼 아가르왈 수석부사장은 "10테라바이트(TB) 데이터규모의 TPCDS 벤치마크에서 히트웨이브 ML이 아마존 레드시프트의 4.8배, 스노우플레이크의 14.4배, 구글 빅쿼리와 애저 시냅스의 12.9배 더 빠른 성능을 보였다"며 "뿐만 아니라 히트웨이브 ML은 노드수가 증가할수록 더 빠른 성능을 보여준다"고 강조했다.

더 큰 규모의 히트웨이브 클러스터에서 학습할 경우, 레드시프트 ML 대비 성능 향상폭은 더욱 증가한다. 마이SQL 히트웨이브 이용자는 기존에 많은 시간을 들였던 훈련을 빠른 시간 안에 효율적으로 완료하고, 주기적인 모델 재학습을 통해 잦은 데이터 변경 사항도 반영할 수 있다. 이는 모델을 최신 상태로 유지할 뿐 아니라 예측의 정확성 또한 향상시킨다.

히트웨이브 ML은 모델을 생성하는 모든 개별 단계가 완전히 자동화해 개발자의 개입이 필요 없다. 이는 별도의 수작업 없이도 완료되는 훈련 프로세스와 더욱 정확한 결과를 얻을 수 있도록 잘 훈련된 모델로 이어진다. 아마존 레드시프트와 같은 여타 클라우드 데이터베이스 서비스의 경우 데이터베이스 서비스에 머신러닝 통합 기능이 포함되지 않으며 머신러닝 학습 과정에서 개발자의 광범위한 수작업이 필요하다

히트웨이브 ML은 초매개변수를 조정하기 위해 경사탐색(gradient search-based) 기반의 새로운 환산 알고리즘을 구현한다. 이는 모델의 정확도를 훼손하지 않으면서도 초매개변수의 병렬 탐색이 가능하다. 머신러닝 모델 훈련에서 가장 많은 시간이 소요되는 초매개변수 조정 단계에 히트웨이브 ML의 이 독보적인 기능을 사용할 경우 다른 클라우드 서비스 대비 머신러닝 모델 구축 성능의 강점이 더욱 잘 드러난다.

히트웨이브 ML은 복합적인 모델 전체의 특징들을 보여주는 단순한 모델인 ‘프록시 모델’ 개념을 사용해 학습을 위한 최적의 머신러닝 알고리즘을 결정한다. 간단한 프록시 모델을 이용해 정확도의 손실 없이 알고리즘을 효율적으로 선택할 수 있다.

지능형 데이터 샘플링을 통해 히트웨이브 ML은 모델 훈련 과정에서 적은 비율의 데이터를 샘플링해 성능을 향상시킨다. 이러한 방식은 데이터 세트에서 대표적인 데이터 지점을 모두 수집할 수 있다.

특징 선택은 머신러닝에서 학습하고자 하는 데이터의 특징을 선택할 때 도움을 주며 이는 예측을 생성하는 머신러닝 모델의 행동에 영향을 미친다. 해당 기능을 위해 히트웨이브 ML에서 사용된 기술은 다양한 분야와 애플리케이션에서 광범위한 데이터를 대상으로 훈련됐다. 히트웨이브 ML은 이렇게 수집된 통계와 메타정보에서 새로운 데이터 세트에서도 관련 특징을 효율적으로 판별할 수 있다.

기존 OCI의 히트웨이브 이용자는 새로 추가된 ML 기능을 무료로 이용할 수 있다.