“데이터 분석 플랫폼을 더 많은 사람이 활용할 수 있게 해서, 데이터의 가치를 더 많이 누릴 수 있기를 바랍니다.”
LG화학 DX담당 AI추진팀의 김낙회 책임은 5일 본지와 인터뷰에서 이같이 밝혔다. 김낙회 책임은 스노우플레이크코리아가 5일 그랜드 인터컨티넨탈 서울 파르나스에서 개최한 ‘데이터클라우드 월드투어’에서 ‘CDS 플랫폼을 만들기 위한 여정과 함께한 스노우플레이크’라는 주제로 고객 사례 발표 세션을 진행했다.
‘지속가능성을 선도하는 과학기업’을 표방하는 LG화학은 디지털전환(DX) 기술을 미래 핵심 경쟁력으로 삼고, DX 관련 과제와 인공지능(AI) 및 머신러닝을 모든 임직원이 수행하게 한다는 목표를 세웠다. 그에 따라 데이터 분석 관련 전문역량 없이 초보적 수준으로 각종 데이터에서 가치를 탐색하고 AI 시스템을 개발할 수 있도록 ‘시티즌데이터사이언티스트(CDS) 분석 플랫폼’을 만들었다.
김낙회 책임은 사내 데이터를 모아 분석가능한 데이터세트로 만들고, CDS 분석 플랫폼을 개발 및 운영하는 데이터 엔지니어링 업무를 맡고 있다.
LG화학 CDS 분석 플랫폼은 노코드를 지향한다. 데이터 분석을 직접 하고 싶지만 컴퓨터 언어를 모르는 현업부서 구성원을 수용하기 위해서다. 데이터 사이언티스트가 회사의 모든 전문지식을 알지 못하므로, 자신의 분야의 전문가인 현업 담당자가 타인에게 의존하지 않고 전문성 기반의 분석을 하게 만드는 것이다.
김낙회 책임은 “CDS 분석 플랫폼은 전문적인 데이터 사이언티스트 외에 현업 라인의 엔지니어나 인사담당자 등이 직접 데이터를 분석하고자 하는 요구에 대응하기 위해서 만들어졌다”며 “그들은 데이터를 찾거나 분석용 프로그래밍 언어를 배워야 하는 등의 여러 어려움을 갖고 있어서, 모두가 분석하고 AI/ML과 DX 과제를 할 수 있는 플랫폼을 만들고자 했다”고 설명했다.
그는 “회사 내에서 데이터 분석 역량을 초급, 중급, 고급으로 나누는데 초급의 경우 AI나 머신러닝을 전혀 모르지만 약간의 데이터 교육을 통해 지식을 가지면 CDS 플랫폼에 자신의 데이터를 올려 분석할 수 있다”며 “기존 데이터웨어하우스(DW)는 사내 데이터를 모아두는 저장소 개념이라면, CDS 분석 플랫폼은 데이터 저장을 스노우플레이크에 하고, 데이터이쿠로 분석하는데 파이썬 같은 코딩을 몰라도 UI 기반으로 데이터 조인 같은 작업을 할 수 있다”고 말했다.
CDS 분석 플랫폼의 주요 요소는 스노우플레이크와 데이터이쿠로 만들어졌다. 제조시설의 현장 데이터를 입수해 스노우플레이크에 담고, 데이터이쿠는 분석 환경 역할을 한다. 사용자가 데이터이쿠에서 분석 업무를 수행하면, 스노우플레이크에서 데이터 이동이나 복제 없이 제자리에서 연산해 결과값을 데이터이쿠에 노출해준다.
CDS 분석 플랫폼의 주요 활용 사례는 품질 예측이다. 각 공장의 실시간 데이터를 분석해 품질을 예측하는 과제로 MES, PIS, QMS 같은 곳의 데이터를 수집해 분석가능한 데이터 형식으로 만든다. 최종사용자는 데이터이쿠에서 원하는 데이터파이프라인을 직접 구성할 수 있다. 데이터의 유형과 사용자 요건에 따라 다르지만, 공정 데이터는 1분이나 30초 마다 수집하는 준실시간성을 유지하고 있다.
김 책임은 “클라우드에 있는 데이터레이크에서 배치 형식으로 데이터를 갖고 오거나, 실시간성 데이터는 실제 DB에서 가져오고, 가져온 데이터는 스노우플레이크에 저장된다”며 “그 데이터를 데이터이쿠 상에서 이런저런 필요한 테이블을 찾아 조인, 피봇, ETL 등의 파이프라인을 만들어 최종적으로 분석가나 사용자가 쓸 수 있는 ‘L1 데이터’를 데이터이쿠의 피처스토어에 등록한다”고 아키텍처를 설명했다.
그는 “사용자는 피처스토어에서 찾아 쓰게 되는 구조”라며 “자신의 엑셀 파일을 올려서 분석할 수 있다”고 덧붙였다.
그는 데이터이쿠를 먼저 선정한 뒤 스노우플레이크 도입을 결정했다고 밝혔다. 데이터이쿠의 여러 메뉴에서 스노우플레이크 커넥터를 제공하고 쿼리 가속 서비스 옵션 같은 기능도 많았다고 했다.
그는 “특히 데이터이쿠 상에서 처리해야할 작업을 스노우플레이크가 대신 처리해서 결과만 받는 푸시다운 기능이 좋아서 거의 모든 데이터를 스노우플레이크에 저장해서 쓰려고 하고 있다”며 “스노우플레이크는 SaaS 계정을 만들고 나면 연결하기 어렵지 않았고, 특정 기능의 경우 참조할 한글화된 문서도 풍부해 쉽게 도입했다”고 말했다.
현재 CDS 분석 플랫폼은 가오픈 상태다. 이달중 정식 오픈을 목표로 두고, 일부 신청자나 DX 담당 조직 내에서 실험적으로 활용하고 있다. 짧은 기간이었지만 실제 사용자의 경험 상 빠른 속도와 편의성에서 좋은 반응을 받고 있다고 한다. 데이터이쿠에서 AI/ML API를 제공하고, 챗GPT도 API로 쉽게 연결할 수 있어서 활용을 검토중이다.
그는 향후 스노우플레이크에서 기대하는 점 중 하나로 ‘스노우파크’를 꼽았다.
관련기사
- 스노우플레이크, ‘데이터클라우드 월드투어 2023’ 개최2023.09.05
- 스노우플레이크가 DW에서 AI로 나아가는 방법2023.09.04
- 데이터 플랫폼 기업, LLM 껴안기로 분주2023.07.11
- 스노우플레이크-엔비디아, 생성 AI 앱 개발 지원2023.06.27
그는 “파이썬 코드를 돌리려면 데이터이쿠에서 클러스털르 띄워야 하는데, 아무래도 자원을 생성해야 하고 데이터도 스노우플레이크에서 가져와서 써야 해서 인프라 비용이 든다”며 “스노우파크는 데이터를 그자리에 두고 스노우플레이크에서 돌릴 수 있기 때문에 속도나 비용에서 이득을 볼 것으로 기대하며, 스노우파크 컨테이너 서비스도 기대된다”고 말했다.
그는 “스노우플레이크는 고객의 원하는 바를 충실히 듣고 길을 만들어주려고 노력한다는 것을 느꼈다”며 “미래 기술로 LLM 회사를 인수하고, 엔비디아와도 협업하는 등 미래가 기대되는 회사라고 생각한다”고 덧붙였다.