녹십자가 스노우플레이크를 선택한 이유

[인터뷰] 조예진 녹십자홀딩스 DX실 디지털플랫폼팀 프로

컴퓨팅입력 :2023/01/19 11:53

“녹십자그룹이 2030 디지털로의 전환이란 중장기적 목표를 세우게 되면서 데이터를 기반으로 사업전략을 구성하기 위한 데이터 플랫폼 구축이 필요했다. 클라우드서비스프로바이더(CSP)에 종속되지 않고, 초기 구축 부담도 없으며, 빠른 속도를 제공하는 스노우플레이크를 선택했다.”

조예진 녹십자홀딩스 DX실 디지털플랫폼팀 프로는 18일 본지와 인터뷰에서 지난해 진행한 데이터레이크 프로젝트에 대해 이같이 밝혔다.

녹십자는 다양한 헬스케어 비즈니스 포트폴리오를 갖고 있는 기업이다. 국내외 헬스케어 기업들이 앞다퉈 디지털 혁신에 나선 2020년부터 디지털 트랜스포메이션을 본격적으로 진행하고 있다.

조예진 녹십자홀딩스 디지털플랫폼팀 프로

그 일환으로 데이터에 기반한 의사결정을 위해 데이터레이크를 구축하기로 했다. 경영지표를 효과적으로 활용할 수 있는 시각화가 진행됐다. 검토를 거쳐 스노우플레이크 데이터 플랫폼과 마이크로스트래티지 비즈니스인텔리전스(BI)를 선정했고, 작년초 구축을 시작해 같은해 4분기 서비스를 오픈했다.

조예진 프로는 스노우플레이크를 선택한 이유를 방향성, 유연성, 효율성, 운영성 등 4가지로 설명했다.

그는 “방향성 측면에서 스노우플레이크는 SaaS형 솔루션이라 온프레미스보다 초기 구축 부담이 적고, 데이터레이크와 BI를 CSP 독립적으로 구축할 수 있었다”며 “유연성 측면에서 매일 새벽 배치 작업을 할 때 최소한의 사양으로 빠른 성능을 낼 수 있으며, 모든 기능을 SQL로 제어 할 수 있어 진입장벽이 낮고 적은 인원으로 구축할 수 있었다”고 말했다.

그는 “효율성 측면에선 소프트웨어적으로 클러스터링을 지원하고, 파일 기반 분산처리다보니 대용량도 빠르게 처리한다”며 “운영성에서도 다양한 레퍼런스를 참고하거나 커뮤니티와 스노우플레이크 지원을 받기 쉽고, 버퍼 역할을 하는 캐시가 아마존 S3다보니, S3의 장점을 그대로 활용해 대용량 캐시를 BI 연동하는데 유리하다”고 덧붙였다.

녹십자홀딩스의 현 데이터 플랫폼은 기본적으로 최소사양인 ‘엑스트라스몰’로 설정돼 있다. 아직 데이터 규모가 거대하지 않은 이유도 있지만, 최소 사양으로도 온프레미스 데이터웨어하우스 어플라이언스 최고급 사양의 성능을 내기 때문이다. 필요에 따라 성능을 높여야 할 경우 SQL로 간단히 스케일업/아웃을 해 대응함으로써 비용을 효율화하기 좋다.

현재 시스템은 경영지표 관련 원천 데이터베이스에서 파이썬으로 구성한 ETL로 데이터를 가져와 ODS에 적재한다. ODS에 일간 데이터 적재가 완료되면 내부에서 프로시저를 호출해 데이터마트로 정제해 적재하고, 최종 사용자가 데이터마트에 연결된 BI도구로 시각화해 이용하게 된다. 일련의 흐름은 아파치 에어플로우로 자동화된다. 스노우플레이크에서 지원하는 다양한 커넥터와 자체 개발한 요소를 이용해 애플리케이션 개발자와 데이터 과학자의 활용도도 높였다.

현재까지 만족도는 매우 높다고 한다. 녹십자홀딩스 경영진은 시각적으로 경영지표를 살펴볼 수 있게 됐고, 실무진은 수기로 하던 업무를 자동화할 수 있어 운영 부담을 덜었다. 데이터플랫폼팀도 인프라 프로비저닝과 운영에 신경쓰지 않고, 플랫폼 고도화에 더 집중하고 있다.

조예진 프로는 “스노우플레이크의 데이터 로딩 방식은 클라우드 스토리지에 파일을 적재하기 전에도 SQL 연산을 할 수 있기 때문에 사전에 정제한 데이터를 올릴 수 있다”며 “데이터 인터페이스도 유연하고, 인덱스 튜닝도 필요없어서 DBA의 부담도 줄었다”고 설명했다.

그는 “보안성 측면에서 스테이지 오브젝트를 생성할 때 클라우드 계정 간 신뢰관계로 파일을 주고 받는 롤(role) 방식을 사용함으로써 사용자별로 역할을 매핑하게 된다”며 “관리자부터 일반 사용자까지 모든 쿼리 기록이 남아서 보안 감시에도 용이하다”고 덧붙였다.

의료 분야 데이터는 기본적으로 민감하다. 개인정보를 담을 수 있기 때문이다. 경영지표와 관련된 데이터를 다루기에 녹십자홀딩스의 현 데이터 시스템은 대량의 개인정볼르 포함하진 않는다. 하지만, 스노우플레이크에서 제공하는 ‘다이내믹 데이터 마스킹’ 기능을 활용해 별도 솔루션 도입 없이 개인정보의 비식별처리를 하고 있다.

그는 스노우플레이크의 가장 큰 장점으로 스토리지 기능의 분리라고 꼽았다. 전통적인 DW는 컴퓨팅과 스토리지를 한몸으로 구성하므로 성능을 조정하기 힘들지만, 스노우플레이크는 스토리지를 분리함으로써 성능을 필요에 따라 쉽게 높이고 낮출 수 있다.

녹십자홀딩스는 향후 전사적인 데이터 플랫폼 활용을 계획하고 있다. 그는 “다양한 계열사 인터뷰를 진행해 니즈를 파악하고 그에 맞는 플랫폼을 구축할 계획”이라며 “플랫폼을 전사로 확산해 데이터 공유 기능을 갖춘 정보계 시스템을 구축할 것”이라고 말했다.

장기적으론 실시간 데이터 플랫폼 구축도 바라보고 있다. 현재 스노우플레이크에서 프라이빗 프리뷰로만 선보인 ‘하이브리드 테이블’ 기능을 활용하고, 효율적 스트리밍 데이터 파이프라인을 구축해 실시간으로 데이터를 활용하는 환경을 마련하고자 한다.

관련기사

조 프로는 “인덱스가 필요없다는 게 동전의 양면과 같아서, 속도는 빨라도 중복 적재의 문제가 있다”며 “프라이머리키(PK)를 설정하고 파이프라인 전후로 정합성을 체크해 중복 적재를 막고 있는데 하이브리드 테이블 기능이 나오면 이런 작업이 필요없게 된다”고 설명했다.

그는 “문제는 속도면의 검증인데 실제로 얼마나 빠른 속도를 낼 것인지 궁금하다”고 덧붙였다.