SK브로드밴드의 클라우드 비용 최적화 비결은

[인터뷰] 이철행 SK브로드밴드 AI/DT 담당

컴퓨팅입력 :2022/11/04 15:04    수정: 2022/11/04 16:52

"하둡 기반의 온프레미스 데이터 플랫폼의 라이선스 이슈가 있었다. 클라우드로 전환해 5년 총소유비용(TCO)을 이전대비 동일 혹은 절감하는 걸 목표로 세웠다. 전사적 클라우드 거버넌스를 세우고, 클라우드 네이티브형 아키텍처를 구축해 비용효율화와 성능 향상을 추구했다. 현 상황에서 당초 목표를 달성했다고 판단한다."

이철행 SK브로드밴드 AI/DT 담당은 본지와 인터뷰에서 사내 빅데이터 분석 플랫폼의 아마존웹서비스(AWS) 클라우드로 전환한 프로젝트에 대해 이같이 설명했다.

SK브로드밴드는 사내에 240노드 규모의 하둡 기반 빅데이터 플랫폼을 수년간 운영했다. 그러던 2020년경 클라우드로 전환하기 위한 계획을 수립해 작년부터 올해 9월까지 클라우드 기반 데이터레이크 구축을 진행했다.

이철행 SK브로드밴드 AI/DT 담당

SK브로드밴드는 클라우드 전환의 목표로 다섯가지를 삼았다. 5년 TCO 절감, 클라우드 네이티브 아키텍처 도입, 온프레미스 대비 성능 30% 향상, 최신 기술 요소 역량 내재화, 업무 배치 수행 시간 단축 등이다.

본격적인 클라우드 전환을 위해 SK브로드밴드는 전사적 클라우드 거버넌스 체계 구축을 우선 고민했다. SK브로드밴드의 IT 담당조직인 AI/DT부문이 회사 내 기술부서들의 클라우드 활용을 중앙에서 관리함으로써 비용과 운영을 최적화하는 그림을 그렸다.

이를 위해 클라우드 랜딩존 구축에 'AWS 컨트롤타워' 서비스를 활용했다.

이철행 담당은 "클라우드 전환에서 전사적 거버넌스 체계 구축이 제일 중요했다"며 "RNR을 명확히 정하고, 그에 따라 작동하게 하는데 랜딩존을 활용하게 된다"고 설명했다.

그는 "클라우드 랜딩존을 통해 각 부서의 역할과 책임을 정의하고, 그에 따라 계정별로 권한을 부여하며, 사용량 모니터링과 빌링을 하게 된다"며 "회사 내 기술부서들의 클라우드 이용을 중앙에서 관리하지 않으면 전사적 관점에서 시너지를 내기 어렵고 최적화 문제도 생기므로 공통 기능에 해당되는 부분을 한곳에 모으고, 각 기술부서는 자신의 시스템에만 신경쓰게 한다"고 말했다.

SK브로드밴드의 경우 클라우드 전환 프로젝트를 강력한 리더십을 통해 진행했다. 이에 사내 시스템을 어느정도까지 클라우드로 전환할 것인가를 평가했다고 한다. 클라우드로 전환 가능한 시스템을 추리고, 5년의 전환 계획을 수립했다. 이철행 담당이 총괄하는 AI/DT 부문이 클라우드 리딩조직 역할을 하면서 각 현업부서를 위한 컨설턴트 역할도 한다. 거버넌스 수립은 그래서 필요했다.

이 담당은 "계정의 등급을 정하면 이후 세세하게 관리하지는 않지만, 사용량에 대한 모니터링을 하면서 지나치게 비용이 높거나, 갑자기 이용량이 폭증할 때 이슈를 확인하고 관리감독하고 있다"며 "모니터링을 더 고도화하기 위해 별도의 툴을 검토하고 있다"고 말했다.

SK브로드밴드는 국내 기업 중 하둡 기반 빅데이터 플랫폼을 매우 이른 시기에 도입해 앞서갔다. 하지만 라이선스 비용 증가 이슈가 등장해 비용 효율화 방안을 찾아야 했고, 클라우드 기반 데이터레이크 구축을 고민했다.

기존 시스템의 인프라를 물리 서버에서 클라우드의 가상서버로 옮기는 '리프트&시프트' 방식을 택하지 않았다. 전체적인 것을 클라우드 네이티브로 다시 구축하는 방향을 선택했다.

AWS의 빅데이터 연산 서비스인 아마존 EMR이 최종 낙점됐다. 스팟 인스턴스와 리저브드인스턴스, ARM 아키텍처인 AWS 그래비톤2 인스턴스 등 워크로드에 기반 환경 구성을 최적화함으로써 기본적인 비용 상승을 최소화했다.

그는 "리저브드 인스턴스의 할인과 여러 인스턴스를 각 워크로드의 CPU와 메모리 성능에 맞게 쓰면서 비용을 최적화한다"며 "클라우드의 옵션을 잘 활용하려면 자신의 워크로드를 잘 알아야 하기 때문에, SK브로드밴드는 MSP를 활용하지 않고 직접 운영하고 있다"고 강조했다.

그는 "처음에 아마존 EMR 사용에 따른 비용 부담을 우려했지만, 하이브를 스파크로 바꾸면서 성능을 대폭 높여 그만큼 비용을 줄이게 됐다"며 "그래비톤2 프로세서도 적용 가능한 곳에 가급적 다 쓰자고 해서 성능도 높이면서 비용도 줄였다"고 설명했다.

그는 "단순히 보면 클라우드가 비쌀 수 있는데, 자신의 업무를 잘 이해해 각자에 맞게 활용하면 절감할 요소는 충분히 있다"고 덧붙였다.

아파치 하이브로 구축했던 빅데이터 분석 환경은 아파치 스파크로 전환해 성능을 높이였는데, 하이브 대비 2.5~8배 향상됐다고 한다. 데이터는 오브젝트 스토리지인 아마존 S3에 저장하고, 카프카 서비스를 활용해 실시간 분석 아키텍처를 갖췄다.

이 담당은 "데이터 분석은 고객 분류, 콘텐츠 추천, 상품 개발, 사용량, 실적, 유통망 감시 등 다양한 용도로 활용돼 왔다"며 "클라우드 기반 데이터레이크 구축으로 기존의 데이터 분석가와 현업 고급 분석가에게 동일하게 제공했던 사용 환경을 구분하고 아마존 아테나를 현업 사용자에게 제공해 SQL 쿼리 분석을 쓸 수 있게 했다"고 설명했다.

이어 "또한, 전날의 데이터를 밤에 정리하는 배치 작업 형태로 분석을 했는데 AWS MSK를 활용해 카프카 기반의 실시간 분석 아키텍처도 갖췄다"며 "카프카가 이벤트 프로세싱에 적합한 기술인데 일단 자체적인 기술력을 개발하고 현업 사용자의 실시간 분석 수요를 판단하면서 점차 발전시켜갈 계획"이라고 밝혔다.

9월 중순부터 SK브로드밴드의 데이터레이크가 가동됐지만, 클라우드로 완전히 전환된 건 지난달부터다. 현업 부서에서 큰 문제는 없었다고 한다.

SK브로드밴드는 전체 직원을 대상으로 데이터 교육을 하고 있다. 2017년부터 5년째다. 교육 대상을 세 그룹으로 나눴다. 처음 데이터를 다루는 경우 '시티즌 데이터 사이언티스트', SQL 쿼리를 다룰 수 있는 경우 '데이터 인플루언서', 파이썬 프로그래밍을 할 수 있는 경우 '데이터 스페셜리스트' 등으로 나뉜다. 각 그룹에 따라 수준별 교육을 실시한다. 일찍부터 현업의 데이터 활용 역량을 높여온 만큼 클라우드 전환의 변화관리가 수월했다고 한다.

관련기사

현 상황에서 당초 기대 목표는 얼마나 달성됐다고 보고 있는지 물었다. 이 담당은 "TCO 절감은 충분히 달성할 것으로 보고 있고, 성능도 기대 이상의 향상 성과를 거뒀다"고 말했다.

그는 "클라우드 전환은 리더가 처음부터 자신감과 확신을 갖고 밀어붙여야 한다고 생각한다"며 "2026년까지 클라우드로 시스템을 전환하면서 최적화된 선택을 하려 계속 공부하는 자세로 갈 것"이라고 강조했다.