하둡이 SAS의 분석분야 왕좌를 흔들고 있다. SAS는 오픈소스 R 엔진의 위협을 잘 넘기는 듯 했지만, BI와 하둡 진영의 연합이 더 강하게 압박해 들어왔다.
SAS는 분석엔진과 다양한 알고리즘을 통해 SPSS와 함께 데이터 분석 분야의 강자로 군림해왔다. 데이터웨어하우스(DW)뿐 아니라 광범위한 데이터 플랫폼 상단에서 분석을 수행하게 해준다는 점에서 각광받으며 세계 시장점유율 35%를 차지한다.
SAS 역시 상용 솔루션이란 특징 탓에 오픈소스 진영의 끊임없는 도전을 받아왔다. 빅데이터란 화두가 떠오르고, 데이터 중심의 비즈니스가 시대의 흐름으로 자리잡으며 더 성장할 것처럼 보였던 SAS는 R과 하둡이란 도전에 직면했다.
■오픈소스 R 대두, 끌어안기로 대응
SAS는 2년 전부터 불어닥친 오픈소스 R의 도전을 받았다. 고가의 상용솔루션인 SAS 대신 오픈소스로 다양한 분석을 할 수 있다는 점이 R의 강점으로 꼽혔다. R은 단순한 분석도구를 넘어 SAS의 근간인 분석엔진이란 점에서 강력한 위협으로 부상했다.
그에 국내외 다수 기업들이 오픈소스 R을 활용한 분석 환경 구축을 검토했다. 여기에 오라클이 빅데이터 분석을 위해 오픈소스R을 적극 끌어안으며, SAS의 입지가 좁아지는 듯 했다.
기업은 범용의 SAS 알고리즘보다 자신들의 입맛에 딱 맞는 알고리즘을 갖고 싶어했다. 동시에 데이터 분석에 대한 독자적 역량을 강화해 더 유연하게 변화에 대응하고자 했다.
이에 SAS는 역으로 R을 품어내는 전략을 보였다. SAS는 R 언어를 SAS엔진에서 사용할 수 있도록 기술의 표용력을 넓혀갔다. 대표적으로 기업내 여러 데이터분석모델을 관리하는 'SAS 모델매니저'가 R을 지원한다.
SAS는 이와 함께 오픈소스인 R의 태생적 한계를 파고 들었다. 오픈소스는 누구도 대신 책임져주지 않는다는 부분이다. SAS는 R에 대해 기술적 성숙도가 떨어지고, 관련 전문가 부족으로 인한 불편함을 지적했다.
R의 위협에 대한 SAS의 대응은 어느정도 성공한 듯 보였다. 생각보다 기업들의 R 채택은 많지 않았던 것이다.
■하둡과 빅데이터 ROI가 발목잡다
그러나, SAS가 직면한 위협은 오픈소스 데이터 플랫폼 ‘하둡’에서 떠올랐다. 하둡은 저렴한 비용으로 대량의 데이터를 수집, 저장, 처리 할 수 있게 해준다는 점에서 데이터 분석이란 시장을 더욱 넓혔다. 이런 하둡의 등장은 SAS의 시장을 넓히는 호재로 작용하는 듯 보였다.
SAS는 당연히 하둡도 데이터 플랫폼 인프라로 받아들였다. 하둡 내 저장된 데이터를 끌어와 SAS 알고리즘으로 분석하게 하는 방식이었다. SAS 하이퍼포먼스애널리틱스(HPA)는 하둡분산파일시스템(HDFS)의 데이터를 메모리로 끌어오는 방식으로, SAS 비주얼애널리틱스(VA)는 하이브 데이터에 접속해 분석하는 방식을 사용한다.
그런데 오픈소스 하둡이 발전하면서 SAS의 노림수는 함정에 빠지고 말았다. 하둡을 사용하면 상용 솔루션을 사용하지 않고도 분석을 할 수 있다는 믿음이 퍼져나갔기 때문이다.
일단 하둡을 통해 빅데이터 분석을 하려하는 기업이 가장 먼저 고민하는 건 투자대비수익률(ROI)이다. 빅데이터는 과거엔 버려졌던 무수한 종류와 속성의 데이터까지 모두 가치를 품은 존재로 인식하자는 사고방식이다. 마치 쓰레기장에서 보물을 찾는 것과 같은 시도를 하게 되므로 초기에 저렴한 비용을 들여야, 잦은 실패에 따른 ROI 압박이 작다.
오픈소스 하둡과 저렴한 하드웨어, 리눅스 운영체제를 사용해 인프라를 꾸렸다고 해도 SAS란 상용솔루션을 그 위에 붙이는 건 ROI 확보시점을 급격하게 뒤로 미루게 하는 원인이 된다.
더구나 HPA의 경우는 메모리에 HDFS 데이터를 올려놓는 방식이므로 하드웨어 비용이 늘어난다. VA의 경우 하이브 자체의 성능한계에 따라 분석속도가 DW에 비해 느려지는 단점을 갖는다. 그렇다고 VA를 DW에 붙여 빅데이터 분석을 하게 되면, 전반적인 인프라 비용은 급상승한다.
또 다른 위협은 분석SW보다 상단에 위치하는 비즈니스인텔리전스(BI)에서 시작된다. BI는 이전까지 OLAP이나 SAS 상단에서 정련된 보고를 위한 시각화에 중점을 두고 발전해왔다. 때문에 BI 자체적으로 제공하는 분석기능은 제한적이었다.
최근 마이크로스트레티지(MSTR)은 R과 하둡을 활용, SAS에 의존하지 않는 고도화된 BI를 밝혔다.
얼마전 나온 MSTR 9.3.1은 데이터디스커버리, 모바일, 고급분석을 아우르는 BI플랫폼이다. BI는 기술 특성상 앞단에 IT조직의 데이터정제와 거버넌스 과정을 거쳐야하지만, 분석과정에 들어가면 현업이 IT 도움없이 쉽게 시각적으로 데이터디스커버리를 수행한다는 게 회사측 설명이다. 하둡의 하이브, 피그, 임팔라 같은 데이터 소스와 연결하며, R기반 분석환경을 지원한다.
이는 SAS를 필요로 했던 BI업체가 독자노선을 걷겠다고 선언한 것이다. BI업체가 데이터 처리는 하둡에 맡기고, 나머지 작업을 R로 수행하면 SAS의 입지는 사라진다. 오픈소스 R의 한계도 BI업체의 책임으로 희석될 수 있다.
관련기사
- 하둡 창시자 "상용SW 플랫폼은 끝났다"2013.06.24
- MSTR "통계언어 'R'로 예측분석 내재화"2013.06.24
- 엔터프라이즈 하둡, 현실성 있나?2013.06.24
- 하둡, DW진영에 십자포화 시작2013.06.24
다만, ‘하둡-R-BI’ 연합이 현재의 SAS 수준에 이르기까진 시일이 걸릴 것으로 전망된다.
국내 하둡 전문가는 “현재 R을 하둡에 붙여 사용하는데는 알고리즘이 부족한 상황이다”라며 “단 BI가 SAS 의존성을 벗어던지겠다고 선언한 것은 상당히 의미있는 사건”이라고 말했다.