한국 빅데이터 시장이 거짓말에 물들고 있다. 외국계 벤더의 허울 좋은 어플라이언스 영업에 기업고객의 막대한 피해가 예상된다.
4일 업계에 따르면 최근 EMC, 오라클, 테라데이타, SAP, IBM 등의 한국지사들은 빅데이터 전용 어플라이언스를 출시하고 공급사례를 만들기 위해 분투 중이다.
각사의 영업활동이 폭발적으로 활발해진 계기는 지난 달부터 시작된 삼성전자의 빅데이터 표준화 프로젝트다. 국내 대다수 기업이 삼성의 사례를 참고해 빅데이터 도입 방향을 설정하려는 분위기를 형성하면서, 삼성 사례에 이름을 올리느냐가 벤더의 한국 빅데이터 사업을 결정하는 열쇠로 떠올랐기 때문이다.
각 벤더들은 자사의 빅데이터 어플라이언스가 최고의 성능을 제공하며, 단시간 내 빅데이터를 통한 기업의 새로운 경쟁력을 가져다줄 것으로 강조하고 있다.
이들의 공통분모는 오픈소스 분산처리기술 ‘하둡’이다. 데이터웨어하우스(DW) 전문성을 고도화하는데 초점을 맞춰 온 글로벌 업체들이 하둡을 다루는 환경에 대한 기술지원도 약속하는 추세다. 자체 역량이 없더라도 외부 전문업체 협력을 통해 가능하다고 주장한다.
그러나 본지 취재결과 외국계 벤더 한국지사의 빅데이터 사업 준비상황은 미비한 것으로 드러났다. 자칫 고가의 장비만 구입하고 빅데이터 활용은 할 수 없는 상황에 처할 가능성이 높다.
■빅데이터 어플라이언스, 팔면 끝인가
하둡은 조직이 다뤄야 할 데이터가 기존 DW 어플라이언스 제품의 성능과 확장성만으로 다루기엔 너무 많거나, 빠르게 늘거나, 유형이 다양해, 투자수익(ROI)을 맞출 수 없었던 영역에 대응하기 위한 기술로 기대를 모은다.
동시에 하둡은 오픈소스 기술로 완전히 성숙되지 않은 기술이기도 하다. 하둡은 안정화까지 시간을 필요로 하고, 장애에 대응하려면 시스템 구축과 운영에 숙련된 기술과 경험을 요구한다.
벤더가 한국에서 빅데이터와 하둡을 어플라이언스로 제공하려면 몇가지 전제조건이 필요하다. 지사 내 하둡 엔지니어 보유, 엔지니어 기술 숙련도, 공식 하둡 시스템 구축-운영 파트너, 이기종 시스템 호환성 등이다. 무엇보다 국내 공식 하둡 파트너의 유무가 필수적이다.
현재 한국엔 그루터, 넥스알 정도가 오랜 시간 하둡 역량을 쌓은 것으로 알려져 있다. 그외 업체들은 근래 들어 하둡 기술 습득에 돌입한 수준에 불과하다.
■한국EMC·한국오라클, “파트너는 비밀”
한국EMC는 지난달 본사에서 발표한 자체 하둡 배포판인 ‘피보탈HD’와 MPP 기반 DW ‘그린플럼’을 묶어 어플라이언스로 판매한다. 한국EMC는 데이터컴퓨팅사업본부가 그린플럼 어플라이언스를 공급하며, 분석 엔지니어 12명을 보유했다고 밝혔다.
하둡 유지보수, 개발자 인력에 대해선 자체 검증한 자체 하둡 배포판과 SQL 기반 인터페이스로 하둡분산파일시스템(HDFS) 상의 데이터를 분석할 수 있는 ‘호크’로 하둡의 기술적 어려움을 해결했기 때문에 고객 및 한국EMC 내부 지원 인력 확충문제를 해결했다고 설명했다.
한국EMC는 시스템 구축 및 운영 파트너는 비밀에 부쳤다. 그루터, 넥스알 등 하둡 전문업체들은 파트너십을 거절했다.
한국EMC 내부 인력의 경우 하둡 시스템 운영 경험자는 없다. 보유 인력은 분석분야에 한정되며, 데이터베이스(DB) 및 DW 관련 인력만 보유했다. 유사시 하둡 전문 엔지니어는 별도 유료계약을 통해 고객사에 미국 본사 인력을 투입하는 방식도 계획 중이다. 미국 본사 인력 유치 비용은 명당 1억원 가량으로 알려진다.
한국EMC의 그린플럼 DW 고객사례는 20여개다. 또한 그린플럼-하둡 공급사례로 포털업체 다음커뮤니케이션(이하 다음)을 내세운다. 그러나 다음에서는 하둡 시스템을 내부에서 직접 구축했으며, 한국EMC로부터는 SW만 공급받았다고 설명했다.
한국오라클은 빅데이터 어플라이언스와 엑사데이터를 병행해 판매 중이다. 기존 오라클DB 및 DW 관련 엔지니어 인력만 확보된 상태다. 하둡 어플라이언스는 경우 미국 클라우데라와 파트너십을 통해 CDH를 어플라이언스에 탑재한다. CDH 관련 국내 엔지니어 인력은 없다. 유사시 유료 계약을 통해 미국 클라우데라 유지보수 인력을 이용할 수 있다. 국내 공식 파트너는 없는 것으로 알려졌다.
또 오라클은 HDFS에 저장된 데이터를 오라클DB 영역으로 끌어오는 ‘HDFS용 오라클 다이렉트커넥터’를 갖고 있다. 이는 오라클 R 배포판, 하둡용 데이터인티그레이터와 함께 비정형데이터 연결 SW ‘오라클빅데이터커넥터’에 묶여 판매된다. 오라클 R 배포판을 쓰면 기존 R 전문가들이 오라클DB 기반의 분석작업을 수행할 수 있다.
정형데이터를 다루는 DB에 하둡 비정형 데이터를 담고, 자체 프로그래밍언어로 정형과 비정형 데이터를 아우르는 오라클DB 분석애플리케이션을 사용하는 방식이다. 기존 오라클 DB중심의 데이터처리 플랫폼 주도권을 잃지 않겠다는 의지로 풀이된다.
한국오라클은 작년말 하둡 대신 스플렁크를 빅데이터 어플라이언스에 탑재해 국내 모 기업에 공급한 바 있지만 공식적인 빅데이터 사례는 아니다.
■한국테라데이타, SAP코리아, 한국IBM...'애매모호 전략‘
테라데이타는 지난 2011년 10월 하둡분석언어 맵리듀스와 범용 쿼리언어 SQL을 결합한 '애스터맵리듀스플랫폼'을 소개했고, 1년뒤인 지난해 10월엔 호튼웍스와 손잡고 만든 애스터DB 5.0 기반의 HDFS 접근기술 'SQL-H'를 결합해 테라데이타 장비에 통합한 '애스터빅애널리틱스어플라이언스'를 출시했다.
애스터맵리듀스플랫폼은 애스터의 특허분석프레임워크 'SQL-맵리듀스'를 통해 표준BI나 SQL에서 맵리듀스프로그램을 불러낼 수 있게 해준다. 애스터빅애널리틱스어플라이언스는 SQL-맵리듀스와 SQL-H를 통해 하둡데이터 접근과 분석을 수행 가능하다. 각 제품은 기존 테라데이타와 애스터 플랫폼과 데이터동기화를 제공한다.
테라데이타의 사업모델이 DW어플라이언스 판매에 특화돼 있기 때문에 타 하드웨어 제조업체와의 협력은 당연히 없다. 회사는 자사 소프트웨어 전문성에 최적화된 하드웨어를 구성해 목적에 알맞은 시스템을 공급한다고 강조한다.
국내 서비스를 위해 준비된 현황은 불분명하다. 관련 문의에 한국테라데이타는 한국지사 내부에 빅데이터 전문조직을 고정된 구성으로 운영 중이며, 하둡 유지보수 인력과 개발자를 두고 있지만 그 규모는 밝힐 수 없다고 답했다. 국내 하둡구축과 운영파트너십 현황도 알려주지 않았다.
빅데이터 어플라이언스 최소 구매사양은 '상황에 따라 다르다'고 언급했다. 이를 도입시 관련 보장연한, SW유지보수범위, 업그레이드 지원여부, 유료서비스프로그램 구성은 '기존 제품과 동일하다'고 표현해 하둡에 관련된 지원사항은 알 수 없었다.
SAP는 5개 업체가운데 마지막으로 하둡 지원을 선언했다. 지난해 11월 하둡과 인메모리 플랫폼 '고성능분석어플라이언스(HANA)'를 결합한 빅데이터 솔루션을 국내 출시하면서다. 이는 DW '사이베이스IQ', ETL '데이터인티그레이터', 비즈니스인텔리전스(BI) '비즈니스오브젝트BI'를 돌린다.
회사는 자사 빅데이터 솔루션으로 HDFS와 하이브(Hive)의 데이터베이스(DB)를 읽어 요약한 데이터를 HANA와 사이베이스IQ에 담아 기존 BI와 리포팅 분석도구를 활용하거나, 사이베이스IQ와 하둡 쿼리를 연합하거나, 사이베이스IQ MPP 환경에서 맵리듀스작업을 돌릴 수 있다고 설명한다.
하둡과 HANA를 통합한 빅데이터 솔루션은 하드웨어 제조사 HP, IBM, 히타치데이터시스템(HDS)과 하둡전문업체 호튼웍스, 클라우데라의 협력을 통해 제공된다. 국내서는 기존 SAP코리아의 HANA어플라이언스 담당조직을 통해 판매될 것으로 보인다. 그러나 회사는 다른 업체들과 마찬가지로 하둡 기술지원을 위한 국내 파트너에 대해 밝힌 적이 없다.
한국IBM은 공식적으로 하둡 어플라이언스는 공급하지 않는다. 대신 네티자 어플라이언스인 '퓨어데이터 포 애널리틱스'를 공급한다. IBM이 엔터프라이즈 하둡으로 만든 '빅인사이트'가 있다. 빅인사이트는 아파치 하둡 중 몇몇 요소를 걷어내고, 수정해 만든 하둡이다. 빅인사이트는 유료 라이선스가 필요하다.
한국IBM 측은 빅데이터에서 하둡에 가장 적은 비중을 할애한다. 정형데이터를 위한 DB2와 네티자, SPSS가 더 중요하며, 비정형 데이터 확보는 DW 고도화로 해결할 수 있다고 설명한다. 비정형 데이터의 실시간 흐름에 대한 대응은 스트림즈를 통해 해결한다. 스트림즈는 데이터 축적 기능은 제공하지 않는다.
한국IBM은 비즈니스 애널리틱스&옵티마이제이션(BAO) 조직에서 컨설팅 및 구축팀을 운영하고 있다. 하둡 관련 인력은 현재 없다. 빅데이터와 하둡 파트너의 경우 총판과 6개 리셀러(코마스, 에이디플로우, 인프라소프트 등)에서 관련 솔루션 인증을 보유하고 있다고 밝혔다. 언급된 파트너에 숙련된 하둡 엔지니어가 존재하는 지는 확인되지 않았다. 국내업체와 하둡 공식 파트너십은 없다고 못박았다.
델코리아와 한국HP도 각각 V스타트와 앱시스템 등 범용 어플라이언스에 오픈소스 하둡을 설치해 공급한다. 이 회사들 역시 빅데이터 어플라이언스 운영을 위한 내부의 인력을 운영하지 않으며, 국내 전문업체와 공식 파트너십은 없다.
■빅데이터 어플라이언스? 'SW 설치한 고철'에 불과
각 벤더의 빅데이터 어플라이언스는 서버, 스토리지, 네트워크 등을 한 랙에 집어넣고, 하둡 관련 소프트웨어를 설치한 것에 불과하다. 하둡의 안정적인 운영을 위한 별도의 기술적 보완장치는 없다. 오픈소스 SW를 하드웨어에 설치한 수준에서 벗어나지 못한 것이다. OS를 PC에 설치해 공급하는 것과 같다.
복잡한 하둡 노드와 데이터를 수집해오는 구간에서 발생하는 수많은 장애포인트를 쉽게 관리할 수 있는 매니지먼트 도구도 없으며, 별도의 고가 솔루션을 구매해 사용법을 습득해야 한다.
만약 벤더의 어플라이언스를 구매할 경우 현재상황에서 고객사가 얻는 혜택은 시스템 장애 시 책임소재를 공급사에 지울 수 있다는 것 정도다. 시스템 장애에 대한 즉각적인 정상화 조치는 불가능하다.
관련기사
- 클라우드·빅데이터·해킹…IT아웃소싱 정답일까2013.04.04
- DW의 자기배반, 한국에서 어색한 이유2013.04.04
- GS홈쇼핑, 빅데이터 제대로 써보니…2013.04.04
- 빅데이터로 가는 여정 5단계2013.04.04
데이터 용량 증가에 따른 시스템 증설의 경우도 구매한 벤더의 어플라이언스만 도입해야 한다. 타 벤더 어플라이언스와 통합해 사용하는 건 불가능하다.
2편에 계속…