IBM "스파크-머신러닝 알고리즘이 '곳간' 채운다"

스리람 라잔 아태지역 애널리틱스플랫폼 총괄 이사

컴퓨팅입력 :2016/05/26 10:07    수정: 2016/05/26 10:07

IBM이 머신러닝 알고리즘을 품은 분석 기술로 한국 기업들의 수익화, 공공 조직의 행정 효율화를 돕겠다는 야심찬 제안을 내놨다. 제조사에겐 공정 개선을, 은행이나 보험회사같은 금융업체엔 사기탐지와 입체적 영업을, 정부에는 탈세 추적과 신원파악 최적화를 실현할 수 있다는 예를 들면서다. 이를 위해 IBM의 '코그너티브 애널리틱스' 플랫폼과 여러 인수 업체 기술 그리고 지난해부터 향후 10년간 대규모 투자를 예고한 아파치 재단의 오픈소스 프로젝트 스파크(Spark)를 핵심 수단으로 꼽았다.

[☞관련기사: IBM, '아파치 스파크' 생태계에 통큰 투자]

IBM은 사람들에게 단절된 인프라를 갖고 데이터를 수집, 저장, 분석, 활용하는 틀을 벗어날 것을 주문한다. 데이터베이스(DB)와 데이터웨어하우스(DW)의 정형데이터 저장 인프라와 여기에 연결되는 비즈니스인텔리전스(BI) 및 기업 리포팅, 그리고 하둡에 저장된 비정형데이터를 활용하는 별도의 커스텀 애플리케이션이 그런 단절의 산물이다. 모든 데이터를 발생하는 시점에 맞춰 수집하고 준 실시간으로 처리해, 적절한 프로세스나 실무자가 활용해야 하는 순간에 제공될 수 있어야 한다는 지적이다.

IBM 애널리틱스 플랫폼은 기업의 자체 인프라나 외부 클라우드를 가리지 않고 하이브리드 클라우드 환경에서 작동한다. 갖은 경로로 수집된 데이터와 콘텐츠를 관리하고 하둡 및 NoSQL 비정형 자료와 DW 시스템상의 정보까지 함께 다룬다. 실무자나 시스템이 기존 BI를 넘어선 정보를 얻고 업무에 필요한 흐름을 예측하도록 작동한다. IBM은 이 기술과 함께 사용자 입맛에 맞는 자체 인프라와 외부 클라우드 관리 및 지원 서비스를 제공한다. 사용자가 운영 요소를 잊고 데이터 활용 자체에 몰두할 수 있게 한다는 뉘앙스다.

25일 서울 여의도 한국IBM 사무실에서 만난 스리람 라잔 IBM 아시아태평양지역 애널리틱스플랫폼 담당 총괄 이사(executive director)와의 인터뷰는 이렇게 요약된다.

라잔 총괄 이사는 IBM 데이터 처리 및 분석 솔루션 역량이 과거 정형 데이터에 초점을 맞췄으나 이후 전방위로 확대됐다는 점, 데이터를 저장하는 방식뿐아니라 그걸 수집하고 이후 활용하는 시나리오 역시 발전됐다는 점, 이런 변화엔 산업계에서 각광받고 있는 오픈소스 기술의 도입이 비중있게 작용했다는 점을 강조했다. 산업군별 예시를 들어 여러 기업과 공공조직의 업무, 비용절감, 수익성 개선, 신사업 기회 창출에 IBM의 광범위한 데이터 처리 및 분석 역량이 요긴할 것이라고 주장했다.

스리람 라잔 IBM 아시아태평양지역 애널리틱스플랫폼 담당 총괄 이사

그와 진행한 인터뷰를 1문 1답으로 재구성했다.

-IBM의 애널리틱스 플랫폼 전략을 간단히 소개해 달라.

IBM은 DB, 데이터통합, 마스터데이터관리, 애널리틱스, 예측, 리포팅, DW 등 기업들이 요구하는 데이터 관련 모든 포트폴리오를 갖고 있다. 그리고 이 모든 구성을 클라우드 인프라에서도 제공할 수 있다. 기업들은 새로운 비즈니스뿐아니라 기존 업무용 인프라 역시 클라우드 영역으로 가져올 수 있다. 여기에 필요한 마이그레이션, 보안, 협업 서비스 역시 제공된다.

-이전 IBM이 강조하지 않았던 얘길 하는 것 같은데 어떤 변화가 있었는지

비정형데이터 처리 시장이 확대됨에 따라 '클라우던트'와 '컴포즈'란 회사를 인수했다. 정형데이터와 관계형DB 위주였던 데이터 처리 역량을 오픈소스와 클라우드 환경에 널리 쓰이는 포스트그레SQL, 몽고DB 등으로 넓혔다. 개발자들이 어떤 업무에든 필요한 저장소를 선택하고 데이터 관리 환경을 선택할 수 있도록 우리는 데이터 뒷단 인프라를 관리하고 프로비저닝과 가용성을 보장한다. 또 오픈소스의 일반적인 문제점을 보완하고 개발자들이 개발 자체에 집중할 수 있도록 돕는다.

[☞관련기사: IBM, 삼성이 투자했던 클라우드 DB 업체 인수]

[☞관련기사: IBM, 클라우드DB 업체 또 M&A]

BI리포팅 툴 역할을 했던 IBM 코그노스 역시 변화를 겪었는데, '셀프디스커버리'와 시각화를 강화했다. 셀프디스커버리란 개발자가 스스로 인텔리전스 기능을 탑재할 수 있도록 하는 특성을 가리킨다. 그리고 고차원의 시각화 기능이 제공돼 기업에 필요한 보안과 거버넌스 수준에 대응 가능하다는 점이 타사 BI솔루션 대비 차별화 요소다.

실시간 데이터 처리 수요가 커지면서, 하둡 관련 기술의 대응 방안으로 아파치 스파크 활용 시나리오를 전략적으로 강화했다. 작년말 발표한 하둡의 오픈소스 코드 기반 위에 여러 라이브러리를 얹을 수 있도록 하는 프로젝트도 그 일환이다.

스파크는 실시간으로 빅데이터를 처리할 수 있는 프레임워크다. 이를 활용하면, (하둡만으로 데이터를 처리할 때보다) 업무 생산성을 크게 높일 수 있다. 인메모리 프로세싱을 지원해 배치 업무가 매우 빨라지고, 디스크 리라이팅 작업이 없어 실시간 대용량 데이터 처리를 빠르게 수행할 수 있다. 이를 보조하는 다른 오픈소스 툴과 기술도 여럿 제공돼 향후 스파크 기반 애플리케이션과 솔루션 개발 사례가 많아질 전망이다.

-3년전 IBM이 하둡 데이터를 실시간 활용할 수 있는 도구로 선보인 IBM 빅SQL(Big SQL) 기술도 계속 제공하고 있는 건가

빅SQL은 이제 정식 제품으로 판매되고 있다. 하둡 플랫폼에 얹히는 라이브러리다. 정형 데이터 쿼리와 분석을 하는 용도로 쓰인다. 여러 고객들이 잘 사용 중이다. 다양한 형태의 DB를 지원한다. 정형DB와 함께 활용시 조회 성능이 좋고 병합 기능도 제공한다.

-스파크와 별개로 하둡의 활용 가치는 어떤가

하둡은 스파크와 보완 관계다. 스파크가 접근할 수 있는 다양한 DB 중 한 형태라고 할 수 있다. 데이터를 저장하고 '맵리듀스'라는 방식으로 처리하는 기능을 갖고 있다. 여러 노드에 분산돼 디스크에서 실행되는 방식이다. 스파크는 하둡뿐아니라 관계형DB나 텍스트 저장소에도 쓸 수 있다. 스트리밍 수준의, 실시간으로 유입되는 데이터를 처리할 수 있다.

[☞관련기사: 하둡과 스파크는 경쟁 관계인가]

-기업들이 이해할만한 스파크 활용 시나리오는 어떤 게 있을까

보험회사의 업무를 예로 들어 보겠다. 가입자가 보험을 청약하고 나중에 청구를 했을 때 보험금을 지급해야 하는 조직이다. 대부분의 보험사는 사기발생가능성을 염두에 두기 때문에 사기탐지 프로세스를 거쳐야 한다. 청구건이 수천건이든 수만건이든. 이걸 파악하는 분석 작업에 스파크를 활용할 수 있다. 스파크에 투입한 머신러닝 알고리즘 덕분에 가능한 것이다. 단시간내 많은 청구건을 분석하고 파악해야 하는 보험사에게는 비용 측면의 이득이 크다.

우리가 처음 사기탐지(를 위한 데이터 분석)모델을 만든다. 그리고 계약자의 나이, 주소, 소득, 성별 등을 비롯해 50~100개 되는 변수와 다양한 값(가중치)을 집어넣어 분석하는 업무를 구성한다. 이걸 실제로 돌려서, 청구건이 사기인지 아닌지 판단하는 결과값을 도출한다. 이 과정을 반복해 정확도를 계속 높여 간다. 처음에 정확하지 않을 수 있지만 새로운 데이터를 계속 넣으면서 탐지 모델을 학습시키면 결과값의 정확도를 개선할 수 있다.

스파크를 쓰지 않을 경우 사기탐지 판단에 필요한 시간이, 오늘 알아야 할 것을 내일까지 기다려야 한다든지, 그렇게 늦어질 수 있다. 스파크를 활용하면 대용량 스트리밍데이터까지 거의 실시간으로 처리하고 판단에 활용할 수 있다.

-실제 도입 사례를 듣고 싶은데…본사가 마스터카드 결제플랫폼에 분석기술을 제공했다던데, 실제로 뭘 줬고, 마스터카드에서 그걸 어떻게 활용한단 건지 설명 바란다

대략적인 내용을 올 3월에 발표한 것으로 알고 있지만 고객사례의 세부 내용을 공개할 수 있는지는 추가 확인이 필요하다.

[※편집자 주: 마스터카드는 2016년 3월 16일 파트너십을 맺고, 소규모 가맹점에게 특정위치 또는 여러 지역을 아울러 매출, 시장점유율, 고객인구통계, 경쟁사 관련 정보를 실시간으로 분석해 제공하는 서브스크립션 형태의 서비스를 연내 론칭하기로 예고함. 이를 위해 IBM과 파트너십을 체결. 마스터카드는 이 서비스를 위해 카드결제정보 익명화 분석 플랫폼 '로컬마켓인텔리전스(LMI)'의 데이터를 IBM 왓슨애널리틱스 기술에 통합 분석하겠다는 구상을 밝힘.]

[☞참조링크: MasterCard and IBM Partner to Make Big Data Work for Smaller Businesses]

-그럼 수익화 얘기로 넘어가서, 기업들이 애널리틱스로 어떻게 돈을 번다는 얘긴가

애널리틱스로 돈을 버는 방법에는 2가지가 있다. 하나는 비용 절감이다. 분석을 통한 예측력을 확보해 돈을 아끼는 방법을 생각할 수 있다.현대차 자동차 공장의 공정개선 시나리오를 예로 들겠다.

제조사들에겐 불량률을 낮추는 게 중요한 개선요소다. 그런데 불량을 파악하는 단계 역시 비용과 밀접한 관련을 갖는다. 철판을 다 잘라서 용접하고 차체 도장까지 들어간 시점에 불량을 파악했다 치자. 이미 공정상 여러 밸류가 투입된 상태다. 결과물을 상품화할 수도, 자재로 되돌릴 수도 없으니 비용상 손해가 난다. 품질상의 문제를 훨씬 앞선 단계에 파악하고 대처하려면 어떻게 해야 할까 그런 고민이 필요하다. 공장의 장비환경, 온습도와 자재상태 등 변수를 우리가 분석해서 특정 자동차 제조 라인의 불량률을 예측할 수 있지 않을까. 공정 막바지 단계보단 초입에서. 이를 구현하려면 공장 제조 설비의 각종 센서와 애널리틱스 플랫폼을 통합해야 한다.

수익화 방법의 다른 하나는, 투자를 통해 돈을 버는 방식이다. 전자상거래의 일반적인 형태는 좋은 사이트를 하나 만들고, 고객들이 와서 물건과 상품평을 읽은 뒤 물건을 사 가기를 기다리는 정적 방식이었다. 이걸 동적으로, 고객들에게 구매를 적극 유도하는 시나리오를 애널리틱스 도입으로 짤 수 있다. 사람들이 온라인커머스 사이트를 이용할 때 주로 무선랜을 쓴다는 점에 착안해서, 그 위치정보와 그가 평상시 남긴 페이스북 및 트위터 메시지 등의 스트리밍을 추적하면 어떨까. 여러 이용자 중 누가 언제 어느 시점에 어떤 매장의 근처를 지나는지 파악해 그 사람의 관심을 끌만한 인근의 매장 상품 전용 할인 쿠폰을 실시간 발급하는 식으로 구매를 유도할 수 있겠다.

온라인커머스 얘길 했지만, 오프라인 매장이라도 백엔드 분석을 거치면 비슷한 접근이 가능하다. 페이스북 이용자가 친구들에게 휴가 일정을 예고했다 치자. 그 정보는 보험사같은 곳에서 여행자보험 판촉 메시지를 보내는 데 유용하고, 다른 여행사들의 다양한 부가상품과 서비스 제안을 시도하는 데도 요기한다. 이런 식으로 온오프라인 모두 애널리틱스를 활용한 매출 기회를 찾아나설 수 있다.

-산업 영역이나 조직 특성에 따라 데이터 분석과 애널리틱스 도입의 효과에 차이가 있을까

모든 산업을 통틀어 어떻다 표현하긴 어렵다. 전통적으로 DB를 활용해 분석하고 가치를 창출하는 산업은 은행과 통신회사와 전자상거래업체 등이 주도적이었다. 정부쪽과 제조 영역은 다소 뒤처지는 업종이었고.

통신사를 예로 들면 데이터를 활용한 비즈니스 창출 가능성이 크다. 고객에 대한 통합적인, 전방위적 시각을 확보할 수 있기 때문이다. 이 때 연령이나 소득과 같은 고객의 인구통계학적 지표만이 아니라, 고객의 트위터 등 소셜네트워크 활동이나 다른 영역의 데이터를 취합해 심도 깊은 프로파일링이 가능하다는 점이 중요하다. 또 회선 이용자가 무슨 데이터 요금제를 쓰는지가 아니라 어디에 데이터를 쓰는지, 유튜브인지 모바일 영화인지 TV 다시보기인지, 언제 시청을 중단하고 서비스에서 이탈하는지 등을 파악하는 접근도 중요하다.

관련기사

정부를 예로 들면 치안, 교육, 민원, 세무, 신원인증 관련 행정 업무에 공공서비스의 효율을 높이고 개선할 여지가 많을 것이다. 사실 각국 정부는 일반적으로 애널리틱스 도입 수준이 높지 않다. 미국 정부가 타국 대비 높고 개발도상국 쪽은 다소 낮은 편이지만. 정부에서 데이터 애널리틱스를 활용한다면 치안을 비롯한 범죄예방에, 복지수당 지급과 같은 민원건의 사기탐지에 활용할 수 있다. 문서관리 행정업무 효율 개선이나, 다양한 경로의 소득과 지출 규모 추적을 통한 탈세 사례 적발도 가능할 것이다. 공공기관 출입시 디지털 신분증으로 신원확인을 자동화해 편의를 도모할 수도 있고.

아직 제조 산업의 데이터 활용 수준 자체는 미진하지만 장비나 이런 것의 센서 데이터를 활용하는 방법이 많이 열려 있다. 이제 겨우 시작하는, 걸음마 단계라 할 수 있다. 제조업은 IoT 센서를 통해 많은 데이터 수집할 여지가 있고, 그걸로 문제 발생 가능성을 예측하거나 비즈니스 가치를 창출할 기회가 많다.