R스튜디오 "최선의 데이터분석 수단은 코딩"

조 청 CTO, 타리프 카와프 사장 인터뷰

컴퓨팅입력 :2018/11/15 20:48

"우리는 오로지 '데이터과학자'에게 맞춘다. 데이터분석툴 시장에서 우리와 타사간 최대 철학적 차이점이다. 여러분은 코드를 쓰는 법을 알거나 그걸 배울 의지가 있어야 한다. 중요한 데이터분석을 수행할 때 이게 최선의 방법이라고 확신한다."

데이터분석툴 전문업체 'R스튜디오(RStudio)'의 임원이 최첨단 데이터분석을 위해서는 R 프로그래밍을 해야 한다는 취지의 발언을 해 눈길을 끈다. 통계 프로그래밍 언어 'R' 기반 오픈소스 및 상용 분석툴을 만들고 있는 R스튜디오의 조 청(Joe Cheng) 최고기술책임자(CTO)가 발언 주인공이다. 그는 마이크로소프트(MS) 오피스 프로그램 '엑셀'이 주류인 데이터분석툴 시장상황과 경쟁하고 있다고 표현하기도 했다.

R스튜디오는 데이터과학자가 오픈소스 통계언어 R을 더 간편하게 쓸 수 있도록, 동명의 통합개발환경(IDE)을 제공하는 미국 스타트업으로 2009년 설립됐다. 2006년 MS에 인수된 소프트웨어(SW)업체 '온폴리오(Onfolio)'의 창업자 J.J. 알레어(J.J. Allaire)가 설립자다. R스튜디오는 2011년 오픈소스 버전의 'R스튜디오 IDE'를 공개한 이래로 오픈소스SW 개발과 그에 상응하는 상용SW 버전 판매를 병행하고 있다.

데이터분석툴 및 플랫폼 공급업체 '애자일소다'가 지난해 R스튜디오 본사와 리셀러 계약을 체결하면서, R스튜디오가 한국 시장에 진입했다. R스튜디오는 애자일소다와 함께 국내 오픈소스 R 사용자 커뮤니티의 활성화와 기업용 데이터분석툴 시장의 빠른 수요 확대를 기대 중이다.

본사 임원들이 최근 지디넷코리아와의 인터뷰를 통해 기술 및 시장 전략을 제시했다. 회사의 조 청 R CTO가 오픈소스 커뮤니티 기반 제품의 경쟁력과 기술 개발 방향을 설명했다. 타리프 카와프(Tareef Kawaf) 사장이 회사가 데이터과학자들을 겨냥한 상용SW 제품의 장점을 강조하고 한국 데이터분석툴 시장에 건 기대감을 드러냈다.

조 청 R스튜디오 CTO(왼쪽)와 타리프 카와프 R스튜디오 사장.

두 본사 임원과의 질의응답을 아래 문답으로 정리했다. 편의상 조 청 CTO의 답변은 '청'으로 타리프 카와프 사장의 답변은 '카와프'로 표기했다.

- R스튜디오 설립 배경과 현황(조직 규모, 고객 수, 매출 등 실적)을 알고 싶다

청: "J.J. 알레어는 2009년 회사 설립당시 무명이었던 오픈소스 R을 접하고, 관련 패키지를 만드는 프로젝트에 영감을 얻었다. 곧 그는 나를 고용해, 2011년초 공개된 우리 첫 프로젝트 R스튜디오 IDE를 추진했다. 2012년까지 R이 여러 업종에서 인기를 끌었고 커뮤니티가 IDE를 수용했다. 우리는 대기업 요구에 맞는 상용SW를 개발해 사업화할 수 있다 보고 이후 오픈소스SW 공급과 상용툴 판매를 병행 중이다."

카와프: "지금까지 이 '듀얼 미션'은 효과적이었다. 회사 규모가 직원수 100명 이상이 될만큼 성장했다. 이들 대부분이 제품 개발에 집중한다. 엔지니어링 역량 60~70%를 오픈소스에, 나머지를 상용SW와 클라우드 호스팅 서비스에 쓰고 있다. 비상장사로서 실적을 공개할 순 없지만 우리 사업은 지속 성장 중이고 기업 고객 1천여곳을 확보하고 있다는 점을 밝힐 수 있다."

- 어떤 제품을 제공하고, 어느 기업과 어떤 시장에서 경쟁하고 있는지

청: "R스튜디오 IDE를 비롯해 다양한 오픈소스 툴과 R을 사용하는 데이터과학자를 위한 패키지를 제공한다. IDE는 타이디버스(Tidyverse)의 dplyr, ggplot2, purr 등 수십개 패키지와 R용 웹프레임워크 샤이니(Shiny)와 R 마크다운 문서 작성 포맷 등을 포함한다. 언급한 대부분은 요즘 R 사용자를 위한 표준 툴킷의 일부에 해당한다. 최근 아파치스파크, 텐서플로, 케라스, 클라우드ML같은 프레임워크와 상호운용할 수 있는 오픈소스 패키지를 내놨고, 그 일환으로 R의 파이썬 라이브러리와 매끄럽게 작동하는 레티큘레이트(reticulate)도 선보였다."

카와프: "각 조직이 규모에 맞춰 R 기술을 도입할 수 있도록 전문가 및 기업용 툴을 상용SW로 제공하고 있다. 우리 IDE의 서버 버전인 'R스튜디오서버프로'는 데이터 리소스가 데이터센터, 클라우드에 중앙화된 경우 적절하다. 공유플랫폼 'R스튜디오커넥트'는 데이터과학자들이 자료를 동료들과 쉽게 공유하게 해주는 플랫폼으로, 자료가 한 곳에서 셀프서비스 배포와 권한관리를 통해 게시되게 해준다. 최신제품 'R스튜디오패키지매니저'는 IT관리자가 R패키지 사용을 중앙관리할 수 있게 지원한다."

청: "우리는 오로지 '데이터과학자'에게 맞춘다. 데이터분석툴 시장에서 우리와 타사간 최대 철학적 차이점이다. 여러분은 코드를 쓰는 법을 알거나 그걸 배울 의지가 있어야 한다. 중요한 데이터분석을 수행할 때 이게 최선의 방법이라고 확신한다. 이런 점에서, 아직도 엑셀이 세계에서 가장 인기있는 데이터분석툴로 여겨지는 현재 상황(status quo)이 우리에겐 최대의 적이다."

- 세계적으로 전문적인 데이터분석툴 시장 기회가 얼마나 되나

카와프: "이미 이 시장에 SAS, IBM SPSS, 타블로(Tableau) 등 기업이 자리잡고 있다. 우리는 독점SW에서 오픈소스기반 툴로의 전환, 툴이 적용되지 않았던 기업내 분야에서 고급분석 활용 필요성이 커지고 있다는 점, 2가지 성장 가능성을 바라본다. 대부분 기업은 데이터분석을 핵심역량으로 보면서도 독점시스템에 데이터자산이 종속되는 걸 걱정한다. R은 오픈소스라 그런 위험이 없고 대학교나 자가습득 사용자 집단에 노출될 수 있다."

R스튜디오 IDE 실행화면.

- 기업용 데이터분석솔루션을 보유한 IBM, SAS, SAP나 R솔루션 업체 '레볼루션애널리틱스'를 인수한 MS와는 어떻게 차별화하나

청: "R스튜디오는 비즈니스유저가 아니라 데이터과학자, 통계전문가에 집중한다. 경쟁 툴과의 차이점이다. 우리는 '포인트 앤드 클릭' UI가 아니라 '프로그래밍 관련 워크플로'에 집중한다. 우리 데이터과학자들이 '샤이니' 프레임워크를 통해 비즈니스유저용 포인트 앤드 클릭 UI 구축 코드를 짤 것이라고 예상한다."

카와프: "모든 최첨단 기법을 동원한 작업은 코드 중심(code-centric) 워크플로를 통해 진행되기 때문에, 우리는 이 부분에 집중한다. 코딩의 학습곡선은 가파르지만 장기적으로 반복성, 재현성, 협업, 감사, 확장성같은 장기적 이점은 그걸 넘어선다. 우리는 (사용자들이) 이런 이점을 포기하지 않고 가능한한 쉽게 접근하도록 만들고 싶다. MS는 (R스튜디오처럼) 데이터과학자에게 R 서비스를 제공하지만 그보다 우리 제품 라인업이 더 포괄적이다. MS의 커스텀 R 배포판과 함께 우리 R스튜디오 IDE, 샤이니, 마크다운을 사용하는 게 흔한 일이다."

청: "상용SW를 팔지만 우리 핵심기술이 모두 오픈소스라는 점도 그들과의 큰 차이다. 어느날 R스튜디오커넥트를 사용하지 않기로 했더라도 사용자가 만든 모든 샤이니 및 R 마크다운 프로젝트는 계속 작동한다. 이걸 호스트하거나 공유할 다른 방법을 찾기만 하면 된다. 수직적인 기술 스택이 독점적인 다른 벤더의 경우는 그렇지 않다."

- 범용 언어 파이썬이 데이터분석 영역에서도 인기인 점은 부담되지 않는지

청: "파이썬의 최대 장점이 범용 프로그래밍 언어라는 점에 있다고 본다. 하지만 데이터분석에 집중하는 사용자에겐 그게 약점일 수 있다. R과 R커뮤니티는 데이터분석 자체에 집중하고 있다. R 자체든, R스튜디오 IDE든, dplyr, ggplot2, R마크다운, 샤이니든, 써 보면 이것들이 데이터분석을 최우선으로 설계됐음을 알 수 있을 것이다. 우리는 파이썬보다 R이 좀더 매끄럽고, 친숙하고, 우아하다고 생각한다.

프로그래밍 패러다임 수준에서 파이썬은 데이터은닉(data hiding)과 캡슐화(encapsulation)에 뛰어난 객체지향에 더 초점을 맞추고 있다. 반면 R은 표현이 더 풍부하고 확장성있게 접근할 수 있는, 소수 핵심 데이터 구조에 관련된 함수형 프로그래밍에 아주 집중한다. 어느 한쪽 스타일을 선호하는 이도 있지만, 우리는 백지상태에서 출발할 때 (R이 지향하는) 함수형 프로그래밍이 데이터분석에 더 맞다고 생각한다."

카와프: "파이썬 커뮤니티는 R 사용자에게 유용하고 강력한 머신러닝 툴을 많이 만들었다. 언어로서 R의 유연성은 일종의 접착언어가 된다. R사용자에게 레티큘레이트 패키지를 통한 파이썬이나 (아파치 스파크용 R 인터페이스 제공 패키지) sparklyr를 통한 스파크 등 여타 생태계를 통해 활용할 수 있는 기능을 제공하는 데 적합하다."

- 내년 데이터분석툴 시장 전망과 사업전략을 제시한다면

카와프: "(현업) 전문가용 R스튜디오 툴은 북미와 다국적 기업에 우선 도입됐다. 하지만 세계 각국에서 R과 R스튜디오의 오픈소스 다운로드되고 있다. 우리는 유럽과 한국에서 R스튜디오 수요가 급성장하는 추세에 관심이 많다. 세계 평균대비 한국 시장에서 전문가용 제품 수요가 빠르게 성장할 것으로 기대 중이다.

애자일소다가 한국 R 커뮤니티와 관계를 구축해 가고 있어 기쁘다. 그들과 계속 협력할 계획이다. 한국과 미국간 언어, 문화 차이가 있기에 우리는 애자일소다에 크게 의존하고 있다. 한국 사용자가 제품을 성공적으로 쓸 수 있도록 돕는 공동 이벤트와 다른 계획을 해나가길 기대한다. 서비스공급자를 확보하지 못한 다른 나라에는 직접 진출하겠지만, 적절한 파트너를 찾는 게 핵심 성공요인이라 생각한다."

- 한국 파트너로 애자일소다를 택한 이유는

카와프: "애자일소다는 과거 몇 년간 R스튜디오의 비공식적 네트워크의 일부이자 서포터였다. 우리 리셀러 프로그램 범위를 국제적으로 확대하기로 결정하면서 회사간 관계를 강화하는 건 의미 있는 일이었다. 애자일소다가 보유한 한국 시장 입지와 R 및 호환 기술 역량에 주목했다."

- 한국 시장의 잠재 수요가 얼마나 될까

카와프: "생명과학, 헬스케어, 은행, 보험, 첨단기술 제조 등 분야 수요가 많을 것이다. 한국 시장이 어떻게 성장할지, 우리 툴로 어떻게 문제를 해결할지 지켜보고 싶다. 몇 번의 초기 계약을 통해 한국 데이터과학 팀이 미국보다 중앙 집중적이고 매우 크다는 사실을 알게 됐다. R스튜디오서버프로가 제공하는 협업 기능의 이점이 훨씬 두드러진다. R스튜디오커넥트의 콘텐츠 배포 기능도 중요한 역할을 할 것이다."

관련기사

- 향후 기술개발 전략 로드맵이나 검토 중인 방향을 알려 달라

청: "몇 가지 주력 영역이 있다. 첫째는 R을 더 쉽게 쓰게 하는 패키지다. 둘째는 분석 게재와 공유를 더 쉽게 하는 패키지와 툴이다. 셋째는 실무에서 R 사용을 전사 확대하도록 돕는 제품이다. 넷째는 R과 텐서플로와 스파크에서 모델을 더 쉽게 만드는 패키지다. 다섯째는 사용자를 더 쉽게 R과 데이터과학으로 유인할 툴과 교육자료다. 여섯째는 컨테이너 기반 배포 모델로 전환하는 조직의 지원을 개선하는 것이다."