트위터, 학술 연구용엔 과거 데이터 무료 제공

일반입력 :2014/02/07 09:40    수정: 2014/02/07 09:59

학술연구 목적이라면 '파이어호스'로 알려진 대용량 트위터 데이터를 비싼 돈을 내지 않고도 활용할 수 있는 길이 열렸다. 잘 하면 트위터 본사의 데이터 과학자들과 공동 연구를 진행할 수도 있다. 다만 다음달 중순까지 트위터 본사로 지원서를 전달해 심사를 통과해야 한다. 아직 모든 연구자들에게 기회가 열린 것은 아닌 셈이다.

회사는 지난 5일 공식 엔지니어링 블로그를 통해 여러 연구기관들에게 트위터의 공개된 데이터와 시계열 정보를 다룰 수 있도록 해주는 '데이터그랜츠' 프로젝트를 소개했다. 자사 메시지 데이터 접근 권한을 학술 연구 활동에 무료 제공하는 시범 서비스를 마련했다는 내용이다.

데이터그랜츠는 연구기관이나 학술단체에서 연구자들이 필요로하는 데이터를 활용하려할 때의 어려움을 개선하기 위한 프로그램으로 마련됐다는 게 회사측 설명이다. 이전까지는 해당 정보를 다루려면 상업용 서비스를 포함한 여타 경우와 마찬가지로 트위터 측에 비용을 지불하거나, 다소 정당하지 않은 방법으로 데이터를 수집해야 했다.

트위터 측은 독감 확산의 시기와 진원같은 건강 관련 정보부터 새해 맞이를 축하하는 세계인들의 이벤트에 이르기까지 다양한 주제를 관찰하고 분석할 수 있는 광대한 데이터셋을 갖고 있지만, 거대한 질문을 다루는 외부 연구자 입장에서는 그 공공 및 역사적 데이터에 접근하기 위해 트위터와 협력하기가 쉽지 않았다고 밝혔다.

학술연구 목적으로 데이터그랜츠 프로그램을 활용할 뜻이 있는 사람들은 다음달 15일(현지시각)까지 회사측에 제안서를 제출해야 한다. 이는 데이터그랜츠 프로그램의 첫 시범 서비스를 신청하기 위한 절차다. 회사측에서는 제안서 심사를 거쳐 선별한 소수의 신청자들에게 무료로 데이터셋을 제공할 방침이다.

라피 크리코리안 트위터 플랫폼 엔지니어링 부사장은 자사 데이터리셀러파트너 '지닙(Gnip)'와 손잡고 선별된 연구기관들을 대상으로 트위터 데이터셋에 무료로 쉽게 접근할 수 있도록 준비 중이라며 향후 선별된 곳에서 트위터 엔지니어, 내부 연구원들과 협업할 기회도 제공하겠다고 말했다.

트위터 측이 구체적으로 첨언하지 않았지만 데이터그랜츠 프로그램은 파이어호스(firehose)라는 기존 유료 데이터 판매서비스의 전체 또는 일부 구성을 연구자들에게 무료로 제공한다는 계획으로 보인다. 트위터는 파이어호스라는 이름으로 자사 데이터를 재판매하는 파트너 2곳을 뒀는데, 지닙이 그중 하나다.

관련기사

트위터에는 하루에 메시지 5억건이 올라온다. 파이어호스는 2006년 이래 공개된 모든 트위터상의 데이터 덩어리다. 트위터가 개인 사용자들에게 각종 알림과 메시지를 거의 실시간으로 전달하는 '스트리밍API'와 유사한 데이터를 포함한다. 목적에 맞춰 가공하기 좋은 형식이다. 트위터는 이를 고가에 판매 중이다.

애플의 경우 이를 직접 구매하진 않았지만 트위터 파트너 업체 톱시(Topsy)를 2억달러(약 2천150억원)에 사들였다. 톱시는 트위터가 파이어호스 데이터에 대한 직접 접근을 허용한 소수의 파트너 가운데 한 곳이다. 국내서는 포털업체 다음커뮤니케이션이 파이어호스를 구매한 유일한 기업으로 알려졌다.