야후가 대규모 플리커 데이터세트를 연구자 실험용으로 공개했다. 1억개에 가까운 이미지와 비디오의 URL과 메타데이터를 담았다. 야후는 슈퍼컴퓨터 환경과 클라우드를 통해 더 큰 규모의 연구를 할 수 있도록 돕겠다고 약속했다.
3일(현지시간) 외신에 따르면, 야후랩스는 최근 플리커크리에이티브커먼스 데이터세트라 불리는 자료를 공개했다.
야후가 제공하는 데이터세트는 9천930만개의 사진과 70만개의 비디오 파일에 대한 URL과 각 파일의 타이틀, 카메라타입, 묘사, 태그 등을 담은 메타데이터를 포함하고 있다. 이중 4천900만개의 사진은 지오태그도 갖고 있다.
야후는 각각의 코멘트, 즐겨찾기, 소셜데이터를 플리커API를 통해 접근할 수 있다고 설명했다.
야후 덕분에 이미지 분석을 위해 대규모의 자원이 공개됐다. 새로운 컴퓨터 알고리즘 연구나 학술적인 이미지분석 연구에 큰 도움을 줄 것으로 평가된다.
수많은 연구자나 기업들이 구글이나 페이스북, 마이크로소프트, 야후 등의 기업만큼 대규모의 콘텐츠를 보유하지 못하는 상황. 이들은 수작업으로 이들 데이터를 모으거나 스크랩해야 한다.
관련기사
- iOS8, 야후 날씨 증권정보 중단…이유는?2014.07.04
- “야후 승부수...유튜브 대항마 올여름에”?2014.07.04
- 야후도 추적금지 기능 기본설정 거부2014.07.04
- 야후, '옐프' 손잡고 모바일 경쟁력 강화2014.07.04
야후는 데이터세트와 함께 컴퓨팅 파워 확보에 어려움을 겪는 연구자를 위해 UC 버클리의 '국제컴퓨터공학학회(ICSI)'와, '로렌스리버무어국가연구소'에서 오디오 파일과 시각화 기능을 포함한 데이터세트 연구를 할 수 있도록 지원하겠다고 밝혔다. 아마존웹서비스(AWS)에 50테라바이트(TB) 이상을 처리할 수 있는 인스턴스를 제공한다고도 약속했다.
야후에서 공개한 데이터세트는 약 12기가바이트 용량이며, 분석용 도구는 AWS에서 8월말께 사용할 수 있게 된다.