구글이 빅쿼리 애널리틱스에 새 기능을 추가했다. 변수들 간의 선형적 상호 관계를 알 수 있는 피어슨 상관분석 기능이다.
구글의 개발자 펠리페 호파는 5일 구글클라우드플랫폼 블로그를 통해 빅쿼리에 추가된 피어슨 상관분석 기능을 소개했다.
구글의 기업대상 클라우드 서비스중 하나인 빅쿼리는 대규모의 구조화된 데이터를 빠르게 조회할 수 있는 서비스다. 작년 5월 출시됐다. 구글 빅쿼리는 일반인이 쉽게 사용하고, 세계의 모든 데이터 종류를 다룰 수 있는 상황은 아니다. 그러나 현재로선 세계서 가장 빠르고, 가장 값싸며, 가장 싼 데이터베이스 분석 시스템이다.
빅쿼리에 새로 추가된 기능은 두 변수 사이의 상호관계를 측정할 수 있는 기능이다. 몇몇 데이터를 업로드하고, SQL 쿼리문에 'CCRR()' 코드를 이용하면, 변수 간의 상호관계 점수가 나온다. -1.0은 부정적인 관계이며, 1.0은 긍정적인 관계. 0은 관계가 없다는 뜻이다.
빅쿼리에 쿼리를 날린 결과는 표로 정리되며, 이를 그래프로 시각화하는 것도 가능하다.
그는 5월 구글I/O 컨퍼런스 기간 중 모스콘센터에서 수집된 센서 데이터 사이의 상관분석 결과를 선보였다.구글은 컨퍼런스 당시 행사장 곳곳에 각종 센서를 달아 데이터를 수집했다. 각 방의 온도, 습기, 소음 등이 행사가 진행된 3일 간 수집됐다.
펠리페 호파는 먼저 행사 두번째날과 세번째날 사이의 방과 온도 간 상호관계를 조회했다.
그 결과로 각 방마다 두번째날과 세번째날 모두 온도변화의 패턴이 유사한 것으로 나타난다. 온도가 상승하거나 하락하는 추이가 비슷하다. 각 방에서 일어났던 온도 관련한 모든 행동이 비슷했다는 의미다.
행사장 중 크롬이스트의 경우 온도가 아침부터 오르다가 저녁 이후 점차 내려간다. 반면 1층 데스크의 온도는 오전 6시 이후 급격히 하락한 뒤 저녁 때 다시 종전 수준으로 올라간다. 행사장의 문이 열렸다가 닫힌 시간동안 실내 온도가 내려간 것이다. 이같은 패턴은 양일에 걸쳐 동일하게 나타났다. 둘째날 온도가 셋째날보다 높은 것은 다른 요인의 영향을 받은 것이다.
어찌됐든 앞선 두 예시에서 상호관계 점수는 모두 1에 가깝다.
안드로이드이스트의 경우 양일 간의 상호관계는 -1에 가깝게 나타났다. 특히 두번째날의 데이터가 없다.
펠리페 호파는 두번째날 센서가 꺼졌던 것 같다라며 지금와서 고칠 순 없지만, CORR() 코드가 불시에 벌어진 일을 인지해 통지하는데 도움이 된다는 걸 알 수 있는 좋은 예라고 설명했다.
그는 또 하나의 예를 들었다. 이번엔 센서 형태, 방 등 좀 더 다양한 변수들의 상호관계를 측정한 것이다.
이를 통해 어떻게 방안의 공기 품질이 개선되는지를 알 수 있다. 1층 데스크의 문이 열렸을 때 온도가 내려가고 가스의 양이 줄어든다.
또한 마이크의 볼륨에 따라 온도가 달라진다는 것을 알 수 있다. 마이크 볼륨을 높이면 온도도 올라간다.
룸12의 경우 데이터가 잘못 측정됐다. 방의 온도가 2천도를 넘나드는 것으로 나온 것이다.
안드로이드이스트의 경우도 센서 데이터가 수집되지 않았는데, 온도와 습도 센서 모두 일시에 꺼졌다는 걸 알 수 있다.
관련기사
- 하둡, DW진영에 십자포화 시작2013.09.08
- [제8회 ACC]“ 빅쿼리, 6초면 위키피디아 분석 끝”2013.09.08
- 구글, 빅데이터 분석서비스 '빅쿼리' 상용화2013.09.08
- 구글판 하둡 '빅쿼리' 상용화 신호2013.09.08
여러 장소에서 두번째날 온도와 습기엔 정반대의 패턴이 나타난다는 공통점이 발견됐다. 온도가 내려가면 습도는 올라간다. 상호관계 점수는 -1에 가깝다.
그는 빅쿼리의 피어슨상관분석을 통해 불시에 일어나는 어떤 이벤트를 파악하고 수정할 수 있다라고 강조하며 그는 향후 이같은 쿼리를 어떻게 작성했으며, 어떻게 넘어설 것인지 설명하겠다고 예고했다.