미 국가안보국, 버라이즌 데이터 어떻게 분석했나

일반입력 :2013/06/07 09:21    수정: 2013/06/07 17:19

미 국가안보국(NSA)이 IT업체로부터 방대한 고객 데이터를 수집해왔다는 폭로로 미국사회가 발칵 뒤집혔다. NSA가 수집한 개인정보는 이름을 포함한 정교한 데이터는 아니었다. NSA는 각 IT회사로부터 얻은 대규모 정보를 어떻게 활용하려 했을까.

6일(현지시간) 외신에 따르면, NSA는 버라이즌에서 가입자의 모든 휴대폰 통화 데이터를 제공받았고, 그밖에도 구글, MS, 애플 등의 고객 데이터베이스(DB) 정보도 제공받았던 것으로 확인됐다.

NSA가 버라이즌에서 제공받은 고객정보는 가입자의 이름은 포함되지 않았다. 단 휴대폰번호, 통화건수, 통화시간, 위치 등의 베타데이터가 제공됐다.

NSA가 수집한 메타데이터는 일반적인 분석 기술과 도구에서 가장 많이 활용되는 팩터다. 누가 어떤 통화를 했는지 도감청한 수준은 아니란 것이다.

그러나 NSA는 수집한 데이터를 통해 휴대폰 통화와 문자메시지의 흐름 속에서 현재와 미래에 대한 인사이트를 획득하려 했다.

일단 그래프 분석이 NSA에서 활용가능한 가장 대표적인 분석이다. 소셜그래프 같이 포인트와 포인트가 연결되는 정도와 흐름을 볼 수 있다.

NSA는 버라이즌과 통신사, IT회사로부터 받은 정보를 아큐물로(Accumulo)란 DB에 쌓았다. 아큐물로는 하둡 상에 올리도록 설계된 NoSQL의 일종이다. NSA가 아큐물로와 하둡에 저장한 건 그만한 규모의 데이터를 저장하고, 늘어나는 데이터만큼 빠르고 저렴하게 확장할 수 있는 방안이 없었기 때문이다. NSA가 아큐물로에 저장한 데이터는 수십페타바이트(PB) 규모다.

그래프분석 상에서 각 점과 선은 개인들의 데이터 포인트를 형성한다. 그는 이름 대신 휴대폰 번호나 SNS 계정이다. 각점의 관계를 분석하면 트렌드가 나오게 된다.

NSA의 아큐물는 약 4조4000억 노드로 70조 엣지 그래프를 처리할 수 있다. 즉 수백, 수천명의 이동통신가입자가 내놓는 통화 및 메시지 기록을 손쉽게 분석할 수 있는 인프라다.

사실 NSA가 미국 시민의 데이터를 수집한 이유는 간단명료하다. 테러 방지다. 미국 내 누군가가 외부의 테러리스트와 특정 시점과 지점에서 갑자기 많은 통화를 하거나 메시지를 주고받을 때 그를 추적하기 위해서란 것이다.

데이터를 통한 그래프 분석은 현 시점의 점과 점의 관계 속에서 트렌드를 보여준다. 그렇다면 그 지점에 대한 도감청이 후속조치로 이어지면 테러리스트와 그 조력자를 더 빠르게 찾아낼 수 있게 된다.

관련기사

NSA의 분석기술과 인프라가 더 정교해지는 것과는 별개로, 수집되는 데이터가 더 자세할수록 특정 개인에 대한 정부의 통제가 더 세밀해진다.

그렇다고 무조건 두려워할 건 아니다. 아큐물로에 수집되는 데이터는 너무 많아서, 각 개인 하나하나 일잃이 들여다 볼 여유도, 시간도 없기 때문이다. 단, 어떤 특정 트렌드를 일으켰을 때 그 개인에 대한 세밀한 추적이 이뤄진다는 점은 주목해야 할 대목이다.