데이터마이닝의 일인자「MS로 이적」

검색 분야의 전문가가 누구나 구글에 들어가는 것은 아니다.대규모의 분산된 데이터베이스로부터 일정한 경향을 읽어내는 데이터마이닝(data mining) 기술을 개발한 것으로 알려진 라케시 아그라왈(Rakesh Agrawal)이 IBM를 떠나 MS에 합류했다.대규모 기술 업체들은 오랜 세월에 걸쳐 타사의 최고 과학자를 끌어오기 위해 부심해 왔으며, 최근 검색 및 컴퓨터 과학 분야의 구글이 가장 큰 성과를 올리고 있다고 평가되고 있다. 예를 들면 구글이 MS로부터 카이 푸 리를 영입해, 중국 연구소를 운영하도록 한 것은 소송으로까지 번졌다. 구글은 또한 아마존닷컴에 재직하고 있던 검색 기술 전문가인 우디 맨저도 영입했다.IBM의 연구자로서는 최고의 자리인 펠로우에 오른 아그라왈은 데이터 추출 및 데이터베이스 분야에서 잘 알려진 최고의 과학자 중 한 사람이다. 때마침 미국 정부가 통화 기록을 조사하는데 데이터마이닝을 이용하고 있는 것이 밝혀져 이 기술에 대한 관심이 뜨거워졌다. 몇몇 기업들은 고객의 행동 패턴을 파악하거나 자사 웹사이트의 트래픽을 증가하기 위해서 몇 년 전부터 데이터마이닝을 이용하고 있다.일반적인 인지도는 높지 않지만 IBM은 검색 분야에서 주요 업체 중 하나다. IBM은 영상 검색 엔진을 처음으로 개발한 기업 중 하나이며, 2006년 3월에는 검색 기업인 랭귀지 어낼리시스 시스템즈(Language Analysis Systems)를 인수하기도 했다. 랭귀지 어낼리시스 시스템즈는 데이터베이스에 보관돼 있는 이름과 철자가 틀려도 대상 인물을 찾아내는 것이 가능한 기술을 제공하고 있다.아그라왈은 수주 전에 MS에 입사했지만 공식 발표되지는 않았다. MS는 2006년 1월에 아그라왈이 소속된 연구소를 개설했다.데이터마이닝의 배경 개념은 1990년대 초에 아그라왈이 영국의 백화점 체인인 막스 & 스펜서의 임원과 점심 식사를 하면서 나눈 대화로부터 유래됐다고 한다. 당시 막스 & 스펜서는 다양한 데이터를 수집하고 있었지만, 그것을 어떻게 해야 할 지 몰랐다.아그라왈과 그의 팀은 무제한 질의를 실시하는 알고리즘의 고안에 착수해 1993년에 데이터마이닝에 관한 논문을 집필했다. 이 논문은 650건 이상의 다른 연구 보고서에 인용돼 이런 종류의 문서로서는 가장 넓게 다뤄진 것 중의 하나가 됐다. 아그라왈은 최근 랜덤화의 연구를 추진하고 있다. 이 기술에서는 데이터를 데이터베이스에 보관할 때에 스크럼블 처리를 한다. 그럼에도 불구하고 데이터 보유자의 프라이버시를 확보한다. 그런데도 수학자는 모아진 데이터에 확률 컴퓨팅 기법을 적용하면 실제 데이터와 유사한 경향을 찾아낼 수 있다.이에 따라 기업은 18~24세의 소비자의 정보, 프라이버시를 배려하면서 취급할 수 있다. 이 경우 원본 데이터는 결코 데이터베이스에 입력되지는 않는다.랜덤화에 관한 과학적 논거라는 주제는 몇몇 학술 연구논문에서도 다루어지고 있다. 아그라왈은 몇 년 전의 인터뷰에서 이것을 ‘수학의 미’라고 표현한 바 있다. @

데이터마이닝의 일인자「MS로 이적」

지금 뜨는 기사

이시각 헤드라인

[속보] 삼성전자, HBM4 매출 10억 달러 돌파…업계 최초

'레이밴 메타' AI 글래스 쓰고 홍콩·마카오 여행 가보니

"웨어러블 로봇이 피지컬 AI의 가장 현실적인 핵심 축"

호르무즈 다시 긴장…운임 올라도 해운업계 표정 복잡

ZDNet Power Center