인텔은 빅데이터 플랫폼을 어떻게 쓸까

일반입력 :2013/04/27 08:51    수정: 2013/04/27 09:01

전세계적으로 기업들이 빅데이터를 경쟁력 재고의 계기로 삼으려 플랫폼 구축에 나서고 있다.

빅데이터는 그동안 정형 데이터만 비즈니스에 활용했던 것에서 벗어나, 데이터를 총망라한 가운데서 새로운 가치를 뽑아내자는 새로운 접근법이다. 예측과 처방 관점에서 다양한 분석을 수행함으로써 기업의 비즈니스 가치를 높이는 핵심 동인으로 꼽힌다.

이런 가운데, 기업들은 오픈소스 하둡과 기존 데이터웨어하우스(DW) 사이에서 고민중이다. 둘 중 하나만 운영할 지, 둘을 별도로 운영할 것인지, 혹은 단일 플랫폼으로 통합할 것인지 등의 선택지를 놓고 숙고를 거듭한다.

국내의 대표적인 대기업들도 마찬가지 상황이다. 이들은 구체적인 사용사례를 참고하길 원하고, DW와 하둡의 차이점을 이해하길 원하고 있다.

인텔의 IT조직은 지난해 아파치 하둡 기반의 빅데이터 플랫폼과 기존 데이터웨어하우스(DW)를 결합하는 시범프로젝트를 진행했다. 기업내 BI 제공 시 빅데이터 플랫폼이 갖는 효용성을 입증하기 위해 플랫폼을 구축하고, 개념 증명 단계로 이행했다.

■1단계, 인텔이 빅데이터를 도입한 이유

빅데이터는 병렬 컴퓨팅 기술의 발전과, 하드웨어 가격 하락에 힘입어 가능성을 주목받기 시작했다. 과거엔 시도할 엄두조차 못냈던 데이터 전수조사가 가능해지는 시대로 접어든 것이다. 빅데이터를 통한 기대효과는 의사결정력 향상, 업무속도증가, 혁신가속화, 새로운 시장 개척 및 이용 등이다.

소셜미디어는 물론, 카메라, 센서, 사용자 생성 콘텐츠, 문서, 이메일, 웹페이지 로그기록 등 모든 형태의 데이터가 빅데이터 분석의 대상이다. 이같은 비정형 데이터는 전체 데이터의 90%를 차지한다. 양과 복잡성이 빅데이터를 구성하는 성격이다.

인텔의 IT조직은 빅데이터를 분석할 시스템을 개발하고, 회사가 이를 바탕으로 현명한 의사결정을 내릴 수 있도록 지원해야 하는 과제를 인식했다. 그러나 빅데이터가 새로운 분야인 탓에 그 활용 사례와 모범사례가 충분히 정립되지 않았다고 판단, 2년전부터 빅데이터 활용방안을 연구하기 시작했다.

그 결과로 작년 인텔은 내부에 하이브리드 빅데이터 플랫폼 구현에 나섰다. 하나는 SQL 기반 대용량병렬처리(MPP) 기반 DW 어플라이언스이고, 다른 하나는 대규모 데이터 집합을 처리하는 하둡 클러스터다.

■2단계, 하이브리드 빅데이터 플랫폼 구축

인텔 IT는 MPP 플랫폼의 SQL과 자바, C/C++, R 등 다양한 프로그래밍 언어, 여기에 고급 분석 도구와 DB 내 데이터 마이닝 기능을 갖추면 기존 BI와 SQL 기술을 활용하면서, 특정 목적에 적합한 프로그래밍 언어를 기반으로 새로운 기술을 얻을 수 있는 유연성을 확보가능하다고 판단했다.

인텔 IT는 성능, 용량 당 최적가 관점에서 경제성을 파악하고, 단순성과 빠른 가치 창출, 스토리지 및 성능을 TB에서 PB로 확장할 수 있는 가능성, 내장형 고급분석기능과 공개소스R 통계 언어에 대한 지원, 기존 BI 환경과 관련성 혹은 적합성, 기업 환경과 상호 운용성 등의 기준으로 외부 솔루션을 택했다

인텔은 제온 E7 기반 블레이드 서버와 HDD 스토리지를 활용해 확장성을 높이고, 병렬 처리시 발생하는 액세스 지연을 감소시켰다.

오픈소스 하둡 플랫폼은 하둡분산파일시스템(HDFS)과 맵리듀스를 기본으로 하며, 피그, 하이브, H베이스, 머하웃(Mahout), 스쿱, 우지, 카산드라 등등의 요소를 활용한다. 클러스터 시스템 수를 두 배로 늘리면 처리 시간을 절반으로 줄이거나, 같은 시간에 두배의 데이터를 처리할 수 있다.

인텔은 하둡에 대해 클러스터에 포함된 모든 서버의 스토리지를 취합하고, 서버는 일반 하드드라이브를 사용하므로, 스토리지 TB 당 비용이 매우 낮으며, PB급 데이터 수용 가능하도록 클러스터 스토리지 양을 확장할 수 있다는 점에 주목했다.

하둡은 과거의 데이터를 경제적으로 보관할 수 있고, 아직 가치를 판단할 수 없는 데이터를 저장하는 것도 가능하다는 판단이 도출됐다. 하둡이 온라인 거래처리 시스템이나 RDBMS를 대체할 의도로 설계된 게 아니라, TB, PB 규모 데이터를 일괄처리하는 데 있다고 이해했다.

인텔은 텍스트 분석 영역의 경우 더 단순한 알고리즘을 사용할 때조차도 데이터가 많을수록 최상의 결과를 도출하는 것으로 나타났다고 밝혔다. 사이버보안 영역에선 하둡 대용량 기능으로 더 오랜 시간 분석을 지원할 수 있었다고 예를 들었다.

인텔 IT는 DW 어플라이언스를 비대칭 대량 병렬 아키텍처 구성요소 및 하둡과 결합해 경제적이면서 확장성이 좋은 빅데이터 플랫폼을 만들었다. 빠른 네트워크 접속과 고속 데이터 로더를 통해 여러 구성요소를 같은 위치에 배치·연결해 필요할 때 빅데이터 플랫폼이 효과적으로 데이터 일부를 플랫폼 간에 이동할 수 있게 했다.

다음 단계로 인텔은 빅데이터의 가장 큰 과제 중 하나인 전문기술인력 확보를 위해 해결해야 할 상황에 처했다. 비즈니스 그룹 내부에서 빅데이터 소비를 위한 기술을 개발해야 했던 것이다. 새로운 기술을 습득하는 것은 기술을 구현하는 것보다 더 어렵기 때문에, 그만큼 인력 확보와 내부 육성에 아낌없이 투자해야 한다고 조언했다.

인텔 IT 측은 “인텔의 현재의 데이터 시스템이 충분한 경우 빅데이터 시스템으로 전환할 이유가 없을 수도 있다”라며 “그러나 지금껏 손이 닿지 않는 곳에 있었던 모든 문제에 대해 빅데이터 솔루션이 해답을 가지고 있을지 모른다”고 밝혔다.

이어 “아직 명확한 사용 사례가 정의되지 않은 경우라도 기업은 낮은 비용의 빅데이터 스토리지를 활용해 사실상 모든 것을 캡처 및 저장하고 향후 잠재적 가치를 끌어낼 수 있다”고 덧붙였다.

인텔 IT는 한편으로 아파치 하둡을 변형한 인텔 배포판과 아파치 버전의 성능검증이 이뤄졌으며, 각 배포판에 대한 점수를 매겼다. 인텔 IT조직은 5명의 BI전문가를 포함한 조직을 통해 3개의 고객 프로젝트를 수행했다. 그 결과 인텔 배포판과 매니지먼트SW가 개발돼 활용됐다.

이는 사고 예측성, 추천엔진, 고객인사이트 등에 걸친 유즈케이스 발굴로 이뤄졌다. 사고예측성의 경우 시스템 장애를 예방하기 위한 것으로 약 30%의 사고감소 효과를 거뒀다. 추천엔진은 의미인지 애플리케이션을 통해 더 나은 모바일 환경을 제공하려는 목적에서 고려됐다. 하둡의 위에 머하웃을 얹어 높은 확장성 있는 추천 서비스가 가능했다. 고객 인사이트는 웹데이터를 수집해 내부 DW의 소비자데이터와 결합하는 작업이었다. 인텔 서플라이체인은 생산가용성과 합리적인 재고수준을 유지할 수 있게 됐다.

■3단계, 인텔 빅데이터 플랫폼의 개념검증

인텔의 작년 빅데이터 프로젝트는 악성코드감지, 칩설계검증, 시장인텔리전스, 권장시스템 등 네 분야에 걸쳐 진행됐다. 빅데이터를 통한 BI 역량 개발 측면에서 아직 초기단계지만 연구개발, 사이버보안, 설계, 제고, 운영, 시장개발 및 인적 자원 관리 부문 전반에서 빠른 성장이 이뤄질 것으로 기대하고 있다.

악성코드 감지의 목적은 사용자와 보안 담당자가 적절한 조치를 취할 수 있도록 제때에 위협을 찾아내는 것이다. 인텔은 심층적인 모니터링과 예측을 위해 시스템, 네트워크, 애플리케이션의 모든 수준에서 서버 작업을 끊임없이 관찰하며 이상 징후를 찾아내야 했다.

위협을 가리키는 패턴은 대량의 데이터가 존재할 수 있는 프록시, DNS, DHCP, VPN 등의 다양한 네트워크 및 서버 로그에 숨겨져 있기도 하다. 이상 징후는 일반적인 악성코드 서명에서부터 비정상적이거나 잘못된 검색으로 알려진 URL과의 통신과 같이 보다 넓고 글로벌한 패턴을 가진 의심스러운 활동과 동작에 이르기까지 다양하다.

분석은 수많은 소스로부터 데이터의 상관 관계를 파악하고 비정상적 활동을 감지하기 위해 정상적 네트워크 활동 및 패턴의 기준을 정의하는 일을 포함해 일련의 복잡한 과정이 수반된다. 필요한 기간에 이러한 비정상적 상황을 파악하기 위해 인텔에서는 빅데이터 기술을 사용해 가공되지 않은 비구조화 데이터를 수집, 구조화한 후 예측 분석과 같은 통계 모델을 사용하여 활동의 변칙적 패턴을 감지했다.

칩 설계 검증의 경우 설계부터 실리콘 완성 전 수많은 테스트를 수행하는 과정에서 수백개 센서가 초당 수천회에 이르는 샘플링 속도로 데이터를 수집한다. 이로 인해 생성되는 엄청난 양의 데이터를 인텔 IT는 빅데이터 플랫폼을 사용해 검증 프로세스를 최적화함으로써 수십억 행에 이르는 구조화 및 비구조 화 데이터의 효과적인 분석을 통해 설계 프로세스에서 생산에 이르는 시간을 단축 하고 궁극적으로 출시 시기까지 앞당길 수 있는 방법을 연구중이다.

인텔은 이 사용 모델의 좋은 예를 방어 범위라고 부른다. 버그 있는 칩을 출시하면 회사 평판을 크게 떨어뜨릴 수 있지만, 한편으로는 과도한 테스트로 칩 출시가 지연돼 결과적으로 수백만 달러의 영업 손실을 입을 수 있다. 방어 범위 개념은 극단적인 상황을 피하는 데 목적이 있다.

프로세서 테스트 완료 혹은 프로세서가 적절히 방어되는 논리적, 물리적 상태에 대한 데이터를 수집함으로써 테스트 및 테스팅 도구가 어떻게 작동하는지를 보다 정확하게 이해하고 칩을 시장에 출시할 준비가 됐는지 여부를 판단할 수 있다.

빅데이터 분석은 식별된 결함을 자동으로 취합해 분류할 뿐 아니라 근본 원인 분석을 수행할 수 있어 디버그 프로세스에도 도움을 줄 수 있다. 샘플뿐 아니라 수집된 대량의 데이터를 광범위하게 분석함으로써 각 단계의 진행 상황에 대해 훨씬 더 포괄적인 그림을 그리고 설계 프로세스를 개선 및 간소화할 방법을 모색할 수 있다.

시장 인텔리전스는 글로벌 공급망을 운영하면서 시장상황의 변화를 예측하는 것을 목적으로 필요하다. 다음달, 6개월 후, 5년~10년 후를 정확히 전망하기 위해 날씨 동향, 글로벌 경제 자료, 포럼, 뉴스 사이트, 소셜 네트워크, 위키, 트위터, 블로그를 포함한 엄청난 양의 데이터를 분류한다.

인텔은 세계 각지의 잠재적 영업에 대한 예측 정확도 개선, 생산 수준의 세부 조정, 주주에게 보다 정확한 예측 자료 제공, 잠재적인 글로벌 이벤트를 바탕으로 시나리오를 구축 및 테스트하여 이러한 사건이 시장과 공급망에 미치는 영향, 시장의 요구와 경쟁사의 도전에 대응하는 능력에 미치는 영향을 파악, 인텔 제품의 새로운 사용자 및 사용 사례 발굴 등의 목적을 두고 POC를 진행중이다.

권장 시스템은 사용자가 궁금해 하고 관심 있는 내용과 가장 잘 맞는 정보를 찾는 데 도움을 주기 위한 용도다.

확장형 권장 시스템은 대량의 기존 데이터를 대상으로 리소스 사용이 많은 복잡한 알고리즘을 실행하기 때문에 이를 구현하려면 예측 분석 및 빅 데이터 전문 지식이 필요하다.

인텔의 빅데이터 플랫폼은 오프라인과 온라인의 2계층 아키텍처를 갖춘 포괄적이고 재사용 가능한 권장 엔진을 구축하는 데 초점을 두고 개발되고 있다. 오프라인 구성 요소는 권장 알고리즘의 핵심을 실행하는 배치 중심 프로세스로서, 확장 가능한 환경에서 빅데이터를 고속으로 처리하여 모델의 확장 가능성을 보장한다.

서비스 요청에 대한 서비스 계층으로 작동하는 온라인 구성 요소는 오프라인 단계 중에 계산된 관련 중간 계산을 로드해 권장 자체를 생성하는 알고리즘의 마지막 단계를 수행한다. 컨텍스트 구성 로직을 적용해 요청 컨텍스트에 따라 최종 권장을 필터링하고 조정하게 된다.

솔루션의 확장성은 머하웃(Mahout)을 사용하는 알고리즘의 핵심을 구현해 달성하고 있다. Mahout은 하둡 기반의 자바 공개소스 데이터 마이닝 라이브러리로, 비공유 환경의 일반 하드웨어 클러스터 내에서 병렬 작업을 실행함으로써 하둡 아키텍처를 활용한다. 모든 중간 결과는 MPP RDBMS에 작성되므로 온라인 구성 요소가 빠르게 검색된다.

관련기사

인텔 IT는 “빅데이터 마이닝 및 분석 기능을 추가함으로써 BI 기술을 서술적 분석에서 예방 및 처방적 분석으로 발전시켜 비즈니스 패턴 및 추세를 보다 다각적인 측면에서 심층 분석할 수 있을 것으로 내다본다”라고 밝혔다.

이어 “빅데이터 플랫폼을 설계하고 구축하는 첫 단계는 완료됐고, 이 솔루션을 활용해 개념증명을 완료하고, 빅데이터 플랫폼을 생산 환경에 투입해 고가치 비즈니스 문제를 해결하는 데 활용함으로써 운영 효율성을 한 차원 높이고 새로운 수익원을 확대 및 추가할 수 있을 것”으로 예상했다.