최근 SK C&C가 오픈소스 실시간 분석기술 ‘스톰(Storm)’을 활용한 통합보안로그분석 플랫폼을 소개했다. 외부에서 유입되는 로그를 실시간으로 보면서, 이상징후를 찾아내는 기법이다.
스톰은 트위터에서 개발해 오픈소스로 공개한 기술로 현재 아파치소프트웨어재단이 지원하는 인큐베이터 프로젝트 중 하나다. 다양한 경로를 통해 유입되는 데이터를 빠르게 분석하게 해준다.
하둡이 데이터를 쌓아뒀다가 나중에 분석하는 배치분석 기술이라면, 스톰은 흐름을 지켜보면서 돌출된 이벤트를 찾는 스트리밍 데이터분석 기술이다. 아파치 하둡과 유사한 아키텍처로 돼 있다. 발생하는 이벤트를 저장과정없이 병렬처리할 수 있고, 맵리듀스와 유사한 방법론으로 데이터를 처리할 수 있다.
분산처리 설계구조로 주컴퓨터에서 실행되는 '님버스(Nimbus)'와 그 명령을 따르며 하위컴퓨터에서 돌아가는 '슈퍼바이저(Supervisor)', 둘 사이의 최적화와 장애대응을 맡는 ‘주키퍼(Zookeeper)’ 등을 둔다.
그동안 국내 보안업계의 통합보안로그분석은 하둡 같은 배치분석에 기반해 이뤄져왔다. 상용 실시간 로그분석 제품으로는 스플렁크 엔터프라이즈가 그나마 국내에서 유명하다.
SK C&C 플랫폼은 오픈소스 하둡과 스톰을 유기적으로 결합해 만든 통합로그분석 플랫폼으로, 국내에 알려진 보안기술 중 최초 사례다. 이 플랫폼 개발에 참여한 SK C&C 플랫폼사업팀의 개발자 이상훈씨를 만났다.
이상훈씨는 “소스를 받아서 스톰에서 실시간 처리한 후 로직을 돌리는 건 관계형데이터베이스(RDB)로 넘기고, 로데이터로 배치 분석해야 하는 경우는 하둡의 HBASE에 따로 저장하도록 했다”고 말했다.
그에 따르면, SK C&C 통합보안로그분석 플랫폼은 데이터를 수집해오는 플럼(Flume), 메시지큐를 분산해주는 카프카(Kafka), 스톰 등으로 이뤄진다. 카프카는 버퍼 역할을 하는 인메모리 처리기술 대신 스톰의 데이터처리 부하를 조절해주는 역할도 한다.
그는 “스톰은 분산큐 역할이나 워커 분리 기능도 좋으면서 로직을 직접 구현할 수 있다는 유연함이 장점”이라고 말했다.
이어 “스플렁크 같은 경우 안정성도 높고 실시간 처리가 잘 되지만, 용량이 늘어날 경우 비용적으로 감당하기 힘들다”며 “전수데이터를 분석할 수 있다는 점, 비용적 측면과 자율성 측면에서 스톰이 장기적으로 상용솔루션보다 낫다고 생각한다”고 설명했다.
SK C&C 통합보안로그분석 플랫폼은 ▲실시간 데이터 처리를 통한 해킹 탐지 시간 단축 ▲해킹 탐지의 정확도 향상 ▲해킹 검색 추적 시간의 단축 등의 효과를 제공한다. SK C&C는 인포섹의 1천800여 고객사의 로그를 한달동안 실시간 분석했다.
이전에 감지하지 못했던 해킹 이상 징후를 탐지하고, 해킹 징후 발견 후 이뤄지는 해킹 검색∙추적(IP, 해킹 시간)을 4초 이내로 단축시켰다. 인포섹 고객사 데이터는 하루당 150억건으로 3테라바이트(TB) 정도다.
이상훈 씨를 비롯한 SK C&C 플랫폼팀, 인포섹 보안전문가들은 이 프로젝트를 통해 3만건의 룰을 체크했다.
트위터에서 공개한 스톰은 사실 겉 껍데기에 불과하다. 실제 사용을 위해선 스톰의 토폴로지 구성 여부가 성능과 안정성을 좌우한다. 여기서 문제가 생기면 자칫 데이터가 흘러가버려 유실될 수도 있고, 부하 때문에 시스템다운을 겪을 수도 있다. 이상훈씨 역시 쉽지 않은 작업이었음을 밝혔다.
관련기사
- SK C&C, 스트리밍 보안로그분석 플랫폼 개발2014.04.14
- 진화하는 빅데이터 실시간 분석 기술의 세계2014.04.14
- 트위터 '스톰' 아파치재단 인큐베이터 선정2014.04.14
- 트위터, 분석기술 '스톰' 공개…하둡 닮은꼴?2014.04.14
그는 “잡 배포에 대한 공식도 없고, 서버마다 설정도 다르기 때문에 직접 해보는 수밖에 없었다”며 “처음 스톰을 돌렸을 때 오류가 나도 어디서 오류가 났는지 찾는게 정말 힘들었고, 스톰 핵심 부분에서 클로저란 일반적이지 않은 언어를 써야 해서 파악하는 게 정말 어려웠다”고 말했다.
그는 “보안은 며칠씩 걸리던 패턴을 하루만에 찾았다든지 같은 속도 문제가 가장 중요하다”며 스톰을 사용한 통합보안로그분석의 혜택을 요약했다. 이어 “지금은 안정성과 시각화를 개선하고, 전사적용 시 누구나 운영 중 장애에 원활히 대응할 수 있도록 하는 부분을 고민하고 있다”고 덧붙였다.