NFV 다운타임, 어떻게 최소화할 것인가

전문가 칼럼입력 :2015/05/15 10:04

안준필 윈드리버 부장

네트워크 기능 가상화(NFV)는 최근 통신 시장의 화두 중 하나다. 통신 사업자들을 중심으로 실질적으로 NFV를 어떻게 구축할 것인가에 대한 다양한 논의가 이뤄지고 있다. NFV로 인해 초래될 수 있는 다운타임(가동 중단) 비용에 대한 논의도 활발하다.

네트워크 중단으로 인한 비용 가운데 가장 큰 리스크는 가입자 이탈이다. 통신 업계에서는 선두 기업일수록 기존 고객을 유지하는 것보다 새로운 고객을 유치하는데 훨씬 더 많은 비용이 소요되기 때문이다. 또한 문제를 해결하기 위해 투입되는 운영 비용을 비롯해 과금에도 문제가 발생할 수 있을 뿐만 아니라 서비스 중단으로 인한 환불 문제, SLA와 관련된 법적인 비용 발생 등의 피해가 예상된다.

통신연구기관 헤비리딩(Heavy Reading)에 따르면, 네트워크 중단으로 인해 발생하는 비용이 매년 150억달러에 달하고 있으며, 이는 통신 사업자들의 연 매출 중 1~5%를 차지해 손익에 심각한 영향을 미치는 것으로 조사됐다. 특히 가입자당 매출(ARPS) 증가를 기대하기 어려운 상황에서, 영상 트래픽의 증가 등으로 인한 네트워크 인프라에 대한 투자는 피할 수 없는 현실을 고려할 때, 네트워크 중단은 반드시 해결해야 하는 과제로 꼽히고 있다.

불과 2~3년 전만해도 네트워크 가상화는 전통적인 물리적 인프라의 극히 일부에만 적용되어 왔다. 주로 통신 장비 업체가 고정된 기능 및 특정 시장에 특화된 장비 등 자사 고유의 아키텍처에 적용하는 정도의 수준이었다. 이러한 물리적인 인프라는 고객들이 기대하고 있는 ‘파이브-나인(99.999%, 1년의 5분의 다운타임)’의 수준을 넘어 ‘식스-나인(99.9999%, 1년에 30초의 다운타임)’의 안정성을 제공하고, 높은 매출을 보장할 뿐만 아니라 엄격한 SLA를 만족시킬 수 있도록 해준다.

통신 시장의 특정(Fixed) 기능을 위한 장비들이 본격적으로 NFV 패러다임에 맞춰 대체될 때 어떠한 일들이 발생하게 될까? NFV는 특정 시장(Vertical Market)에 맞춰진 장비 대신 수평적인 기능을 제공하는 개방형 하드웨어 및 소프트웨어 표준 기반의 멀티 벤더 솔루션이다. 서비스 안정성 측면에서 봤을 때, 잠재적인 위험성을 가지고 있다고 할 수 있다.

가상 네트워크 기능(VNF)을 통해 서비스를 제공하는 NFV 기반 인프라를 예로 들어보자. 기존의 소프트웨어에 가상화가 적용될 뿐만 아니라 애플리케이션에도 가상화가 적용될 것이다. 그러나 두 가지 모두 최신의 물리적 인프라에 대한 안정성이 입증되지 않은 상태에서 가상화의 복잡성이 증가하게되므로 서비스 중단의 위험이 높아지게 된다.

또한 NFV의 핵심 원칙은 서버, 랙, 데이터센터 간 가상머신(VM)의 동적인 재분배이다. 이를 통해 운영 효율성을 높이고 트래픽 변화에 따라 애플리케이션의 확장 및 축소를 지속적으로 지원하는 것이다. 이 또한 잠재적으로 위험 요소를 증가시킨다.

VNF상에서 실행되는 애플리케이션의 테스팅 및 모니터링 프로세스가 혁신적으로 개선된다고 하더라도 새롭고 가상화된 시스템에 유입되는 트래픽은 더욱 복잡해질 것이며, 디버깅은 더욱 어려워질 것이다. VNF는 혁신적이고 정교한 툴임에도 불구하고 중단이 발생하는 경우 수동적인 조치가 불가피하며, 이로 인해 디버깅에 오랜 시간이 걸릴 수밖에 없는 것이다.

이러한 상황에서 통신사업자들이 전통적인 인프라를 활용하는 동시에 NFV의 위험 요인을 최소화해 서비스 가동 시간을 보장할 수 있는 방법은 무엇일까? 중요한 것은 NFV로 네트워크의 중심이 이동하더라도, 네트워크 인프라에서 하드웨어와 소프트웨어 이슈를 모두 신속하게 탐지하고 대응해 ‘99.999%’, 더 나아가 ‘99.9999%’의 안정성을 보장해야 한다는 점이다.

통신사에서는 “캐리어급”의 안정성을 확보하기 위해 다음과 같은 요인들을 보장해야 한다.

-지진 등의 자연 재해에 대비하기 위해 최소 500km의 지리적 이중화 구현

-오류가 발생한 VM에 대한 1초 미만의 탐지 시간 및 자동 재시작, 사일런트(silent) 장애 차단

-하이퍼바이저 내에서 10µs 혹은 그 이하의 확정 인터럽트 지연시간(Interrupt Latency) 및 CPE 가상화 지연 및 기능 지원

-호스트 장애 시 자동 재시작 및 복구 지원

-네트워크 컨트롤 플레인의 완벽 이중화 및 자동 동기화

-신속한 라이브 VM 마이그레이션을 통해 기획된 유지보수 동안 최소한의 다운타임 보장

-통신업체에서 요구하는 수준의 AAA* 보안 (Authentication, Authorization, Accounting; 인증, 권한 부여, 계정)

관련기사

기존 IT 애플리케이션을 위해 개발된 엔터프라이즈급 소프트웨어로는 이러한 요구 사항들을 만족시키기 어려울 것이다. 엔터프라이즈 소프트웨어의 경우 통상 ‘쓰리-나인(99.9%, 연간 525분의 다운타임, 연간 9시간 가량의 다운타임)’ 수준의 안정성을 보장하고 있기 때문이다. 이는 통신 시장에서 요구하는 99.9999%의 안정성 대비 1/1000 수준에 불과하다.

다행히 네트워크 업계는 진화를 거듭해 이제 캐리어급의 NFV 인프라 솔루션들이 빠르게 상용화 되는 한편 업계의 저명한 애널리스트 및 통신 설비 업체들이 참여하고 있는 SDN/오픈플로우 월드 콩그레스 등의 공신력 있는 기관에서 이를 검증하고 있다. NFV의 경제적인 이점을 보장하는 동시에 복잡한 아키텍처로 인해 발생하는 네트워크 중단의 위험을 차단하는 솔루션을 활용할 때 비로소 가상화의 실질적인 혜택을 경험할 수 있게 될 것이다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.