[기고] SDN+AI, '지능 정의형 네트워크' 주목하라

에스넷시스템 이병한 오감지능연구소장 전무

전문가 칼럼입력 :2019/09/23 17:45    수정: 2020/06/26 21:17

이병한 에스넷시스템 오감지능연구소장 전무
이병한 오감지능연구소 전무

인공지능(AI) 기술은 4차 산업혁명의 핵심기술로써 급속히 발전하는 추세이다. 각 산업 도메인 별로 AI 기술을 접목하기 위해 많은 투자와 노력을 하고 있으며, 이미지 인식, 음성 인식, 언어 번역, 검색 엔진, 지능형 개인 비서, 자율 주행 등 AI 기술을 접목한 서비스들이 제공되고 있다. 또한 무선통신(WiFi-6), 이동통신(5G) 및 클라우드, IoT, 빅데이터 기술 등의 발달에 힘입어 ICT 네트워크 인프라의 서비스 규모와 복잡도는 해마다 증가하고 있으며, 제어와 관리, 운영의 복잡성 및 난도 역시 증가하고 있다.

이러한 기술적 다양성과 서비스 인프라 운영의 복잡성을 해결하기 위한 방법으로 최근 많은 통신사, 장비 제조사 및 IT 서비스 업체들은 ICT 서비스 인프라의 관리, 운영 분야에 AI 기술 접목을 시도하고 있다.

AI 기술이 접목된 네트워크를 '지식 정의형 네트워크', '자율 네트워크', '자가학습 네트워크', '지능 정의형 네트워크' 등 용어로 표현하고 있다. 여기서는 지능 정의형 네트워크(IDN)라 표현하고자 한다. 네트워크 서비스 인프라의 구성(Configuration), 최적화(Optimization) 및 보호(Protection) 등의 구성, 관리 및 운영 기능을 인프라 관리자가 직접 수행하는 것이 기존의 방식이라면, IDN은 네트워크 인프라가 자체적으로 '지능형 자가 관리'를 통해 사람의 개입을 최소화하여 인프라 서비스에 대한 제어 및 관리를 자동화하는 것을 목적으로 한다.

현재의 클라우드, SDN, NFV 및 Computing Power(GPU), 빅 데이터, AI 기술 등이 급격히 발전하면서 IDN에 대한 연구 및 이를 도입하려는 시도가 새로운 방향으로 진화하고 있다. 이러한 시도는 크게 2가지 관점에서 볼 수 있다.

첫째는 'AIOps(AI Operation)' 개념의 네트워크 인프라 관리 및 운영상의 자동화, 지능화를 구현하여 제공하는 IDN이다. 가트너는 “AIOps는 빅 데이터와 최신 머신 러닝, 딥 러닝 및 첨단 분석 기술을 ICT 인프라 관리, 운영에 직간접적으로 활용”하는 것으로 정의하고 있다. 즉, ICT 서비스 인프라 관리 및 운영을 AI로 구현하는 사례이다.

둘째로 사물인터넷(IoT), 5G 서비스 등의 초 연결기술, AI 및 블록체인 기술 등의 융합을 통해 최근 통신 및 컴퓨팅 시스템을 변화시키는 패러다임으로 에지 컴퓨팅이 진화하고 있다는 점이다. AI의 데이터(서비스) 학습 및 분석 처리와 컴퓨팅 연산, 트래픽 처리를 에지 컴퓨팅 노드에서 오프로딩(Offloading)하거나 분석 처리 해주는 것이 에지 컴퓨팅 사례이다.

■ ICT영역의 AI 도입 동기

이렇게 급격히 변화하는 환경 속에서 현재 ICT 네트워크 인프라 관리, 운영 상의 문제점과 AI를 도입하고자 하는 동기 및 IDN에 대해 살펴보고자 한다.

첫째, 네트워크 인프라의 복잡성 및 서비스 범위와 규모가 커짐에 따라 이에 대응하기 위한 네트워크 전문가의 부족, OPEX 증가 그리고 사용자(서비스) 증가에 따른 네트워크 자원 용량의 능동적 설계가 필요하다.

둘째로, 최근 애플리케이션의 개발 및 배포 환경은 마이크로서비스와 데브옵스(DevOps) 환경으로 변화하고 있고, 이에 따라 ICT 서비스 인프라 역시 가상 서버에서 컨테이너로, 호스팅에서 클라우드 서비스로 변화되고 있다.

또한 기업 비즈니스의 성공 여부를 결정짓는 중요한 요소인 디지털 혁신 전략을 위한 기술 요소로 클라우드, 모바일 전략은 이미 보편화되었고, 블록체인과 IoT, AI, 빅데이터 분석 기술 등이 급부상하고 있다. ICT 서비스 인프라에 존재하는 이러한 다양하고 복잡한 기술적, 환경적 변수를 네트워크 인프라 관리자가 동시에 고려하여 인프라 관리, 운영에 반영하기가 점점 더 어려워지고 있는 실정은 AI를 도입하고자 하는 주요 요소 중 하나다.

셋째로, ICT 인프라 관리, 운영의 부담을 줄이기 위해서는 서비스 인프라상에 어떤 다양한 문제가 발생하기 전 사전에 예측, 예지하여 워크로드와 인프라 자원을 최적화하는 방법을 파악해야 하지만, 전통적인 방식의 관리, 운영상에는 그 한계를 가지고 있다.

ICT 서비스 인프라는 애플리케이션, 서버, 데이터베이스, 가상화, 보안, 스토리지 및 네트워크 등 여러 물리적, 논리적 계층에서 다양한 구성요소들이 복잡하게 서로 밀접한 연관성을 가지고, 서비스에 영향을 미치며 운영되고 있다. 이들 구성요소간 관련된 상관관계 분석 없이는 다양한 문제(장애, 성능 저하 등)의 원인을 신속 정확하게 파악, 처리하기가 어렵다. 이러한 문제를 해결하기 위해서는 서버나 스토리지, 가상화, 네트워크, 애플리케이션 뿐만 아니라 ICT 인프라 구성요소 전반에 대한 풀스택 모니터링 및 상관분석이 반드시 필요하기 때문에 AI를 도입해야 하는 이유가 증대된다.

즉, 새로운 융합 ICT 환경을 위해서는 ICT 인프라 관리 및 운영 또한 기존의 전통적인 방식을 넘어서는 새로운 패러다임이 요구되며, 그 핵심에 있는 것이 바로 AI다.

■ IDN 개념 및 아키텍처

IDN 계층 구조 [사진=에스넷시스템]

IDN은 기존 SDN 아키텍처의 데이터, 제어, 관리 평면에 '지식 평면(KP)'이라는 새로운 구조를 추가, 연동해 네트워크 인프라 관리, 운영의 의사결정을 위한 행동 모델 학습과 추론 프로세스를 SDN 네트워크에 통합하는 능력을 제공한다. 경우에 따라 서비스 인프라의 관리, 운영을 자동화 할 수 있다.

KP는 ICT 인프라 관리 및 운영의 의사결정을 하기 위해 네트워크 인프라로부터 수집된 데이터를 이용하여 머신러닝 및 딥러닝을 통해 학습 및 분석 처리, 변환 생성된 '지식'을 사용한다. 또한 KP는 기존의 SDN 컨트롤러와 결합되어 인프라 환경에 대한 사전 분석(예측, 예지) 및 정책에 따른 중앙집중식의 자동화된 제어를 제공한다.

개념적으로 KP는 머신러닝, 인공신경망, 강화학습, 자율 자기 아키텍처(autonomic self-architecture) 등에서 많은 아이디어를 차용한 AI 기술을 사용하여 네트워크 인프라 운영의 자동화 및 지능화를 구현하는 핵심 요소이다. 이것은 ICT 네트워크 인프라 최적화 및 관리, 운영 방식에 혁신적인 새로운 패러다임의 변화가 시작되었음을 의미한다.

■ IDN 제어 프로세스 5단계

IDN 개념도 [사진=에스넷시스템]

첫 번째 '포워딩 디바이스 & SDN 컨트롤러와 분석 플랫폼'간의 연동(전달) 프로세스이다.

분석 플랫폼은 서비스 네트워크 인프라에 대한 전반적이고 완벽한 환경 파악을 위하여 충분한 데이터(정보)를 수집하는 것을 목표로 한다. 이를 위해 데이터 평면(포워딩 디바이스) 요소를 실시간 모니터링하여, 세부 정보를 수집한다. 또한 SDN 컨트롤러에 질의하여 제어 및 관리 상태 정보를 얻는다. 분석 플랫폼이 네트워크 인프라 구성 정보, 작동 상태 및 트래픽, 로그 이벤트, 성능 정보를 얻기 위해 NETCONF(RFC 6241), NetFlow (RFC 3954) 및 IPFIX (RFC7011), SNMP와 같은 프로토콜과 Telemetry를 사용한다. 이를 통해 다양한 메트릭(물리적 링크, 실시간 트래픽, 디바이스 상태, 응용 프로그램, 라우팅 경로, 성능 정보 등)에 의해 네트워크 인프라의 문제 및 리소스 사용 현황 등을 쉽게 파악할 수 있다.

두 번째 '분석 플랫폼과 인공지능(ML/DL) 엔진'간의 연동(전달) 프로세스이다.

IDN은 KP가 핵심이다. 분석 플랫폼이 제공하는 현재 및 과거의 다양한 이력 데이터를 이용하여 네트워크 인프라 행위(현황, 패턴)에 대해 학습을 하고, 지식으로 생성, 변환을 통해 ICT 인프라 관리, 운영의 의사결정에 사용하게 한다. 이러한 일련의 학습(분석) 프로세스상에 AI의 완성도와 정확도를 높이기 위해 단 변수 분석부터 다 변수 분석, 상관관계 분석, 분류 및 군집분석 등의 통계분석과 자동 패턴식별, 예측, 비정상 동작식별 등의 다양한 분석 기법과 기계 학습, 심층 학습 알고리즘을 동원한다.

대표적인 학습방법으로는 지도학습, 비지도학습, 강화학습, 세 가지 접근법을 고려한다.

지도학습을 통해 KP는 네트워크 동작을 이해하는 모델을 학습한다. 즉 네트워크의 작동과 관련된 네트워크 변수(variable)와 이와 연관된 함수(Function)를 배운다 [예 : 트래픽 부하 및 네트워크 구성간의 함수(Function)로 네트워크 성능 추론]. 지도학습의 교육 데이터는 입력 및 출력의 쌍으로 구성(라벨링)되며, 훈련 알고리즘은 그 사이의 관계를 추론한다.

비지도학습은 데이터기반 지식 탐색 접근방식이다. 즉 분석된 데이터의 구조를 설명하는 함수를 자동으로 추론할 수 있고, 또는 네트워크 운영자가 모르는 데이터의 상관 관계를 파악할 수 있다. 비지도학습의 데이터는 레이블이 지정되지 않으며, 훈련 데이터에서 그들간의 관계(패턴)를 찾아야 한다.

강화학습 접근방식에서는, 소프트웨어 에이전트가 네트워크 인프라를 최적상태로 구성할 수 있는 작업(Configuration)을 권고(추천, 검증) 또는 직접 실행(Action)하는 것을 목표로 한다. 예를 들어 네트워크 인프라 통신에서 '일련의 네트워크 전달 지연'과 같은 이벤트 발생시, 통신 지연을 해소하기 위한 정책(설정, 구성)을 소프트웨어 에이전트가 SDN 컨트롤러에 구성(configuration) 변경을 작동시키고, 각 조치 결과에 따른 '보상( /-)'을 받게 된다. 이 보상은 작동시킨 정책(설정, 구성 변경)이 목표 정책에 부합됨에 따라 증가( ) 한다. 궁극적으로 에이전트는 네트워크 인프라의 최적화를 위해 구성할 목표 정책을 구현하는 '구성 업데이트 집합(Configuration Update Set)'을 학습한다.

세 번째 'AI 엔진(ML/DL)과 SDN 컨트롤러 API'간의 연동(전달) 프로세스이다.

전통적으로, 네트워크 운영자는 네트워크 인프라에서 수집한 측정 지표를 검토하여 네트워크 인프라 관리, 운영에 어떻게 적용(설정 변경 구성, 최적화 구성 등)할지에 대한 의사결정을 내려야 했다. IDN에서는 이 과정을 KP(=AI)가 네트워크 운영자 대신 직접 의사결정을 수행하거나 또는 네트워크 운영자에게 의사결정 사항을 권고(추천)하는 '두 가지 제어 프로세스 루프'를 제공한다. 네트워크 운영자가 목표 정책 실행에 대한 의사결정 참여 여부에 따라 '폐 루프(Closed Loop)'와 '개 루프(Open Loop)' 제어 프로세스가 존재한다.

폐 루프 제어 프로세스는 지도, 비지도 또는 강화 학습 기술을 사용하며, AI의 KP는 학습된 지식을 사용하여 SDN 컨트롤러가 제공하는(연동된) 표준 인터페이스를 통해 네트워크 운영자 대신 자동으로 의사결정 및 관련 실행(설정 변경, 최적화 구성 등)을 수행한다. 예를 들어 트래픽, 라우팅, 토폴로지 및 통신 지연 상태 결과들 사이의 관계를 학습, 모델링하고 지연을 최소화하는 최적의 라우팅 구성을 자동으로 적용할 수 있다.

반대로 개 루프 제어 프로세스의 경우 네트워크 운영자는 여전히 최종 의사결정을 담당하지만, AI의 KP를 통해 이 작업을 좀더 손쉽게 수행 할 수 있다. 즉, 지도학습으로 학습된 AI 모델은 최종 의사결정 실행 전 검증, 예를 들어 인프라 구성 변경을 적용하기 전에 AI의 학습된 모델에 질의하는 작업에 사용된다. 이는 운영자가 AI의 학습된 모델에 고려할 네트워크 변수를 조정하여 네트워크 성능에 대한 평가(검증)를 사전에 얻을 수 있기 때문이다. 비지도학습을 통해서는, 탐색된 데이터에서 발견된 상관 관계가 네트워크 운영자가 최종 의사결정시 추가적으로 고려할 수 있는 권고안(참조 항목)으로 제공됨으로써 도움이 될 수 있다.

네 번째 '노스바운드 API를 통한 SDN 컨트롤러'와 연동(전달) 프로세스이다.

이 컨트롤러 API는 소프트웨어 기반의 네트워크 응용 프로그램 및 네트워크 요소를 제어하는 정책 생성에 대한 공통 인터페이스를 제공한다. SDN 컨트롤러가 제공하는 API는 전통적인 '명령형 언어'또는 '선언형 언어'가 될 수 있다. 후자의 경우, API 사용자는 네트워크에 대한 '의도(Intent)'를 표현할 수 있으며, 이는 이후에 특정 제어 정책(지침)으로 변환된다. 이러한 '의도 기반(Intent Based)의 선언형 언어'는 ICT 인프라에 '자동화 및 지능화' 기능을 제공한다.

마지막 단계로 'SDN 컨트롤러와 포워딩 디바이스'간의 연동(전달) 프로세스이다.

파싱된 제어 동작은 AI의 KP에서 의사 결정된 정책에 따라 데이터 평면을 프로그래밍하기 위해 'SDN컨트롤러 사우스바운드 프로토콜'을 통해 데이터 포워딩 디바이스로 최종 결정된 정책(설정 변경, 구성)이 적용된다.

IDN 서비스 개념도 [사진=에스넷시스템]

■ IDN을 활용한 인프라 관리, 운영의 개선 가능 사례

IDN을 활용한 ICT 네트워크 서비스 개선 가능 사례는 무엇이 있을까?

먼저, '네트워크 보안 모델'은 일반적으로 보안상의 정상상태를 모델링하고, AI를 통해 '이상치'를 탐지하는 방법이다. 그리고 'WAN 경로 최적화 모델'로 AI는 네트워크의 계절성(특정 시점의 변동성)을 감지 할 수 있다. 즉, 트래픽이 급증(정체) 할 때(예:수요일 오전)를 사전에 예측하여 트래픽을 대체 경로로 전환하기 위한 사전 대책을 취할 수 있다. '예측과 예지 모델'은 AI 시스템이 전달 장치(Data Plane Device)의 장애나 성능 저하 등을 인지해 사전에 완화하거나 회피할 수 있다. 이외에도 '네트워크 플래닝 및 포어캐스팅 모델'은 사용자 수(또는 신규 서비스 수)와 네트워크 인프라 성능 부하 간의 관계를 학습하여, 잠재적인 통신 병목현상, 트래픽 손실 및 성능 저하를 방지하기 위해 사전에 네트워크 수요에 대한 계획(필요한 시점 추정)을 세울 수 있다.

■ IDN 구현을 위한 도전과제

IDN은 많은 장점과 활용성을 제공하지만, 동시에 해결해야 할 주요 도전과제도 수반한다.

첫째, 머신러닝 및 딥러닝 기술의 진화는 ICT 인프라 분야가 아닌 기존의 응용분야에 의해 진화를 하였다. 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습시키는 AI 분야인 컴퓨터비전(Computer Vision), 자연어처리(NLP) 기술, 음성인식, 추천(Recommendation) 등이다. 기존 AI(ML/DL)의 메커니즘을 응용하거나, 또는 새로운 것을 추가 개발하는 것이 필요할 수도 있다. 이러한 의미에서 강화학습의 한 방법으로 Q값을 이용하여 최적의 정책을 학습하는 기존 'Q러닝' 기술, 딥러닝의 한 분야로 영상과 음성인식에 좋은 성능을 보이는 CNN, 시계열데이터 분석 및 예측에 뛰어난 성능을 제공하는 LSTM 기술 및 다양한 알고리즘을 조합해 하나의 예측 모델을 만드는 앙상블(Ensemble) 기법을 통한 구현이 필수적일 수 있다.

둘째, AI 모델은 네트워크 인프라 서비스 특성의 대표성을 갖는 다량의 훈련 데이터 세트(Training Data Set)가 확보되어야 잘 작동한다. 모델의 정확성은 네트워크 인프라의 특성을 반영한 양질의 데이터와 관련 데이터 세트의 양에 따라 좌우된다. 이 훈련 데이터 집합의 질(Quality)과 양(Volume)은 인공지능 학습의 핵심 포인트이다.

셋째, 딥러닝 모델의 단점으로 최종 적합(fitting)된 모델을 이해하기 힘들다는 것이다. 즉, 모델화된 AI 시스템에 대한 정확한 결과에 대한 이해 및 설명 표현을 도출할 수 없다는 것이다.

넷째, 기존의 네트워크 구조에서 SDN 패러다임으로 전환됨에 따라 네트워크 엔지니어 및 관련 연구자(개발자)에게 필요한 전문 지식에 큰 변화가 일어났다. 지금의 IDN 패러다임은 AI에 대한 또 다른 새로운 기술을 요구하기 때문에 서로 다른 영역의 기술 융합에 대한 부담(어려움, 복잡함)을 더욱 가중시킨다.

마지막으로 AI를 통한 '완전 자동화(Closed Loop)'를 구현하기 위해서는 표준화된 개방형 인터페이스가 없으면 자율적 상호작용을 구현하기가 어렵다. 이러한 부분을 해결하기 위해 네트워크 인프라 구성과 제어를 용이하게 하고 표준화하기 위한 더 많은 노력을 요구한다.

관련기사

■ IDN 기술 확보를 위한 투자 필요

AI는 그 활용측면에서 매우 빠르게 전 산업계로 확산되고 있으며, 4차 산업혁명의 핵심 키워드로 미래를 대비하기 위한 선택사항이 아닌 필수 요소 기술로 자리매김하고 있다. 이제 IoT, 클라우드, 빅데이터, 5G 등 초 연결성의 시대를 맞아 다양한 모든 서비스의 기반이 되는 네트워크 인프라의 기능 및 성능에 대한 요구사항은 더욱 높아질 것이고, 그 인프라 자원에 대한 효과적인 제어 및 관리가 매우 중요한 이슈가 될 것이다. 따라서 ICT 네트워크 인프라의 관리, 운영 분야에서도 지능적인 인프라 관리의 핵심이 될 IDN 기술의 확보를 위해 더 많은 관심(투자 및 정책 지원)과 노력이 필요하다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.