네트워크 인프라 활용의 보증수표「성능 관리」

일반입력 :2001/11/20 00:00

on the NET

네트워크 관리의 목적은 네트워크 서비스 품질을 최상의 상태로 유지해 투자 자원의 사용효율을 극대화시키고 서비스 품질을 최상으로 유지하며, 지연시간을 최대한 가장 낮게 유지하는 것이 다. 또한 효율성의 측면에서 본다면 네트워크 시스템의 처리 능력을 극대화시키는 것이다. 이런 목적을 달성하기 위한 네트워크 관리 기능은 ▲장애 관리(Fault Management) ▲구성 관리(Configuration Management) ▲성능 관리(Per formance Management) ▲사용 관리(Account Management) ▲보안 관리(Security Mana gement)로 구성돼 있다.이전의 5개 관리기능 이외에도 실제 운영 환경을 고려해 부수적인 관리 기능을 다양하게 실행할 수 있는데 이런 기능의 예는 유지보수, 재고관리(Inventory), 사용자 관리, 교육, 문서화, 백업 등의 업무가 있다(그림 1).모든 관리 기능은 상호간에 유기적인 관계를 가지고 있으며, 각 기능 간에 정보가 이동하는가 하면 관리의 결과가 다른 기능에 영향을 미치기도 한다. 즉 성능 관리의 결과로서 성능의 저하를 파악했다면 이를 해결하기 위해 구성 관리 기능에서 시스템 구성을 변경함으로써 성능을 향상시키는 것이 그 예다. 관리기능의 영역은 상당히 방대하고 각 기능을 모두 수행하기 위해서는 많은 도구, 시간, 인력, 비용이 필요하기 때문에 현실적으로는 각 기능에서 대표적인 관리업무만을 선별해 관리표준 기능으로 정립하는 것이 필요하다. 이번 연재에서는 다양한 관리 기능 중 성능 관리에 초점을 맞춰 성능 관리의 다양한 측면을 살펴보도록 한다.지속적으로 발전하는 관리 기능네트워크 관리는 관리기법의 성숙도, 사용하는 도구, 관리기능의 중요성 등에 따라 각 조직마다 그 단계를 달리하고 있는데 대개 다음과 같은 4개의 단계에 따라 발전해 간다.장애 관리 → 구성 관리 → 성능 관리 → 서비스관리 장애 관리 단계의 관리 업무는 장애가 발생할 때마다 수동적인 트러블슈팅(Troubleshooting)을 하는데, 사전조치보다는 사후조치 중심으로 업무가 처리된다. 이 단계에서는 사용자가 장애신고를 함으로써 관리업무가 시작되는 수동적 경향을 보인다. 따라서 문제가 발생한 이후에 조치가 취해지기 때문에 문제로 인한 피해의 정도가 심각하며, 이를 방지할 수 있는 대비책이 없다. 전문기관의 조사에 의하면 케이블, LAN 카드, 허브, 라우터, 회선 전송장치 등의 장애가 전체 관리업무중 60%에 달하는 것으로 보고되고 있는데, 이 단계의 관리업무는 대부분 물리적 장애를 처리하는데 많은 시간을 투입하고 있다. 비교적 규모가 큰 조직에서는 장애 관리 절차가 비교적 잘 정립돼 있는 편이지만, 작은 조직에서는 비전문적인 수준에서 머무르고 있는 것이 장애 관리의 현실이다. 보다 발전된 단계에서는 NMS(Network Management System)와 감시시스템이 실시간으로 제공하는 장애 정보를 통해 장애 즉시 이를 인지해 장애처리시간이 빨라지게 된다. 통상 NMS에서는 경보 메시지, 경보음 등을 이용해 관리자에게 통보해 주게 되는데, 발전된 형태의 성능 및 구성 분석을 통해 장애예방 능력을 확보하는 것이 중요하다.구성 관리, 네트워크 장비를 선별적으로 관리구성 관리는 장애 관리보다 발전된 형태로 하드웨어 및 소프트웨어의 구성 내역에 대한 관리기법을 사용한다. 이 단계에서 관리대상으로 하는 내용은 프로토콜별 주소, 사용자명과 패스워드, 속도, 트래픽 경로(PVC, SVC 등), 메모리/버퍼(Memory/Buffer) 크기, 트래픽 양, CPU 사용률과 시간, 대역폭 사용률, 장애발생 인터페이스 상태, 액세스 권한 등이 있으며, 네트워크 구성에 따라 선별적으로 관리하고 있다. 사용자와 자원의 변경에 따라 네트워크와 시스템 성능은 지속적으로 변화하고 있기 때문에 애플리케이션의 변화, 사용자의 요구사항의 변화를 유연하게 수용하기 위해 구성 관리를 지속적으로 실시해야 한다. 많은 조직의 관리 현황을 볼 때 기본적인 구성 관리는 하고 있으나 네트워크 환경과 트래픽의 특성에 대한 고려없이 각 시스템의 표준 구성을 그대로 사용하고 있으며, 사용환경에 종속적인 최소한의 파라미터만을 재구성함으로써 성능 개선을 위한 관리는 이뤄지지 않고 있다. 실례로 네트워크의 주요장비인 라우터의 인터페이스에서 입출력되는 패킷의 양과 패킷 손실(packet loss)은 버퍼 크기와 밀접한 관련이 있는데, 트래픽 특성에 따르는 버퍼에 대한 구성 관리는 거의 되지 않고 있다. 효율적인 네트워크 활용의 관건, 성능 관리구성 관리에서 발전한 성능 관리 단계는 성능 관리 항목인 지연시간, 대역폭 사용률, 패킷 처리율 등을 단계별, 시간별로 관리한다. 이 단계에서는 트래픽 측면에 초점을 맞춰 시간대별 분포, 애플리케이션/프로토콜/장애유형별로 다른 사용자 트래픽 특성을 고려한 분석을 바탕으로 관리하게 된다. 성능 관리 단계의 목적은 사용자 증가나 향후의 애플리케이션 확장으로 발생될 수 있는 서비스 질 저하를 방지하고 성능의 저하가 장애로 발전하지 않도록 방지하는데 있다. 주요 관리대상으로는 사용자 측면의 서비스 품질에 영향을 미치는 지연시간과 자원사용 효율에 관계된 처리능력 등이 있다.현재의 네트워크 관리 환경을 볼 때 많은 조직에서 네트워크 성능지표를 산출할 수 있는 성능 관리 도구없이 사용자가 체감하는 서비스 품질을 근거로 성능 수준을 판단하고 있다. 또한 성능 관리의 지표가 설정돼 있지 않으며, 따라서 성능 관리를 위한 업무가 미진한 실정이다. 성능 관리를 위해서는 기간별로 네트워크 현황을 객관적으로 수치화해 장애 관리와 별도로 지속적으로 변하는 트래픽의 성능을 관리하며, 관리지표는 네트워크 환경에 맞게 조정돼 나가야 한다. 기업내 장비별 연관관계 고려한 서비스 관리네트워크 관리의 발전된 수준으로, 이 단계에서는 장애, 구성, 성능 관리와 연계해 애플리케이션에 의해 제공되는 서비스 특성을 대상으로 전체적 또는 요소별로 관리한다. 이 단계에서의 관리대상은 이용률, 프로토콜, 지연시간, 트래픽 발생 형태와 용량, 브로드캐스팅(Broadcasting), 패킷 폐기, 재전송 등의 전체적인 트래픽이 된다. 이 단계에서 수집, 분석된 정보는 구성 관리, 용량계획을 수립하는데 사용될 수 있다.많은 조직의 관리 현황을 볼 때 시스템별, 관리항목별로 전체적인 연관관계를 고려한 서비스 관리는 진행하지 못하고 있는 형편이다. 또한 시스템과 네트워크 관리자간, 관리 도구간의 정보교환이 원활하게 이뤄지지 못해, 서비스 관리의 수준이 낮으며, 구성변경이나 새로운 애플리케이션 도입시의 지침을 제공하지 못하고 있다. 따라서 서비스의 감시와 분석도구를 활용해 총체적인 성능정보의 관리가 가능한 서비스 관리 체제의 구축이 필요하다.네트워크의 지속적인 성능 감시 필요이렇게 성능 관리는 관리대상 하드웨어, 소프트웨어의 서비스 효율성을 평가하고, 이의 품질을 높이는 기능으로 정의할 수 있다. 네트워크 환경내 자원들의 작동과 통신활동을 평가해 효과적으로 수행하도록 하는 성능 관리는 통신활동 등의 통계 정보 수집, 시스템 상태 이력의 기록을 유지하고 검사하며 자연적, 인위적 조건하에서 시스템 성능을 측정하고, 성능 관리 활동을 위한 시스템 운영업무를 처리하는 것이다. 성능을 제한하는 것은 파일서버의 속도, 메모리 용량, 파일 전송에 사용되는 소프트웨어 등 많이 있으며, 성능이 저하되는 가장 흔한 이유는 트래픽이 집중하는 구성요소의 용량과 성능 부족으로 전송매체, 라우터, 서버 등이 그 원인이 될 수 있다. 대부분 성능의 저하는 서서히 이뤄지게 마련이다. 만일 관리자가 성능에 대해 지속적으로 감시를 하지 않는다면 성능의 변화를 파악하기가 어렵다. 또한 성능이 일정 수준 이하로 떨어지면 장애로 변하는 속성을 가지고 있다. 따라서 네트워크 관리자는 지속적인 성능 감시를 통해 네트워크 어느 부분의 성능이 저하되고 있는가를 파악해야 한다.첫 번째 단추, 관리 대상 선정효율적이고 안정적인 네트워크 운영을 위해 필수적인 관리 지표를 선정하기에 앞서 관리대상의 속성을 파악하고 관리 대상을 선정하는 것이 필수적이다. 관리대상은 크게 하드웨어, 소프트웨어와 네트워크를 통해 이동하는 트래픽으로 구별된다. 하드웨어는 라우터와 스위치를 포함한 네트워크 장비와 서비스를 담당하는 서버, 그리고 실제적으로 사용의 주체가 되는 단말인 PC, 워크스테이션 등이며, 소프트웨어는 TCP/IP 등의 네트워크 관련 프로토콜, 애플리케이션 소프트웨어와 NFS, Telnet 등의 네트워크 애플리케이션이다. 트래픽은 패킷이 네트워크 장치와 회선을 이동하는 과정에서 발생하는 데이터의 이동 특성을 의미한다. 트래픽의 성능에 관한 정보는 대개 하드웨어와 소프트웨어에서 수집한 성능 관련 정보에 포함돼 있으므로 하드웨어와 소프트웨어의 감시와 분석을 통해 트래픽의 성능 측면을 파악할 수 있다. 성능에 영향을 미치는 모든 요소는 성능 관리의 대상이 되며, 대표적인 대상에는 다음과 같은 것이 포함된다.

  • 네트워크 장비 : 라우터, 스위치, 파이어월, 허브 등 네트워크를 구성하는 요소다. 특히 백본 라우터와 같이 데이터 트래픽이 집중하는 장치의 메모리, CPU, I/O포트, 프로토콜 등은 네트워크의 전반적 성능에 크게 영향을 미친다.
  • 서버 : 사용자에게 애플리케이션을 지원하는 장치로 웹서버, 파일 서버, 애플리케이션 서버, DB 서버 등이 있다. 서버는 애플리케이션 서비스를 제공하는 요소로 HDD, 메모리, CPU, 운영체제 등 모든 요소가 서비스 성능에 영향을 미친다.
  • 네트워크 관련 자원 : PC의 NIC(Network Interface Card), LAN·WAN 케이블, DSU/CSU 등 전송장치 등이 있다. 이중에서 사용자 장치인 PC는 CPU, 메모리, 프로토콜, 운영체제 등에 영향을 받는다.
  • LAN 관련 프로토콜 : 이더넷, ATM, TCP/IP, IPX, NetBEUI 등이 있으며, LAN 상의 통신장치 간에 데이터 전송기능을 지원한다. 프로토콜에서는 패킷 길이, 윈도우 크기 등이 성능에 영향을 미친다.
  • WAN 관련 프로토콜 : 프레임 릴레이, ATM, TCP/IP, PPP 등이 있으며 WAN 구간에서의 전송과 교환 기능을 지원한다.
  • 애플리케이션 소프트웨어 : 업무용 소프트웨어로 용도에 따라 다양한 종류가 사용된다. 소프트웨어는 데이터 처리 방식, 하드웨어 자원 사용 특성 등에 따라 서비스 품질에 많은 영향을 미치는 대표적인 요소다.
  • 네트워크 서비스 애플리케이션 : 인터넷 소프트웨어 등 네트워크의 기능을 응용할 수 있는 서비스를 제공한다.
  • 성능에 영향을 미치는 각 관리 대상 요소에 대해 성능 관리 차원에서 수행하는 기능은 성능 관리 지표의 설정, 성능 감시와 정보 수집, 성능 요소의 분석, 성능 개선을 위한 조치 등의 순으로 진행한다. 두 번째 단추, 성능 관리 지표의 설정성능은 상대적인 기준이며 네트워크 자원에서 제공할 수 있는 최대 성능은 제한돼 있기 때문에 일정 수준으로 제한될 수밖에 없다. 따라서 네트워크에서 성능을 평가하기 위한 구체적이고 현실적 기준을 설정하고 이를 달성하기 위해 노력을 투입해야 한다. 이 기준이 지나치게 높으면 달성하기가 어려워 관리가 비현실적이 되고, 지나치게 낮으면 서비스 품질이 떨어지므로 네트워크의 서비스 품질 목표, 기술적 난이도, 관리의 용이성 등을 고려해 설정해야 한다. 네트워크의 성능은 크게 ▲이용률(Utilization) ▲처리율(throughput) ▲지연시간(Delay)의 3가지 기준에 의거해 측정하고 관리한다. 물론 이외에도 성능에 영향을 미치는 요소가 세분화될 수 있는데 이런 부수적인 요소는 차후에 설명하도록 한다.이용률은 전송회선의 물리적인 최대 전송속도(대역폭) 대비 실제 데이터 패킷이 차지하는 대역폭의 비율을 의미한다. 이용률은 가용자원의 활용률을 의미하는 것으로서 이 수치가 낮은 경우는 자원의 능력을 낭비하게 되고 지나치게 높은 경우는 자원의 능력에 비해 과다한 부하가 가해져 성능저하가 발생하게 되므로 각 자원별 특성에 따라 적정 수준의 이용률을 유지하는 것이 바람직하다. 이용률은 네트워크 성능을 좌우하는 중요한 요소로서 시간, 애플리케이션 특성, 사용 프로토콜에 따라 끊임없이 변한다. 따라서 성능 관리 차원에서는 세그먼트별로 전체 이용률 규모와 특성을 파악한 후 특정 증상 발생시의 장애, 구성과 관련해 이용률이 어떤 연관 관계를 가지고 있는가 파악해야 한다. 트래픽 이용률은 평균과 최대치의 측면에서 관찰할 수 있으며, 최대치는 서비스 품질과 회선 용량의 평가에 활용할 수 있으며 평균치는 세그먼트별 용량의 재구성 등에 사용할 수 있다.bps로 나타내는 작업 처리량은 회선과 장치의 관점에서 평가될 수 있다. 회선의 경우는 네트워크의 접속 형태에 따라 달라지는데 이더넷에서는 작업 처리량이 10Mbps에 달한다. 그러나 현실적인 네트워크를 볼 때, 부하가 적게는 25%일 때부터 지연시간이 매우 길어져 사용자들에게 낮은 수준의 서비스를 제공하기도 한다. 라우터나 서버 같은 장치에서의 처리량은 해당장치가 단위시간에 처리하는 능력으로 표현될 수 있는데, 라우터의 경우 초당 패킷 수(pps), 서버의 경우는 초당 트랜잭션 수(tps) 등으로 계산한다. 각 장치가 처리할 수 있는 처리율은 제품을 개발한 회사에서 여러 자료를 통해 공개하고 있다. 하지만 이는 이상적인 환경에서의 능력이므로 참고용으로 사용할 수는 있으나, 실제 장치의 처리능력은 이보다 낮게 나타나므로 이 수치를 조정해 관리지표로 삼아야 한다.지연시간은 네트워크의 성능을 평가하는 요소 중 가장 중요한 항목으로 일반적으로 보면 사용자가 느끼는 서비스 처리 시간이다. 즉 지연시간은 사용자가 서비스 요청을 입력한 후 소요되는 사용자 단말의 처리시간, 네트워크에서의 전송지연시간, 서버의 처리시간을 합한 것을 의미한다. 일반적으로 사용자가 느끼는 지연시간에 영향을 미치는 요소는 여러 가지가 있을 수 있으나, 이들 중 서버, 네트워크, 클라이언트 단말기의 처리 지연시간이 결정적 요인이라 할 수 있다(그림 3).
  • 클라이언트의 처리 지연시간 : 서비스 요청 후 네트워크에 쿼리(Query) 데이터를 송신하는데 소요되는 시간과 서버로부터의 응답을 수신한 후 화면에 표시하거나 데이터를 저장 완료하는데 소요되는 시간의 합
  • 네트워크 전송 지연시간 : 데이터 패킷이 단말로부터 송신돼 전송회선과 네트워크 장치를 경유해 서버에 수신되는데 까지의 전송지연시간과 서버로부터 송신된 데이터가 단말기에 수신되는데 소요되는 시간의 합
  • 서버의 처리 지연시간 : 서비스 요청을 받은 후 서비스 처리를 하는데 소요되는 시간으로 DB 액세스, 애플리케이션 프로세싱 시간 등의 합
  • 보통 지연시간에 대한 평가는 지속적으로 측정한 지연시간을 최소 지연시간, 최대 지연시간, 평균 지연시간, 지연시간 편차 등의 지표를 이용하며, 이를 통해 서버, 네트워크 장치 등의 서비스 품질과 안정성에 대한 평가를 할 수 있다. 지연시간 분석을 통해 성능이 떨어지는 장치를 확인하고 부하/용량의 적정성을 파악해 성능 개선에 활용할 수 있다.지속적인 정보 수집으로 성능 감시성능은 네트워크 자원의 장애, 구성 상황, 사용량, 애플리케이션 특성 등에 따라 쉬지 않고 변하므로 순간적인 감시만으로 총체적 성능을 평가하기 어렵기 때문에 지속적 감시가 필요하다. 또한 한 요소의 성능은 타 부분에 영향을 미치기 때문에 전체 네트워크의 관점에서 감시돼야 한다. 정보수집은 도구를 이용해 성능정보를 수집하고 감시하는 업무로, 관리대상 장치와 정보의 내용에 따라 방법을 달리한다. 예를 들어 라우터의 포트별 트래픽 이용률 정보는 트래픽 관리 솔루션에서 수집할 수 있으며, 클라이언트 서버간 지연시간 같은 정보는 애플리케이션 서비스 품질을 측정하는 솔루션을 이용해 수집할 수 있다. 성능정보의 수집은 이같이 전문화된 도구를 사용하는 것이 가장 바람직하지만, 관리 도구의 상황에 따라서는 다음과 같은 방법으로 측정할 수 있다.
  • 사용자의 의견조사 : 사용자로부터 성능에 관한 정보를 수집하는 방법은 임의로 몇 명의 사용자를 선정해 주기적으로 성능에 관한 의견을 듣거나 사용상의 편리성을 개선시키기 위한 의견을 조사할 수 있다. 이와 더불어 사용자들의 만족도를 서면으로 조사하는 방법도 있다.
  • 파일 전송 시간 : 사용이 비교적 적은 시간에 100KB 정도 크기의 시험용 파일을 서버로 전송하고 수신해 보는데, 이때 전송 또는 수신에 소요된 시간을 기록한 방법이다. 또한 트래픽이 가장 많은 시간에도 동일한 시험을 해 그 결과를 분석한다. 시행한 결과를 분석해 보면 여러 조건이 변함에 따라 성능이 바뀌는 것을 파악할 수 있다.
  • 도구의 사용 : 앞에 설명한 방식은 정교한 측정이 어려울 뿐 아니라 상당한 시간과 노력이 소요된다. 이 문제를 해결하기 위해 성능 정보를 전문적으로 측정하는 도구를 사용하는 것으로, 네트워크의 적당한 위치에 도구를 설치해 성능을 측정할 수 있다.
  • 정보의 가공과 분석으로 성능 저하 원인 규명정보는 수집된 정보의 정확한 분석을 위해 수행하는 업무로 도구의 데이터 처리방식, 수집된 데이터의 형태, 특성, 표현 방식의 가독성 등을 고려해 적절한 형태의 정보로 가공한다. 일반적으로 각 도구로부터 수집한 데이터는 엑셀 등의 소프트웨어를 이용해 다양한 통계수치와 그래프로 변환하거나 측정·관리도구가 제공하는 기능을 이용해 성능 관리 지표별로 자료를 가공한다. 분석은 가공된 정보를 성능지표에 근거해 해석하는 절차로, 현재의 성능수준, 성능의 변화 동향, 성능이 장애에 미치는 영향, 사용자의 서비스 만족도 등을 평가한다.수집된 정보는 성능평가를 위해 입체적으로 분석돼야 한다. 예를 들어 클라이언트 PC에서 측정된 낮은 응답속도의 원인을 찾기 위해서는 사용률, 브로드캐스트, 장애율, 서버의 메모리 사용률 등 다양한 측면에서 연관관계를 입증할 수 있도록 분석해야 한다. 분석된 결과는 성능개선을 위한 기초 정보로 활용돼야 한다. 개선돼야 하는 부분은 성능저하에 영향을 주는 요소로서 대부분 타 영역에 영향을 주기 때문에 영향을 최소화시키는 범위에서 개선작업을 하게 된다. 또한 성능 개선을 한 이후에는 사전에 목표한 성능 개선이 이뤄졌는가의 검증이 뒤따르게 된다. 성능 개선을 위한 조치는 성능지표를 기준으로 분석된 절차에 따라 행해지는 업무로 용량의 증설, 세그먼트의 재구성 등이 있는데, 이 단계는 향후에 설명하도록 한다. @