서버 이중화 논란「시끌벅적」

일반입력 :2002/01/17 00:00

류한주

그러나 업체별로 이중화를 구현하는 방식이나 이중화 구현을 위해 주안점을 두는 개발 포인트가 달라 고객 혼란이 우려되고 있다. 문제의 발단은 한국썬 마이크로시스템즈의 백플레인 이중화. 시스템 에러 발생시 한 번 자동 리부팅 된다는 점 때문에 한국HP 등 경쟁사에서는 이중화로 볼 수 없다고 주장한다. 이는 이중화라는 용어 자체가 '구성 요소 이중화에 따른 시스템 페일오버와 무중단 운영'의 뜻으로 일반화돼 가고 있기 때문. 그러나 한국썬에서는 자사의 이중화 개념이 장애를 허용하되 복구 시간을 단축하는데 주안점을 두고 있으며, 이를 구현해주는 백플레인 이중화는 아직 다른 유닉스 벤더에서는 구현조차 못한 기술이라는 점을 강조하고 있다. 최근 썬 E15000과 썬파이어 미드프레임 6800을 내놓고 메인프레임의 다운사이징을 추진하고 있는 한국썬은 ▲파이어플레인 스위치(Fireplane switch) ▲클럭 오토 페일오버(Clock w/autofailover) ▲시스템 컨트롤러 ▲CPU/메모리 보드 ▲I/O 어셈블리 ▲I/O 카드 ▲전원공급장치 ▲전원 카드 ▲쿨링 등의 대부분의 컴포넌트를 이중화해 안정성을 실현했다고 주장한다. 한국썬의 시스템 엔지니어링 본부 백승권 과장은 "서버 이중화가 아직 범용 유닉스 서버에서는 실현되지 않았기 때문에 장애를 일으킬 수 있는 주요 컴포넌트들을 이중화하는 방안을 마련한 것이다. 결국 서버를 클러스터링해 기본적인 서버 시스템 이중화를 구현하고 그것으로 부족해 서버 컴포넌트들을 모두 이중화한 것"이라고 설명했다. 이에 비해 한국HP는 장애를 조기 근절하도록 자가 치유하는 것과 복구 시간 단축을 이중화의 목표로 삼고 있다. 한국HP에 따르면 유닉스 서버의 장애 요인 중 CPU의 캐시와 메인 메모리가 차지하는 비중이 50% 이상이기 때문에 CPU와 메모리의 이중화, 자가 치유가 제공돼야 한다는 것이다. 한국HP는 우선 두 개의 시스템을 클러스터링해 업무의 자동 이관을 구현한 서버 이중화를 기본으로 하고, 여기에 메모리의 에러 가능성을 체크해 복구시키는 ECC와 칩킬 기능을 강조하고 있다. 한국HP 기업고객영업부문의 기술영업사업부 김병철 대리는 "4웨이를 기본 보드로 구성, 병렬로 연결하기 때문에 메모리나 버스의 대역폭을 줄일 수 있고 장애 발생시 4웨이급 셀을 모듈화해 복구 시간을 단축할 수 있다. 이로 인해 CPU와 메모리의 핫플러그, 핫스왑, 이중화가 가능하다"고 설명했다. 이처럼 한국썬과 한국HP간의 이중화 의미를 놓고 옥신각신하는 것은 양사의 CPU-메모리간 커뮤니케이션 아키텍처의 차이 때문으로 보인다. 또 이중화의 구현 목표를 어디에 두느냐도 양사간 차이를 벌려놓고 있다. 이중화 자체는 예정된 다운타임 외에 장애로 인해 예기치 않게 발생하는 다운타임을 1년에 5분 미만으로 줄여 99.999%의 고가용성 구현을 목표로 하고 있지만, 한국썬의 경우 이미 발생한 장애시의 다운타임도 최소화할 수 있어야 한다고 주장한다. 따라서 다른 유닉스 벤더의 서버 컴포넌트 이중화가 단지 홀딩 상태만 제공하는데 비해 자사의 백플레인 이중화는 장애 발생시 자동 리부팅을 통해 문제를 일으킨 백플레인의 업무가 다른 백플레인으로 이관돼 운영이 매끄럽게 이어진다는 것이다. 서버 이중화와 양사의 이같은 논쟁에 대해 한국IBM은 시스템의 CPU 수가 많아지면서 필연적으로 부각되는 현상으로 보고 있다. 한국IBM 고성능 컴퓨팅 기술지원 사업부의 이상호 차장은 "현재 OS의 완전한 이중화 지원이나 시스템 자체의 이중화가 수반되지 않은 초기 이중화 구현 단계인 만큼 각 벤더 제품의 가용도나 평균 다운타임 비교를 수치화하고 평준화하기는 어렵다"고 지적한다. 한국IBM의 경우 장애 발생을 최소화하는 방향으로 기술을 개발, 적용하고 있다. 지난해말 출시한 p690의 경우 구리칩 기반의 파워4 프로세서를 장착, 서버와 메모리간의 버퍼를 줄이고 eLiza라는 자가 치유 프로그램을 적용, 장애 원인을 사전에 근절하도록 했다. 파워4의 경우 L1캐시와 L2캐시를 4개의 CPU가 장착된 패키지에 통합하고 이 통합 패키지 4개를 하나의 보드로 구성하기 때문에 32웨이 서버를 하나의 보드화 할 수 있다. 타사와 달리 CPU 수를 늘리는 아키텍처가 아니어서 장애 후 복구시간 단축보다 장애 최소화에 강하다는 입장이다. 한국IBM이 이상호 차장은 "이로 인해 캐시 에러 빈도를 줄일 수 있으며 캐시와 메모리간 대역폭을 늘릴 수 있어 일단 메모리의 에러 발생 요인이 줄어든다"며 타사와 다른 CPU 지원 방식을 강조했다.이같은 서버 컴포넌트 이중화 논란은 장애 발생 자체를 막을 수 없기 때문에 장애가 발생하더라도 고객이 느끼지 못하도록 하자는데서 출발한다. 텐덤이나 히말라야, 스트라투스 등의 무정지 폴트 톨러런트 시스템이 아니라 HA(고가용성) 차원에서 복구 시간을 단축해 보자는 것. 관련업계는 가용성을 위해 HA 클러스터링이 주로 이용돼 왔고 이같은 HA 클러스터링이 구현 성격상 각 유닉스 벤더의 최고성능 하이엔드 제품에 초점을 맞춰 왔던 반면, 이제 미드레인지급 유닉스 서버로 안정성 확보 논의가 내려선 것으로 풀이하고 있다. 최고급 제품이 아니라 일반 범용 제품에서도 RAS(Reliability, Availability, Scalability)로 일컬어지는 99.999% 고가용성을 실현하기 위한 방안으로 컴포넌트의 이중화가 부상하고 있는 반증이라는 해석이다. @