4. 최근 데이터 보호 기술
- 최신 데이터 복구 시스템의 유형
최근의 데이터 복구 시스템은 여러 가지 유형으로 나누어 볼 수 있습니다. 디스크로의 백업으로서 흔히 D2D(disk-to-disk) 또는 D2D2T(disk-to-disk-to-tape), 테이프 에뮬레이션, 리플케이션(replication) 기반의 복구 기술, 시점 복사로서 완전 미러(full mirror) 또는 시점 기반의 스냅샷(snapshot) 기술 등으로 볼 수 있습니다.
이러한 최근 데이터 복구 시스템의 각 유형별로 상세하게 알아보고자 합니다.
1) Disk-to-disk (D2D)
디스크로 백업을 하고자 할 때 백업 소프트웨어가 서버 클라이언트로부터 데이터를 읽어(read) 바로 디스크로 기록하는 방식을 말합니다. 이러한 데이터는 스테이징 되거나 2차 데이터 보호 장치인 테이프 라이브러리의 복제 이미지(clone)로 저장되곤 합니다.
일반적으로는 테이프 라이브러리의 성능 상의 문제로 디스크를 임시로 사용하다 보니 D2D에는 적지 않은 문제점이 있습니다.
예를 들어, D2D는 결국 파일 시스템을 사용하다 보니 램덤(random) I/O가 발생되고 이로 인해 저가형 스토리지 이를 테면 니어 라인(near-line) 스토리지를 사용하기 어려운 문제가 발생하기 시작했습니다.
실제로 이러한 2차 스토리지, 대개는 SATA 디스크를 사용하였는데 이들 스토리지들은 랜덤(random) I/O에 매우 취약한 구조였습니다. 또한 테이프 라이브러리로 데이터를 보내기 위해서 많은 시간 동안 테이프 라이브러리로 데이터를 보내 주다 보니 해당 서버 시스템에 많은 부하를 초래하게 되었습니다. 이뿐만 아니라 데이터를 테이프 라이브러리로 다 보낸 후에는 해당 디스크의 데이터를 지우는 작업까지 하게 되는데 이때 역시 시스템의 과도한 부하를 발생시킨다는 점입니다.
이러한 문제들 때문에 D2D형태의 백업은 매우 제한적으로 사용되었습니다. 물론 현재까지 대부분의 기업 환경에서는 이러한 백업 시스템이 매우 쓸만한 시스템의 하나로 인식되고 있는 것은 사실입니다.
2) 테이프 에뮬레이션(Tape emulation Virtual Tape Library)
D2D가 디스크 기반의 백업의 가장 쉬운 형태라고 한다면 테이프 에뮬레이션은 디스크를 있는 그대로 사용하지 않고 이상하게 테이프 라이브러리인양 사용하는 것이 바로 테이프 에뮬레이션입니다. 최근 2~3년 들어 테이프 에뮬레이션이 상당히 시장에서 두각을 나타내고 있는데, 사실 그 연원은 매우 오래되었습니다.
메인프레임 시절부터 이미 존재했던 기술인 이 테이프 에뮬레이션 기술은 사실 얼마 전까지는 그다지 매력적인 기술은 아니었습니다. 메인 프레임이 조직을 움직였을 때에는 테이프도 가격이 비쌌을 뿐만 아니라 디스크도 매우 비쌌기 때문에 그다지 마음이 끌리는 기술은 아니었습니다.
하지만 최근 2~3년 사이에 이른바 2차 스토리지라는 개념이 니어 라인 스토리지에 의해서 구현되고 시장에서 보다 저렴한 가격으로 비교적 고성능의 디스크를 사용할 수 있게 된 시점부터는 테이프 에뮬레이션이 매력적인 기술로 다가 오게 되었습니다.
테이프 에뮬레이션은 디스크를 마치 테이프 라이브러리와 동일하게 사용할 수 있도록 만드는 기술이기 때문에 데이터의 흐름 자체가 D2D와 같이 파일 단위로 이동되는 것이 아니라 블록(block) 단위로 움직여 보다 빠른 성능을 낼 수 있게 된 것입니다. 또한 테이프 라이브러리와 동일하게 시스템에서 인식하기 때문에 가장 전통적인 백업 방식으로 형태를 가져와 디스크에 기록하게 됩니다.
성능적인 측면에서 한가지 더 소비자의 마음을 사로잡는 특징 중 하나는 바로, SATA 기술이 랜덤(random) I/O 보다는 연속적인(sequential) I/O에 매우 성능이 잘나온다는 점입니다. 랜덤 I/O의 3~5배 이상의 성능을 발휘하기 때문에 성능도 안정적인데다가 테이프 라이브러리에서의 『테이프 스캐닝 드라이브 로드(load) 데이터 기록』 등의 일련의 절차를 디스크 기반에서 순식간에 가상으로 처리하기 때문에 복구(restore)의 경우 그 성능은 충분히 선택할 수 있는 수준이 되게 됩니다.
최근에는 단순히 VTL 즉, 가상 테이프 라이브러리(Virtual Tape Library)라는 이름으로 많이들 말합니다만, 여기에는 다양한 기능들을 내재하고 있는 여러 좋은 제품들이 많이 나와 있습니다.
VTL 시스템의 고 가용성(High Availability)시스템을 만들어 주는 기능, 원격지와 로컬 시스템 간의 데이터 복제(Replication), 디스크 상의 가상 테이프를 캐시(cache)로 사용할 수 있도록 하는 테이프 캐싱(tape caching) 기능, 하드웨어/소프트웨어 기반의 데이터 압축 기능, 중복 데이터의 제거 기능(de-duplication) 기능 등등을 무장한 시스템들이 속속 출현하고 있습니다.
3) 데이터 복제(Data replication)
데이터 복제 기술은 기술적으로 다양하게 분포되어 있습니다만 크게는 두 개 부분으로 나누어 생각해 볼 수 있습니다. 하나는 바로 스코어카드 복제(Scorecard replication)라는 것이고 또 다른 하나는 중복 기록(data duplication)이라고 할 수 있습니다.
- 스코어 카드 복제(Scorecard replication)
이것은 파일 시스템 또는 디스크 블록 비트맵을 생성하여 정기적으로 변화 상태를 모니터링 한 뒤, 그 변화를 복제본 데이터(replica data) 에 기록하는 방식입니다.
-중복 기록(Data duplication)
데이터의 중복 기록 방식은 복제 소프트웨어(Replication software)에 의해서 디스크로 데이터의 기록이 발생하게 되면 이를 받아서 복제본 데이터로 기록을 하게 하는 것입니다. 이러한 이중 복제 처리는 복제본 즉 리플리카(relica)와 원본 간의 데이터 기록 방식에 따라 동기식(Synchronous), 비동기식(Asynchronous), 그리고 반동기식(Semi-synchronous) 등으로 구분됩니다. 이러한 복제 방식은 소프트웨어에 의해서 이뤄지거나 혹은 하드웨어에 의해서 이뤄지고 있으며 주로 재해 복구 용도로 사용되고 있습니다.
각각의 시스템들은 장단점이 있습니다만 애플리케이션이나 파일 서버 등에 영향을 최소화 또는 아예 없애고자 할 때에는 하드웨어 기반의 복제 솔루션을 사용합니다. 반면 소프트웨어 기반의 복제 솔루션은 파일 시스템과 애플리케이션 등과의 통합이 비교적 용이하고 데이터베이스 애플리케이션과 같은 부분에서는 데이터의 내부 일관성(consistency) 등을 유지하고자 할 때에는 더 나은 부분이 있습니다.
하지만 하드웨어 기반이건 소프트웨어 기반이건 모두 어느 한 면만을 보고 선택하기는 어렵습니다만 보편적으로 안정성 측면에서는 하드웨어 기반을 많이 선호하고 또한 가장 입증된 기술이기도 합니다. 물론 비용도 많이 드는 것은 사실입니다.
데이터 복제 솔루션은 앞서도 언급한 바와 같이 재해 복구(disaster recovery)를 비롯하여 비즈니스 연속성(business continuance) 또는 고가용성 전략(high-availability strategy) 등에서 많이 사용되고 있으며 데이터의 복구 시간이 매우 짧아 현재 기술에서는 가장 우수한 기술입니다만 비용상의 문제로 아직은 전방위적으로 사용되고 있지는 않지만 그 사용범위가 점점 넓어지고 있습니다.
4) Point-in-time 솔루션
Point-in-time 솔루션은 운영 데이터의 복사본(mirrored copy)을 만드는 것으로 off host, 스냅샷(snapshot), zero impact 백업이라고도 불리며 애플리케이션 서버의 백업 작업으로 인한 영향을 미치지 않는 데이터 보호기술이라고 할 수 있습니다. 복사된 이미지는 원본 즉 운영 데이터(production data)와 블록 레벨에서 완전히 동일하고 각 포인터는 스토리지 상에 어디에 데이터가 존재/위치하는 지에 대한 인덱스 정보를 가지고 있습니다. 이것이 Point-in-time 솔루션의 특징이라고 할 수 있습니다.
대개의 스토리지 인프라라는 RAID1을 이용한 디스크 미러링과 같은 방식으로 시스템의 가용성과 안정성을 높이고 있습니다. 그런데 Point-in-time 솔루션을 이용하여 제 3의 복사본을 만드는 것은 가장 주요한 이유로는 데이터 손망실이나 백업 작업의 실패 등의 괴로움으로부터 벗어나 관리 체제를 단순화하고 복구의 속도를 높이고자 하는데 있습니다.
그밖에 또 다른 이유로는 소프트웨어 개발이나 테스트, DR 테스팅과 같은 테스트 목적으로 복사본을 만들고자 하는 이유입니다. 이러한 복사본을 이용하여 주로 애플리케이션의 적용 테스트를 한다거나 Data mart, reporting, mining 등의 DW 업무 등을 수행하면 운영 데이터(production data)를 테스트하게 됩니다.
최근 Point-in-time 솔루션의 연장으로 이해할지 혹은 완전히 새로운 기술로 이해해야 할지 의견이 다양하지만CDP(Continuous Data Protection) 기술이 부상하고 있습니다. 다양한 포인터를 만들고 필요한 시점으로 복구를 할 수 있는 이 솔루션이 니어 라인 스토리지의 발전과 iSCSI와 같은 IP Storage 기술의 확대 등으로 널리 보급되고 있습니다.
5. 디스크 기반의 데이터 보호 기술 – 현재로서는 VTL
이상에서 디스크 기반의 백업 솔루션을 다양하게 살펴 보았습니다. D2D(D2D2T 포함), 테이프 에뮬레이션, 데이터 복제(data replication), Point-in-time 솔루션 등 4가지 솔루션은 각기 저마다의 고유한 장단점을 보유하고 있습니다. 이를 조직에서 필요로 하는 목적에 맞게 적용을 하게 된다면 가장 좋은 백업 및 복구 솔루션이 될 수 있을 것입니다.
가장 이상적인 데이터 보호 솔루션 - VTL
하지만 현재 단계에서 가장 이상적인 백업 및 복구 솔루션을 꼽아 보라고 한다면 단연 VTL(Virtual Tape Library)이라고 할 수 있습니다. 여러 가지 이유가 있을 수 있습니다만 우선 가장 전통적인 백업 방식으로 디스크에 데이터를 기록할 수 있다는 점과 아울러 최근의 중복 데이터 방지 기술(de-duplication)의 채택의 고가용성 스토리지에 더 빠르게 더 적은 용량의 데이터를 보호할 수 있다는 점, 이 점이 바로 현재 VTL이 가장 이상적인 데이터 보호 기술이라고 할 수 있습니다.
물론 최근의 CDP와 같은 기술은 상당히 의미 있는 기술이라고 할 수 있습니다. 이 기술은 이미 1990년 보텍스(Vortex Systems)에서 ‘레트로크론’이라는 제품이 출시된 후 한동안 잊혀졌다가 최근 들어 많은 제품들이 나오고 있습니다. 이 기술은 아직까지 주 업무 시스템으로 편입되고 있지 못하고 있습니다.
반면 VTL은 디스크 백업과 테이프 백업의 장점을 채용하고 있으면서도 디스크 백업의 신뢰성과 성능을 가지고 있습니다. 테이프 미디어의 손망실이 없고, 클리닝 테이프와 정기적인 테이프 클리닝(cleaning)과 같은 유지 보수 작업이 필요치 않으며, 보관해야 할 데이터의 속성에 따라 높은 수준의 데이터의 고가용성 또는 저가용성의 스토리지에 데이터를 저장할 수 있는 탄력성을 보유하고 있습니다.
중복 데이터 제거 기술로 더 강력해진 VTL
게다가 최근의 중복된 데이터의 제거 기술은 막대한 디스크 용량이 필요로 하는 백업 업무의 특성에서 벗어나 보다 적은 디스크로도 더 많은 데이터를 보관하게 되는 기술을 갖게 되었습니다. 이를 통해 원격지에 데이터를 보다 효율적으로 전송할 수 있게 되었습니다.
중복 제거와 관련해서 중복 제거라는 프로세스가 백업하는 시점에서 발생할 경우 인밴드(In-band) 방식이라고 하고 반면, 아웃 오브 밴드(Out-of-band) 방식은 일단 백업을 완전히 다 수행한 뒤에 중복성 여부를 확인해서 중복 데이터의 특정화 및 제거를 수행하는 방식입니다.
이 두 가지 방식은 각기 장단점이 있지만 통상 인밴드 방식의 중복 제거 기술은 백업하는 순간에 중복성 여부까지 확인하기 때문에 성능의 저하를 우려하는 목소리도 있습니다. 반면 아웃 오브 밴드 방식의 중복 데이터 제거는 스토리지의 용량이 인밴드 방식의 스토리지 용량 이상이 필요하기 때문에 중복 데이터의 제거로 인한 메리트를 충분히 가지지 못한다는 공격을 받기도 합니다.
합리적인 VTL 솔루션을 찾는 방법
현재 전세계적으로 실로 다양한 VTL 솔루션을 다양한 벤더들이 제작 판매하고 있습니다. 여기서 조직에 맞는 솔루션을 찾는 것은 무척 어려울 것입니다. 아래에 합리적인 VTL 솔루션을 찾는 가이드를 제시하여 제품 선택에 충분한 고려가 되었으면 합니다.
-통합성(통합능력) : VTL이 다양한 디스크나 테이프 라이브러리 등을 얼마나 통합(Consolidation)할 수 있는가 하는 것으로서 다양한 디스크와 테이프 라이브러를 하나의 접점 즉, VTL로 콘솔리데이션 해야 함을 의미합니다.
-가용성 : 높은 가용성을 제공할 수 있는가 하는 것으로써, VTL 시스템 자체가 높은 가용성을 제공할 수 있는 구조인가 하는 점과 아울러 자체적인 계층적 스토리지 관리 체계를 수립할 수 있는 구조인가 하는 점입니다. 자체적으로 주요 데이터는 고가용성 스토리지에, 다소 덜 중요한 데이터는 저가용성 스토리지에, 장기보관이 필요한 데이터는 테이프 라이브러리에 데이터를 저장하는 등의 운용 관리가 가능해야 함을 의미합니다.
-접속성 : 다양한 접속 채널을 갖고 있어야 하는 것을 의미하는데 표준 Fibre Channel 뿐만 아니라, iSCSI, SCSI 등과도 접속할 수 있어야 합니다. 뿐만 아니라 NDMP 등을 지원하여 NAS와의 접속을 지원하여 NAS 데이터의 백업에도 효율성을 도모할 수 있는 구조여야 할 것입니다.
-확장성 : 스토리지의 확장성을 기본으로, VTL의 I/O 채널 확장성까지 고려되어야 합니다. 단순한 용량 확장성 뿐만 아니라 데이터 입출력의 확장성까지 충분히 고려해야 증가하는 데이터 그리고 줄어드는 백업 윈도우에 능동적으로 대응할 수 있을 것입니다.
-가상화 능력 : 얼마나 다양한 테이프 라이브러리로 에뮬레이션 할 수 있는가 하는 것도 매우 중요한 요소입니다. 아울러 가상으로 라이브러리, 드라이브, 테이프 등을 얼마나 만들 수 있는가 하는 것도 충분히 고려해야 조직에 적합한 최적 구성을 할 수 있기 때문입니다.
-투자 자원의 보호 : 기존 자산을 어떤 방식으로 활용할 수 있도록 VTL이 수용할 수 있는가 하는 것입니다. 이렇게 함으로써 기존 투자 자원을 최대한 보호할 수 있도록 하는 것도 필요합니다.
-사업 수행 능력 : VTL 벤더나 구축사의 역량은 사업 성공 여부에 있어서 매우 중요합니다. 해당 업체의 충분한 구축 경험 정도와 컨설팅 제공 능력과 같은 무형의 가치 등을 종합하여 판단해야 할 것입니다. 통상 사업 수행 능력을 평가하는 요소로는 기업 경영 측면을 비롯하여, 엔터프라이즈 규모의 사업 수행 능력, VTL 사업 수행 능력과 경험, 스토리지 사업 수행 능력, 제안사의 기술 컨설팅 능력 및 통합 능력 등등을 고려하여 비즈니스 측면에서 가치가 있다고 판단되는 업체를 선택해야 합니다.
이상에서 현재의 디스크 기반의 데이터 보호 솔루션의 개요와 다양한 형태를 확인해 보았습니다. 우리의 조직에 어떤 제품이 최적의 솔루션인지는 환경에 따라 다양할 것입니다. 개중에는 VTL 이외의 문제들도 있을 것입니다. 예를 들어 병목 현상이 발생한다면 그 병목을 찾고 문제점이 골치 거리가 무엇인지를 특정화하여 해결하는 과정이 선행되어야 할 것입니다. @










