NVMe를 이용한 기업용 올플래시 스토리지가 대량으로 공급되고 있지만, 플래시 미디어의 성능을 100% 뽑아내지 못하고 있다. 서버 PCIe에 직접 장착하는 플래시 미디어와 달리 별도 네트워크를 활용해야 하는 공유 스토리지가 가진 병목 지점들 때문이다.
이런 가운데 스토리지 업계가 본격적으로 제 성능 뽑기에 적극 나서고 있어 주목된다.
외장형 스토리지에 하드디스크(HDD)보다 낸드플래시를 사용하게 된 지 수년째지만 기업은 여전히 플래시 미디어의 성능을 온전히 활용하지 못하고 있다. 저장매체 자체의 성능은 HDD보다 비약적으로 빨라졌지만, 기업의 데이터 환경을 구성하는 인프라 요소 곳곳에 병목이 존재해 기본 성능을 낮춘다. 데이터 처리 프로토콜과 인터페이스, 스토리지 운영체제가 주요 병목으로 꼽힌다.
서버에 HDD나 SSD, 플래시 미디어 등을 직접 장착하는 형태를 '디스크 어태치 스토리지(DAS)'라 부른다. DAS의 경우 NVMe를 지원하는 플래시 미디어는 기본적인 성능을 온전히 발휘한다. 문제는 공유형 스토리지다. 엔터프라이즈 기업의 애플리케이션과 시스템은 많은 데이터를 저장하고 처리해야 하기 때문에 DAS 형태로 구성하면 확장에 한계가 있다. 만약 DAS로 기업용 애플리케이션용 스토리지를 구축한다면, 용량 부족 시 서버의 PCIe 슬롯 수만큼만 미디어 수를 늘리거나, 서버 자체를 늘려야 한다. 하이퍼컨버지드인프라(HCI)가 이경우 해법일 수 있지만, 가격부담을 해소하진 못한다. 결국 기업은 대규모 데이터 처리를 위해 공유형 스토리지를 사용할 수밖에 없다.
HDD 자리에 솔리드스테이트드라이브(SSD)를 장착하는 최초의 올플래시 스토리지 제품 후 PCIe 채널을 활용하는 플래시 미디어 전용 프로토콜인 NVMe까지 나왔지만, 성능을 낮추게 되는 병목은 계속 남았다.
스토리지 업계는 일단 3대 병목 가운데 인터페이스 부분에서 해법을 모색하고 있다.
NVMe는 마이크로초 수준의 레이턴시 성능을 제공할 수 있지만, 문제는 서버에서 떼어낸 외장형 스토리지 어레이로 구성했을 때다. 기존 스토리지 네트워크(SAN)나 이더넷 등을 이용해 스토리지 어레이와 서버를 연결하게 되는데 그 연결 구간에서 NVMe를 쓸 수 없다.
그러자 스토리지 업계는 기존 기업의 네트워크 패브릭 프로토콜에서 NVMe를 사용할 수 있는 기술적 해법을 고민했고, 그렇게 NVMe오버패브릭(NVMe-oF)이 고안됐다.
2016년 처음으로 표준 스펙으로 정의되기 시작한 NVMe-oF은 2019년 네트워크 프로토콜에 TCP를 추가하면서 본궤도에 올랐다.
서버가 스토리지에 데이터를 저장하거나, 저장된 데이터를 불러올 때 사용해온 SAS, SCSI는 기본적으로 입출력(I/O) 큐를 한번에 하나만 처리하게 만들어졌다. 하드디스크의 암이 돌아가는 원판에서 데이터를 읽거나 쓰는 시간을 감안해서다. 디스크 회전 시간을 감안해 한번에 한 I/O씩 시간순서 대로 작업을 처리하게 된다.
반면, 플래시 미디어는 CPU가 한번에 여러개의 I/O를 처리할 수 있다. 데이터를 찾거나, 쓰는 명령을 한번에 6만4천개까지 할 수 있다. PCIe로 연결된 상태에선 NVMe가 멀티 큐를 처리하는데 거리낄 게 없다. 그러나 외부 네트워크를 타고 나가면 NVMe라 해도 한번에 하나의 I/O만 처리할 수밖에 없다.
이런 상황에서 기업이 NVMe를 지원하는 올플래시 스토리지 어레이를 활용하려면, 스토리지 네트워크 환경도 같이 새로 구축해야 한다. 서버의 PCIe를 외부로 확장하는 '허브' 형태의 전용 네트워크 장비와 케이블을 구비해야 하는 것이다.
NVMe-oF은 네트워크 차원의 병목을 제거하기 위해서 만들어졌다. 기존에 구축해둔 SAN을 그대로 유지하면서 NVMe 성능을 누리게 해주는 기술이다. 스토리지 영역에서 가장 많이 쓰이는 SAS/FC 프로토콜이나 인피니밴드, TCP 이더넷에 캡슐화된 NVMe 패킷을 주고받는 통신을 하게 한다.
NVMe-oF은 네트워크 인프라로 무엇을 사용하느냐로 나뉜다. SAS나 iSCSI SAN 환경을 사용하면 NVMe-oFC, TCP 이더넷 환경을 사용하면 NVMe-oTCP, RDMA 기술을 사용하면, NVMe-oRDMA라 부른다.
NVMe-oFC가 가장 먼저 만들어져 조금식 보급되고 있고, NVMe-oTCP가 주요 스토리지 업체에서 지원되기 시작하며 기지개를 켜고 있다.
3종류의 성능을 비교하면 RDMA가 가장 빠르고, TCP가 가장 느리다. 그러나 기본 SATA 채널 연결보다는 월등히 빠르다.
RDMA가 가장 빠르다고 하지만, 비용 부담이 크다. NVMe-oRDMA를 사용하려면 서버 측의 네트워크 카드를 ROCE나 iWARP 프로토콜를 지원하는 전용 어뱁터 카드로 써야 한다.
현재 델테크놀로지스, HPE, 히타치밴타라, 퓨어스토리지, 넷앱 등 주요 기업용 스토리지 제공업체는 NMVe-oFC를 지원한다. 여기에 TCP 지원이 주요 업체에서 올해부터 본격화된다.
델테크놀로지스는 하반기 블록, 파일, 오브젝트 스토리지 제품군의 각 운영체제(OS)에서 NVMe-oTCP를 지원할 예정이다. 파워맥스, 파워스토어, 파워플렉스 등의 제품에서 NVMe-oTCP를 지원하는데, 100GbE 인터페이스 환경에서 FC 환경보다 73% 빠른 성능을 낼 수 있다고 한다. 포트당 비용은 80% 절감할 수 있다고 설명한다.
HPE는 현재알레트라 등 주요 스토리지 제품에서 NVMe-oF를 지원하고 있다. FC 지원과 함게 RDMA, TCP 등도 지원할 수 있도록 기본적인 스토리지 OS에 준비를 마쳤다고 설명한다.
히타치밴타라는 FC 활용에 집중하는 한편, 점진적으로 TCP 지원에 나선다는 계획이다. 히타치밴타라 VSP 시리즈는 NVMe-oFC를 지원하며, 여러 시나리오를 조합한 하이브리드 구성을 지원한다.
넷앱은 작년 9월 온탭 OS에 TCP 지원을 추가한다고 밝혔다. 기존 iSCSI를 업그레이드해 SCSI 프로토콜 대신 NVMe 프로토콜을 활용하는 식으로 이뤄진다.
퓨어스토리지는 FC와 RDMA에 집중하는 모습이다. NVMe/TCP 지원 계획은 밝히지 않고 있다. 퓨어스토리지가 후발기업에 속하는 만큼 주요 고객층이 iSCSI보다 FC에 몰려 있기 때문으로 해석된다.
업계는 비용부담없이 빠른 성능에 투자하는 기업고객의 경우 NVMe-oRDMA를 선택하고, 가성비 투자를 고려하는 기업고객의 경우 NVMe/FC나 NVMe/TCP를 선택할 것으로 본다.
그러나 인터페이스가 NVMe를 지원한다고 해서 100% DAS의 성능에 견주게 되진 않는다.
김이태 한국HPE 매니저는 "NVMe오버패브릭이 제 성능을 발휘하려면 기업의 프론트엔드도 업그레이드돼야 한다"며 "백엔드와 인터페이스가 NVMe를 지원하더라도 프론트엔드의 성능이 뒷받침되지 않으면 성능 향상에 제한이 있다"고 설명했다.
프론트엔드란 서버와 스토리지를 연결하는 SAN 네트워크 영역이다. FC든, 이더넷이든 스토리지용 스위치의 대역폭 성능이 100Gb 수준으로 올라가야 NVMe 프로토콜의 성능을 뒷받침할 수 있다는 것이다. 서버의 NIC 성능도 높아야 한다.
효성인포메이션의 권필주 전문위원은 "기본적으로 스토리지 네트워크 대역폭이 100G 이상을 써야하는데, 지금 현장에서 가장 많이 보급된 환경은 10G나 25G에 불과해 생각보다 NVMe-oF의 혜택이 적다"고 말했다.
NVMe-oRDMA를 사용하는 경우 네트워크 비용은 더 커진다. 앞서 서버의 NIC을 고가의 HCA로 바꿔야하고, 네트워크는 200~300Gb 수준으로 높아야 한다. 자칫 네트워크 비용이 스토리지 비용에 육박할 수 있다.
결국 올플래시 스토리지 제품을 구축하는 기업이 이더넷이나 SAN 스위치도 고사양으로 업그레이드할 경우에야 NVMe-oF 지원이 제 의미를 발휘할 수 있다는 의미다.
공유 스토리지의 인터페이스는 업계 공동 대응으로, 네트워크는 고객의 결단으로 병목을 해결될 수 있지만, 여전히 스토리지 OS의 병목이 남는다.
기업용 스토리지의 OS는 기본적으로 서버의 CPU가 보내는 데이터 처리 명령에 따라 저장매체에서 정확한 데이터를 찾아 빠르게 제공하는 역할을 한다. 그러나 기본 데이터처리보다 백업, 압축, 중복제거 등의 기능이 공유형 스토리지를 쓰는 주된 이유기도 하다.
현 스토리지 업체의 OS가 NVMe에 완전히 최적화됐다고 보기 힘들다. 대부분의 업체는 OS를 NVMe에 최적화하고, 아키텍처를 개선하고 있다고 밝히고 있다. 그러나 OS 개선에 따른 성능 향상 효과는 명시적으로 밝히지 못하는 상황이다.
권필주 전문위원은 "스토리지 업계가 OS의 NVMe 최적화에 따른 성능 개선 효과를 증명하지 못하고 있다"며 "병목의 비율로 보면, 스토리지 OS의 기능 문제에 따른 레이턴시 유발 비중이 30%를 넘는다"고 설명했다.
관련기사
- 델테크놀로지스, 스토리지OS에 NVMe/TCP 지원 추가2022.05.04
- 히타치 밴타라, 국내 하이엔드 스토리지 8년 연속 선두2022.04.05
- "데이터 패러다임 변했다, 스토리지도 변했다"2022.03.22
- 퓨어스토리지, 스케일아웃 스토리지 새 버전 출시2022.06.16
그는 "프론트엔드나 백엔드에 NVMe-oF를 적용하더라도 성능 개선을 100% 할 수 없게 되는 것"이라며 "스토리지 업체들이 NVMe-oF 적용에 따른 성능 향상 효과라고 주장하는 사례는 대개 백엔드의 인터커넥트 아키텍처에 ROCE나 iWARP를 사용해 스토리지 내부 통신 간 NVMe 최적화를 한 것"이라고 덧붙였다.
델테크놀로지스 측은 "응답속도 측면에서 HDD에서 낸드로 바뀌며 획기적으로 향상됐고, 인터페이스를 NVMe로 바꿔 또 높인 뒤, 향후엔 스토리지클래스메모리(SCM) 활용으로 컨트롤러의 지연을 제거할 수 있게 될 것"이라고 밝혔다.