[기고] 차세대 고성능 스토리지 시대가 열린다

효성인포메이션시스템 데이터사업팀 김도진 차장

전문가 칼럼입력 :2021/10/29 09:27

김도진 효성인포메이션시스템 데이터사업팀 차장

불과 얼마 전만 해도 빅데이터 혹은 데이터 레이크라 하면 하둡을 사용하는 것이 일종의 공식이었다. 하지만 이제는 다르다. 기술이 급속도로 발전하면서 AI 분석이나 대규모 시뮬레이션을 위해 하둡을 뛰어넘는 고성능 IT 인프라가 요구된다. 신기술 활용의 핵심인 입출력(I/O) 집약적 워크로드를 얼마나 빠르고 비용 효율적으로 처리하느냐에 따라 기업의 경쟁력이 결정되는 시대가 됐다.

효성인포메이션시스템 데이터사업팀 김도진 차장

■ 고성능 IT 인프라 구축의 어려움

기업이 고성능 IT 인프라를 구축하는 과정은 녹록치 않다. 머신러닝 관련 기술을 확보하기 위해 고성능 GPU 서버를 사용하는 기업이 늘고 있다. 하지만 GPU 서버 도입만으로 데이터를 더 빠르게 처리할 수 있는 것은 아니다. 비싼 GPU 서버를 구매하고도 스토리지에서 예상치 못한 병목이 생겨 고가의 장비를 제대로 쓰지 못하는 경우가 많다.

이를 해결하기 위해 기업은 큰 비용을 들여 올플래시 어레이(AFA)를 도입하기도 하지만, 병목 문제는 해결하더라도 원하는 성능에 모자랄 수 있다. 기업 내부에서 분석 요구사항이 변했을 때 유연하게 대응하기도 어렵다. 더 큰 문제는 유지관리 비용이다. 처리할 데이터가 늘면 스토리지를 추가 구매해야 하는데 비용 부담이 눈덩이처럼 커진다.

기업은 비용 문제 해결을 위해 더 많은 데이터, 특히 자주 사용하지 않는 콜드 데이터를 저장하는 용도로 오브젝트 스토리지, 퍼블릭 클라우드, PTL 등을 검토하기 시작한다. 그러나 이질적인 스토리지 인프라를 무분별하게 도입하면 데이터가 서로 호환되지 않는 사일로(silo) 환경이 된다. 데이터가 늘수록 티어링 과정에서 새로운 병목이 발생할 가능성도 크다. 시간과 비용을 낭비한 채 결국 다시 원점으로 돌아오는 것이다.

■ 새로운 고성능 스토리지 솔루션이 필요한 이유

데이터 분석, AI 학습, 데이터 통합과 같은 새로운 요구사항은 기존 스토리지 솔루션으로는 완벽하게 지원하기가 어렵다. 특히 데이터가 사일로화되는 과정을 보면 기존 스토리지 솔루션의 한계가 드러난다. 여기에 최근 데이터 분석을 진행하는 주체인 현업 담당자가 구체적인 데이터 분석 요건과 성능을 요구하며 스토리지 구매에 적극 개입하게 되면서, IT팀에서는 현업의 요구에 맞는 명확하고 실용적인 솔루션을 제시해야 한다.

오늘날 기업이 고성능 스토리지를 필요로 하는 이유는 데이터 수집과 데이터 모델링 관점에서 분석할 수 있다. 데이터 수집 측면에서 고성능 스토리지는 기업 내부 여러 곳에 분산된 데이터를 빠르게 가져와 분석하는데 활용된다. 이 과정에서 여러 애플리케이션과 손쉽게 연동하고 다양한 프로토콜을 지원해야 하며, 데이터 전처리와 AI 학습 데이터 제작을 위한 데이터 피보팅, 중복과 편향성을 정리하는 작업 등이 요구된다. 고성능 스토리지는 이 같은 I/O 집약적 워크로드를 원활하게 처리해 준다.

데이터 모델링 관점에서도 기본적인 통계 분석 요건을 넘어 최근 중요해진 딥러닝 지원을 위한 GPU 기반의 분석 등에 고성능 스토리지가 활용된다. 데이터 파일을 매우 잘게 쪼개 고속으로 분석하기 위해서는 I/O 집약적인 작업과 고성능 대역폭이 필요하다. 이렇게 만들어진 모델을 단기간에 서비스하고 이 모델로 처리해 얻은 대용량 데이터를 다시 저장하는 것도 오늘날 고성능 스토리지가 필요한 이유다.

■ 차세대 초고성능 스토리지의 핵심 요건 4가지

기업이 겪는 어려움과 현업의 요구사항을 종합하면 성능과 확장성을 모두 만족하는 차세대 초고성능 스토리지의 윤곽을 그릴 수 있다. 구체적인 요건은 다음 4가지 영역으로 정리된다.

최근 스토리지 트렌드와 새로운 요건

먼저, 파일 스토리지를 살펴보자. 기업이 보유한 데이터 중 빈번하게 사용하는 핫 데이터의 비율은 10~20% 정도이고, 나머지는 접근 빈도가 낮은 콜드 데이터다. 전자는 전통적인 NFS를 뛰어넘는 고성능 스토리지에 저장하되 스케일업 방식으로 확장을 지원하고, 후자는 경제성을 위해 오브젝트 스토리지 등을 통해 유연한 확장성을 제공해야 한다. 또한 파일 스토리지에서 중요한 것이 티어링이다. 핫 데이터도 시간이 지나면 콜드 데이터가 된다. 따라서 미리 설정한 정책에 따라 데이터를 자동으로 고성능 스토리지와 저성능 스토리지 사이를 오갈 수 있도록 안정적으로 지원해야 한다.

두 번째는 네트워크다. 오늘날 애플리케이션이 작동하는 방식을 보면 스토리지에서 고속으로 데이터를 가져와 처리를 하고, 이 과정에서 상당한 대역폭이 필요하다. 파일 스토리지 내 데이터가 이동하는 영역에서 최소 10~25G 이더넷 네트워크, 심지어 100G로 구성하는 경우도 있다. 차세대 초고성능 스토리지는 이런 작업이 가능하도록 충분한 대역폭을 지원해야 한다. 특히 인피니밴드에 대한 지원은 점점 더 필수가 되고 있다.

세 번째는 파일 시스템이다. 모든 파일 스토리지는 파일 시스템을 구성해 파일 서비스를 제공한다. 차세대 초고성능 스토리지는 기업의 필요에 따라 다양한 형태로 파일 시스템을 구성하도록 지원해야 한다. 예를 들어 단일한 통합 파일 시스템으로 구성하는 것은 물론 업무 영역에 따라 여러 개로 파일 시스템을 구성해 정책에 따라 용량과 성능을 차등 서비스할 수 있어야 한다. 병렬 파일 시스템을 활용해 수억 개 이상의 파일을 동시에 처리하거나 다양한 크기의 파일을 처리하고 낮은 응답 시간을 보장하는 등 현업의 구체적인 분석 요구사항도 수용해야 한다.

마지막으로 차세대 초고성능 스토리지는 다양한 파일 서비스 방식을 지원해야 한다. 그래야   기업은 NFS, SMB, 아마존 S3 등 다양한 프로토콜을 사용해 애플리케이션 용도에 맞춰 저장소를 활용할 수 있다. 스토리지 자체의 전용 클라이언트를 통해 더 다양하고 강력한 기능을 지원하는 경우도 있다.

■ 차세대 스토리지 솔루션 선정 시 고려사항

최근 들어 국내에서도 차세대 초고성능 스토리지에 대한 수요가 늘어나고 있다. 금융, 제조, 공공 등 업종을 가리지 않고 제품과 서비스의 품질을 개선하려는 기업의 공통된 관심사다.

기업이 차세대 초고성능 스토리지를 검토할 때 반드시 고려해야 할 사항이 있다. 무엇보다 GPU 지원이다. AI 기술을 활용하려면 GPU가 필수이므로 이를 완벽하게 지원해야 한다. 네트워크는 과거 100G 이하로 대부분 구성됐지만 현재는 데이터 분석 환경에 따라 200G 이상의 대역폭이 필요하므로 인피니밴드 등을 지원해야 한다. 이 밖에도 최대 수십억 개 달하는 파일을 스토리지에서 운영 관리할 수 있는지, 데이터 규모가 커짐에 따라 비용 효율적으로 운영할 수 있는지, 수십 PB 이상으로 확장할 수 있는지도 확인해야 한다.

솔루션만큼 중요한 것이 업체 선정이다. 오늘날 스토리지 제품에는 다양한 분석, 관리 솔루션이 연동되므로 전체 데이터 분석 생태계를 이해하는 업체를 골라야 한다. 기업의 데이터 분석 환경을 보면 단순히 정해진 프로토콜만 가지고 작업하는 것이 아니라 아마존 S3 같은 다양한 외부 서비스에 대한 이해와 경험을 가진 스토리지 업체의 지원을 받아야 하는 경우가 많다. 이 과정에서 기존 애플리케이션과 연동하거나 신규로 개발해야 하는 경우도 있으므로 개발 역량도 면밀하게 검토해야 한다.

관련기사

차세대 저장장치 HCSF의 아키텍처

효성인포메이션시스템은 스토리지의 성능과 확장성 문제로 어려움을 겪는 기업을 위해 HCSF를 제공한다. 고성능 병렬 파일 시스템과 오브젝트 스토리지를 통합한 패키지 솔루션이다. HCSF는 차세대 초고성능 스토리지에 필요한 주요 요건을 충실하게 지원한다. 병렬 파일 시스템을 통해 고성능을 지원하고, 무제한 확장이 가능하다. 네트워크는 기업이 원하는 대로 10G부터 인피니밴드까지 선택할 수 있고 다양한 파일 시스템과 서비스를 지원한다.

시장 경쟁이 격화되고 코로나 같은 경제의 불확실성이 커지면서 품질과 서비스를 꾸준히 개선하는 이른바 '기업의 기본기'가 점점 더 중요해지고 있다. 기존의 기술 격차를 유지하고 나아가 더 벌리기 위해서는 IT를 적극 활용해야 한다. 기업이 최신 기술의 장점을 충분히 누릴 수 있는 강력한 차세대 초고성능 스토리지에 계속 관심을 가져야 하는 이유다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.