하둡의 빈틈 '오브젝트 스토리지'가 노린다

빅데이터 저장소 비용절감 대안으로 급부상

컴퓨팅입력 :2020/04/23 06:56    수정: 2020/04/23 06:57

"빅데이터에 하둡을 쓰기에 라이선스 비용 부담이 커졌다. 비용 절감과 효율적인 빅데이터 운영 방법을 찾는 기업이 많아졌다. 하둡 100노드 이상을 넘기면 페타바이트 규모의 용량이 필요한데, NAS나 SAN 스토리지를 쓰기엔 확장성이나 효율성이 떨어져 오브젝트 스토리지가 뜨고 있다."

효성인포메이션시스템 데이터사업팀 김도진 차장은 최근 들어 많은 관심을 받고 있는 오브젝트 스토리지에 대해 이같이 설명했다.

작년부터 비정형 데이터 저장소로 오브젝트 스토리지를 활용하는 시도가 늘어났다. 빅데이터 인프라의 기본이었던 하둡이 비용에서 빈틈을 노출하면서, 오브젝트 스토리지 기술이 빈틈을 파고들며 급부상하고 있다.

비정형 데이터 저장소로 오브젝트 스토리지가 새로운 대안으로 떠오르고 있다.

IDC에 따르면, 작년 오브젝트 스토리지 시장은 2018년 대비 65% 성장했다. 정체 국면인 블록 스토리지와 NAS 시장보다 월등한 성장률이다.

과거 파일 아카이브 용도로 주로 쓰였던 오브젝트 스토리지는 퍼블릭 클라우드 서비스를 통해 급성장했다. 아마존웹서비스(AWS)의 '아마존 S3'나 마이크로소프트 애저의 '블롭(Blob) 스토리지' 등이 대표적인 오브젝트 스토리지 서비스다.

아마존 S3는 발전을 거듭하며 AWS의 수많은 신규 서비스를 연동시키는 중추로 자리매김했다. 많은 기업과 개발자가 오브젝트 스토리지를 편안하게 받아들이게 되자, 기업의 프라이빗 클라우드나 온프레미스 환경에서도 오브젝트 스토리지의 이점을 활용하려는 시도가 나타났다.

김도진 차장은 "올해 들어 비정형 데이터에 오브젝트 스토리지를 활용하려는 사업이 많이 나오고 있다"며 "하둡을 운영하는 고객들이 관리 측면이나 데이터 오프로드 등의 요구사항이 늘어났다"고 설명했다.

김 차장은 "하둡은 쓰리카피를 기본 정책으로 하면서 RAID나 기존의 데이터 보호 기술을 다 버렸다"며 "멀티카피는 데이터 저장 용량이 3배 더 필요하고, 물리적 인 데이터 노드 확장 시 라이선스도 더 필요해진다"고 말했다.

그는 "마침 하둡의 데이터를 적극적으로 수용해 활용하게 하면서 라이선스를 절감시켜 투자 비용이나 TCO를 개선하는 스토리지 제품이 주목받고 있다"고 덧붙였다

하둡 자체적으로 오브젝트 스토리지 사용을 지원하는 쪽으로 개선되고 있다. 하둡파일시스템(HDFS)이 아마존 S3 인터페이스를 제공하는 등 외부 연동 요구를 수용했다.

오브젝트 스토리지의 강점은 확장성이다. 필요 용량에 따라 규모를 늘려도 성능이 저하되지 않는다. 무엇보다, 효용 가치의 확장이란 특징이 기존 스토리지와 가장 크게 다르게 만드는 요소다.

오브젝트 스토리지는 기본적으로 대규모 파일 저장용 스토리지다. 파일을 디렉토리로 관리하지 않고, 메타데이터를 활용해 관리한다.

파일시스템에 기반한 NAS는 디렉토리로 파일을 저장하는데, 파일 개수가 수억, 수십억개로 늘어나면서 성능 저하 이슈가 발생한다. 디렉토리 깊이가 깊거나, 파일 개수가 많아지면 쉽게 찾고 삭제하기 힘들다.

반면 오브젝트 스토리지는 개별 파일을 평면에 쫙 뿌려놓듯이 관리한다. 대신 개별 파일마다 유일무이한 인덱스 데이터를 갖고 해당하는 파일을 찾아낸다.

김 차장은 "오브젝트 스토리지의 경우 파일 규모가 커져도 여러 개의 파일이나 특정 파일을 찾기 유리한 관리체계를 갖고 있다"며 "비정형 데이터도 의미를 넣어서 관리하거나 그를 활용하면 어떨까 하는 생각이 오브젝트 스토리지에 들어갔고. 그게 유저메타데이터나 커스텀메타데이터 형태로 파일과 같이 들어가게 된다"고 설명했다.

그는 "오브젝트 스토리지는 사용자나 앱에서 생성한 정보를 메타데이터화 해서 파일과 묶어서 넣을 수 있다"며 "파일과 메타데이터를 하나의 객체, 오브젝트로 보고 파일 관리 체계를 정책에 기반해 운영하는 것"이라고 덧붙였다.

그는 메타데이터에 대해 사진 관리를 예로 들었다. 디지털 카메라로 촬영한 사진은 기기의 조건, 설정, 편집 작업 도구, 프로그램의 설정값 등을 메타데이터로 갖고 있다. 이 메타데이터를 활용하면 다양한 서비스를 만들어낼 수 있다. 소셜미디어의 글에 해시태그를 달듯 검색이나 모아보기로 활용할 수 있는 것이다.

그는 "메타데이터를 발라내서 서비스 사용자가 어떤 경향을 갖고 있는지, 서비스 사용자의 콘텐츠 관심사가 무엇인지 등을 예측하는 정보 제공 용도로 활용하는 게 가능해진다"며 "활용 측면으로 볼 때 기존 저장 장치가 갖지 못하는 개념을 오브젝트 스토리지가 갖고 있어서 기존의 스토리지의 정합성 외에도 관리, 공유, 활용성의 강점을 보인다"고 설명했다.

오브젝트 스토리지의 다양한 활용성을 극대화한 대표적 사례가 아마존 S3다. 아마존 S3는 단순한 저장뿐 아니라 다양한 AWS 서비스들의 중심 역할을 하고 있다. 데이터웨어하우스(DW), 아카이브, 빅데이터 분석, 스트리밍 데이터 분석 등이 S3를 활용한다.

기업용 스토리지업체의 오브젝트 스토리지 솔루션은 S3의 다양한 기능을 모두 제공하진 않는다. 필수 기능만 지원하는 형태다. 단, 오브젝트 스토리지를 데이터레이크로 구축하고, 더 편리하게 쓸 수 있도록 부가 제품을 제공한다.

효성인포메이션시스템은 오브젝트 스토리지 제품인 HCP와, ETL 솔루션 '펜타호', 콘텐츠 인덱싱 솔루션, 카탈로그 솔루션 '워터라인', 데이터 포털 솔루션 등을 공급하고 있다.

김 차장은 "단순히 스토리지 제품뿐 아니라 이를 데이터레이크로 활용하게 해주는 솔루션 기능을 함께 제공한다는 게 우리의 차별점"이라며 "오브젝트 스토리지는 파일의 내용을 모르지만, 어떤 파일이 있는지 정보를 다 갖고 있으므로 검색엔진을 따로 만들지 않고도 검색할 수 있으며, 한발 나아가서 파일 안에 있는 정보를 기준으로 검색하고 싶다면 별도 인덱싱 솔루션을 활용하면 된다"고 말했다.

그는 "비정형 데이터 카탈로그를 만들고 싶다면 그에 대한 솔루션을 활용하면 되고, 방대한 웹로그나 IoT 데이터 같은 것을 실시간 수집해서 가공하거나 다른 방식으로 처리해 빅데이터에 넘기는 펜타호 ETL을 쓸 수 있다"고 덧붙였다.

오브젝트 스토리지는 오픈스택의 스위프트나 레드햇의 셰프 등 오픈소스 소프트웨어를 활용해 만들 수도 있다. 그러나 오픈소스로 실제로 운영가능한 수준의 스토리지 환경을 구축하기엔 시간과 역량이 많이 든다. 상용 솔루션은 이같은 수고를 줄이고, ROI 시점을 당겨준다.

하둡 진영은 RAID6를 채택하도록 허용하고 있다. 그러나 이는 분산저장과 병렬처리란 하둡의 장점을 줄이고, 단일실패지점(SPOF)이란 단점을 더 드러낸다. 오히려 하둡 데이터 아카이빙 용도로 다양한 스토리지 옵션을 접목하는 '티어링'으로서도 오브젝트 스토리지가 인기를 끈다.

오브젝트 스토리지 구축 사업은 용량 설정보다 관리체계 수립이 중요하다. 네트워크만 준비됐다면 실 사용까지 5분이면 충분하다.

관련기사

김 차장은 "데이터를 얼마나 보관하고 지울 것인지, 보안 상 중요하니 개인정보를 수정할 수 없게 한다든지 하는 정책을 정해야 한다"며 "관리자나 사용자 권한 설정 같은 것도 해야 하는데 이전에 애플리케이션 측면에서 필요했던 고민을 스토리지에서 해야 하는 만큼 실제 구성보다 관리나 운영에 대한 고민을 도입 고려 시점부터 시작해야 한다"고 조언했다.

김 차장은 "하둡에 대한 요구사항이 늘어나고, 수요도 늘어날 것으로 예상돼 전문성을 높여 시장 수요에 대응가능한 서비스를 하려고 준비중"이라고 밝혔다.