네이버는 어떻게 빅데이터를 안전히 가공할까?

빅데이터&AI 플랫폼 조직서 데이터 접근 인증 플랫폼 구축

인터넷입력 :2019/10/30 14:33    수정: 2019/10/30 14:34

국내 대다수 사용자들이 거의 매일 이용하는 검색 포털 네이버에는 하루에도 수많은 데이터들이 쌓이고 기록된다.

여기에는 검색 쿼리도 있고 이용자들의 개인정보, 다양한 콘텐츠 등 나열하기 힘들 만큼의 정보가 포함된다.

네이버는 이렇게 많은 정보들을 단순히 쌓아두는 건 아니다. 각 부서 개발자들이 데이터를 열람하고, 더 나은 서비스와 시스템을 구축하기 위해 정보를 가공한다. 빅데이터와 인공지능(AI) 기술을 활용해 ‘검색’과 ‘추천’ 등의 분야에서 더 진보된 서비스를 제공한다.

만약 네이버 내에서 민감한 정보들이 무분별하게 열람되면 어떻게 될까? 관리 소홀로 어디론가 빠져나가버린다면 또 어떻게 될까. 외부의 침입으로 정보 유출 사고가 일어나도 큰일이지만, 내부의 허술한 데이터 관리 문제도 심각한 피해를 초래할 수 있다.

왼쪽부터 네이버 빅데이터&AI 플랫폼 정재부 리더, 최철규 테크리더, 권병창 테크리더.

네이버 내에서 개발자들의 데이터 사용 때 보안 문제를 풀어낸 부서가 있다. 바로 빅데이터&AI 플랫폼 조직이다. 이 조직은 하둡을 이용해 '데이터 스위트'라는 보안성을 갖춘 데이터 플랫폼을 개발했다. 이들은 네이버 개발자들이 데이터를 열람하고 잘 가공할 수 있도록 안전한 환경을 제공한다.

지디넷코리아는 네이버 개발자 컨퍼런스 '데뷰 2019' 행사장에서 정재부 리더, 최철규 테크리더, 권병창 테크리더를 만나 빅데이터&AI 플랫폼 부서의 역할과 기능에 대해 들어봤다.

정재부 리더에 따르면 네이버에 보관된 정보는 사내 직원이라 하더라도 아무나 접근할 수 없다. 플랫폼 단에서 허가(인증)된 사용자만 접근할 수 있도록 관리하고 있다. 그 동안은 개발자들이 네이버에 저장된 데이터를 가져다 쓰려 해도 외부 유출 등 보안 문제 때문에 까다로운 절차를 거쳐야 했다.

정재부 리더는 "네이버 개발자들이 데이터를 안전하게 잘 가져와서 가공하고 변형할 수 있는 환경을 만드는 플랫폼이 바로 데이터 스위트"라면서 "인증 받은 사용자만 이 플랫폼을 통해 네이버 데이터에 접근할 수 있다"고 설명했다.

최철규 테크리더는 "기존에는 각 부서들이 데이터를 사용할 때 실수로라도 외부에 유출되면 안 되니 오히려 데이터 접근을 더 어렵게 했다"며 "하지만 데이터 스위트 시스템을 통해 데이터 생산자와 소비자를 명확히 나누고, 오너가 소비자에 권한을 부여함으로써 데이터 접근이 가능한 인증 체계를 갖췄다"고 부연했다.

권병창 테크리더에 따르면 데이터 스위트 플랫폼은 작은 조직에서 사용하다 네이버 전체가 쓰는 플랫폼으로 발전했다. 적은 인력과 작은 데이터를 갖춘 회사라면 굳이 이런 데이터 접근에 대한 체계와 보안성을 구축할 필요가 없지만, 네이버와 같은 큰 조직에서는 취급하는 데이터 용량이 크기 때문에 반드시 필요한 시스템이다. 이런 방대한 데이터를 특정 영역으로 구분하고, 보안을 위한 역할과 권한을 명확히 나눈 것에 대해 빅데이터&AI 플랫폼 부서의 자부심은 상당하다.

최철규 테크리더는 "시큐어 클러스터를 운영하더라도 작은 규모로 운영하는 경우는 있지만, 네이버처럼 대규모로 구축하는 건 쉽지 않다"면서 "데이터의 주인이 누구고, 생산자와 소비자가 누구인지 명확히 구분지어 이에 대한 보안성과 법적 문제들을 검토한 뒤, 권한을 부여 받은 여러 부서 개발자들이 사용할 수 있도록 한 것이 특징"이라고 말했다.

또 "데이터 사용에 있어 판단이 어렵거나 애매한 경우가 있는데, 이 경우 보안 정보를 갖고 있다고 정의해 놓으면 관련 전문가가 붙어서 보안 등급을 판단한다"며 "데이터를 어떤 사람한테 공개할 수 있는지 빠른 판단을 할 수 있는 환경도 제공된다"고 덧붙였다.

권병창 테크리더는 "면대면 만나면서 일하는 조직의 경우 데이터 사용과 보안을 쉽게 통제할 수 있고 어려움을 극복할 수 있지만, 누가 누군지도 모르는 큰 조직에서는 시스템이 이런 문제들을 잡아주지 않으면 안 된다"고 밝혔다.

정재부 리더는 "네이버에는 대용량, 대규모 콘텐츠가 수천억개고, 로그만 수조개에 달한다"면서 "옛날에는 이런 데이터들이 어렵게 관리되다 보니 다른 조직에 이를 공유하기 어려웠지만, 데이터 스위트를 통해 안전하고 쉽게 사용하게 됐다"고 설명했다.

네이버가 이 같은 플랫폼을 구축하기 까지 약 5년 정도의 시간이 걸렸다. 아파치 하둡(큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크)을 이용해 개발했으며, 이 과정에서 발생되는 버그 등을 고쳐 오픈소스로 깃허브 등에 일부 공개하기도 했다. 또 데뷰 개발자 컨퍼런스 행사를 통해 ‘대용량 멀티테넌트 시큐어 하둡 클러스터를 시행착오 없이 만들기’란 주제로 그 동안의 사용 경험과 노하우 등을 공유하기도 했다.

관련기사

네이버 빅데이터&AI 플랫폼 부서는 개발자들에게 대량의 데이터를 다루고, 오픈소스 생태계에 기여할 수 있는 경험을 제공한다. 네이버 안에서 함께 성장할 인재들도 적극 채용하고 있다. 신입 개발자를 포함해 ‘열정’, ‘센스’, ‘인성’을 갖춘 경력직을 찾고 있다.

정재부 리더는 “(네이버에서 일하면) 대량의 데이터를 개발자들이 손쉽고 편하게 쓸 수 있도록 하는 것은 물론, 아마존웹서비스 등 외산 클라우드에서 쓸 수 있는 기능들을 우리 플랫폼에서 해결할 수 있다는 엄청난 자부심을 가져갈 수 있다”며 “네이버가 기술 플랫폼을 지향하기 때문에 회사의 적극적인 지원과 환경 속에서 개발자로서 새로운 것들을 끊임없이 고민하고 개발할 수 있는 기회를 얻을 수 있다”고 말했다.