"데이터 엔지니어·과학자, 펜타호로 더 쉽게 협업하라"

효성인포메이션시스템 빅데이터사업파트 이진석 수석

컴퓨팅입력 :2019/07/26 15:16    수정: 2019/07/26 17:52

기업이 데이터를 잘 분석하고 빅데이터 활용, 인공지능 개발에 필요한 모델을 잘 활용하려면 뭐가 필요할까. 현실적인 빅데이터 전략을 찾는 이들에게 '원활한 협업 환경과 문화'를 전제한 데이터 운영 전략 및 프로세스를 뜻하는 용어 '데이터옵스(DataOps)'가 화두로 떠올랐다.

효성인포메이션이 제공하고 있는 펜타호는 데이터 분석 플랫폼이다. 데이터소스를 추출, 변환, 적재(ETL)하는 '펜타호 데이터인티그레이션(DI)'과 고급분석 및 시각화를 지원하는 '펜타호 비즈니스애널리틱스(BA)'로 구성돼 있다. 정형·비정형 데이터 수집, 변환, 적재, 분석, 시각화, 머신러닝 등 과정을 처리해 준다.

펜타호는 세계 1천800여 고객사를 지원하는 오픈소스 기반 플랫폼이다. 그리고 최근 업데이트를 통해 데이터옵스를 추구하는 조직에 필요한 워크플로를 더 잘 지원하도록 진화했다.

효성인포메이션시스템 빅데이터사업파트 이진석 수석

효성인포메이션시스템의 빅데이터사업파트 이진석 수석은 최근 인터뷰 자리에서 기업의 빅데이터활용을 위해 기존의 수집, 저장, 보호 단계뿐아니라 운영 단계가 훨씬 중요해졌다고 지적했다.

이 수석은 펜타호가 데이터옵스 시나리오를 지원 가능한 비용효율적이며 우수한 오픈소스 솔루션이며 풍부한 기능과 확장성, 커스터마이징을 지원한다고 설명했다. 고립돼 있던 개별 프로젝트의 경험을 여러 담당자가 공유할 수 있는 길을 열어 준다고 덧붙였다.

이 수석과의 인터뷰를 아래 일문일답으로 정리했다.

- 빅데이터 활용시 데이터 수집, 저장, 보호를 넘어 '운영'이 중요해진 이유는

"그간 빅데이터 수집, 저장, 보호는 많이 해 왔던 얘기다. 반복 작업이 많은 영역이라 거기에 시간을 많이 쏟았다. 과거 개별적인 업무가 주 목적일 땐 수집, 저장, 보호가 중심이었다. 기존 결과물을 재활용할 수 없는 경우가 많았다. 이젠 결과물의 (재)활용도에 관심이 커졌다."

- 데이터 운영을 제대로 못하면 어떻게 되는 건가

"지금도 데이터드리븐 기업이라든지 머신러닝 기술 활용을 하면서도 수집, 저장을 반복적으로 얘기한다. 그런데 여전히 우리 회사에 유용한 데이터라든지 외부에서 가져온 데이터가 어디 있나 모르는 경우가 많다. 기존과 비슷한 프로젝트 많이 하고 데이터는 계속 늘어난다.

아직도 현장에서는 일단 데이터를 모으는 데만 집중하는 경향이 있다. 활용을 위한 프로젝트 대다수는 그 일부만을 가져다 쓴다. 데이터 처리를 수십번 반복해 분석 모형을 만든다. 모형을 만들기 위해 뭘 얼마나 반복했는지 남기지 않는다.

결국 담당자가 데이터를 갖고와 필요한 것에 맞게 뭘 고정하고, 어떤 조건을 변수로 삼을지 파악하고, 처리 결과를 남기는데, (기존 결과물이) 그 '중간 과정'을 친절하게 알려주지 않는다. 그래서 프로젝트 결과물을 보고 다른 사람이 그 데이터를 재활용하려고 하면, (이미 했던 작업을) 처음부터 다시 한다. 왜 그런 결과가 나왔는가 보여주는 정보가 남아 있지 않기 때문이다."

- 그렇다면, 데이터 운영을 잘 하려면 어떻게 해야 하나

"히타치밴타라는 적합한 데이터를 적시에 올바른 장소로 가져올 수 있는 프로세스를 자동화함으로써 데이터의 잠재력을 극대화하는 전략 실행 방법으로 '데이터옵스'를 제시하고 있다.

사실 데이터 운영은 때론 불확실하고 광범위한 개념이다. 앞으로 용어에 공통된 합의가 이뤄질텐데 결국 데이터를 잘 쓸 수 있도록 제공하는 툴과 프레임워크뿐아니라 관련 문화도 포함한 개념으로 확장돼야 한다고 생각한다."

- 효성인포메이션이 기업을 어떻게 도와줄 수 있나

"히타치밴타라와 효성인포메이션시스템은 '데이터 파이프라인', 가시성, 이런 용어를 얘기한다. 우리가 어떤 데이터를 쓸 수 있는지 아는 걸 중시하는 관점에서. 둘을 갖추면 (기업은) 정형, 비정형, 반정형 데이터가 어떻게 모일 것이고 필요한 데이터를 어떤 식으로 검색하면 찾아질 것이다, 이렇게 정리할 수 있다. 그러면 데이터 활용, 운영에 도움이 될 것이다.

히타치밴타라의 펜타호는 데이터 파이프라인을 지원하는 플랫폼이다. 데이터를 워크플로 단위로 처리한다. 수집하고 전처리하고 저장하고, 분석 모형을 만들고 시각화하는 것까지 하나의 워크플로에서 진행한다. 프로젝트 참여자가 자기 역할을 달리 하지만, 그 과정은 하나의 워크플로에서 일어난다."

- 워크플로 기반의 협업이 무슨 이점을 제공하나

"과거 데이터과학자의 업무는 (데이터 엔지니어에게) '데이터를 1번부터 10번까지 주세요' 하거나 '음수값 빼고 계측치 보정해 주세요' 하는 식으로 얘기해 원하는 데이터셋을 만들고 그걸로 모형을 만드는 과정이었다. 한 쪽이 지시하면 다른 쪽이 만들어 주는 관계였다.

그러나 하나의 워크플로에선 양쪽이 데이터가 어떻게 존재하는지 보고, 일을 서로 더 쉽게 할 수 있다. 과학자가 엔지니어에게 요청하는 단계 없이 먼저 한 번 해 보고, 되면 계속 반복하고. 결과물로 직접 BI 툴 시각화 기능에 연결도 하고. 모형에 어떤 데이터가 쓰였는지 확인하는 식으로 하면 더 효과적이다."

- 데이터분석 플랫폼으로서 펜타호의 차별성은

"오픈소스 커뮤니티가 활성화돼 있고, 타 솔루션 대비 유용한 플러그인을 많이 갖췄다. 커뮤니티에서 신기술, 제품 아이디어를 많이 얻는다. 회사가 만든 기술을 커뮤니티에서 활발히 테스트하고. 빠르게 새로운 솔루션 플러그인이 제공되고, 연결된다. 기업들은 펜타호와 유저 커뮤니티 그룹이 개발한 플러그인을 '펜타호 마켓플레이스'에서 내려받고 설치하고 공유할 수 있다."

- 유용한 플러그인 몇 개 소개해 달라

"펜타호에서 만들어진 플러그인 가운데 '플러그인 머신 인텔리전스'라는 게 있다. 개별 실행 엔진 다섯 개를 기반으로 '드래그앤드롭' 머신러닝 기능을 제공한다. 유저 커뮤니티 그룹에서 만들어진 플러그인으로 '네오포제이 아웃풋(Neo4j output)'도 있다. CSV파일 작성과 업로드 과정 없이 노드와 관계 데이터를 갖고 네오포제이 그래프DB를 구축하고, DB에서 모든 명령, 질의, 프로시저를 실행할 수 있다."

- 최근 나온 펜타호 8.3 버전의 개선점은

"멀티클라우드 지원 부분에 개선이 많이 이뤄졌다. 데이터 가시성도 향상됐다. 우리 제품, IBM 제품, SAP 제품과 연동되는 부분도 추가됐다. 또 실시간 대용량 스트리밍 처리를 위한 아마존웹서비스(AWS) 기술 '아마존 키네시스'도 연동된다. 펜타호의 데이터 파이프라인을 그 쪽에 연결해 만들어줄 수 있다는 뜻이다."

- 효성인포메이션의 펜타호를 포함한 빅데이터 사업 성과는

"최근 국내 대형 게임 회사에서 펜타호를 많이 도입하고 있다. 조직 특성상 다른 산업 대비 기술과 환경 변화에 대응이 빨라 신기술 도입이 쉬운 편이며 펜타호의 플러그인 지원 기능 등이 유용하게 활용되고 있다. 반정형 데이터나 게임 로그 데이터같은 걸 많이 처리해야 하는데, 그럴 때 펜타호 제품에 장점이 있다고 보는 것 같다."

- 빅데이터 시장 전망과 향후 사업 추진 방향은

"과거 프로젝트 무게중심이 빅데이터 저장에 있었고 단발성으로 끝난 프로젝트가 많았다. 앞으로는 활용 목적으로, 운영 시스템 개선에 관심이 커질 것으로 예상한다. 기업은 데이터 파이프라인을 구성하고 데이터옵스를 채택하기 원할 것이다. 펜타호 솔루션이 전반적으로 가시성 높이는 영역에 더 많이 활용될 것이라 기대한다.

관련기사

중장기적으로 확산이 기대되는 영역은 사물인터넷(IoT) 관련 빅데이터 처리 인프라다. IoT 분야에선 센서 데이터같은 반정형 데이터가 많이 발생한다. 제조업종 기업이라면 거기서 뭔가 목적을 갖고 활용하려 할 것이다. 지금 진행 중인 프로젝트도 IoT, 실시간, 엣지, 반정형, 이런 쪽 데이터에 초점을 맞추고 있다.

사업부 차원에서도 하반기부터 빅데이터 중 엣지단, 반정형 및 실시간 센서데이터를 포함한 IoT분야 데이터 활용에 좀 더 집중하고자 한다. 히타치밴타라에는 '루마다'라는 IoT 플랫폼 솔루션도 있다. 이 솔루션에도 펜타호가 포함돼 있다. 이런 솔루션을 통해 펜타호의 분석영역을 확장하는 데 집중하겠다."