빅데이터 분석 속도 1천배 빨라진다

DGIST, 패턴 마이닝 메모리 부족 현상 해결

과학입력 :2018/05/28 10:33    수정: 2018/05/29 15:57

그래픽처리장치(GPU)를 이용해 기존보다 1천배 빠른 성능을 나타내는 빅데이터 분석 기술이 개발됐다.

대구경북과학기술원(DGIST)은 김민수 정보통신융합전공 교수팀이 기존 기술인 패턴 마이닝보다 10배~1천배 더 우수한 ‘지마이너’ 기술을 개발했다고 28일 밝혔다.

기존 기술인 '패턴 마이닝'은 대형마트의 상품 구매, 은행의 거래, 네트워크 패킷, 소셜 네트워크 등 다양한 분야의 빅데이터에서 반복적으로 나타나는 중요 패턴들을 찾아냈다. 대형마트 진열대의 상품 위치를 결정하고, 연령별 소비자의 이용 패턴에 맞는 신용카드를 추천하는 등 산업 분야에서 광범위하게 사용돼왔다.

점차 증가하는 패턴 마이닝의 중요성으로 지난 20여년간 수천 가지의 패턴 마이닝 기술들이 개발됐다. 그러나 빅데이터 패턴의 길이가 증가하면서 분석 가능한 패턴의 가짓수가 기하급수적으로 늘어났다. 때문에 수십GB가 넘는 빅데이터에 대해서는 컴퓨터 메모리 부족으로 분석에 실패하거나 시간이 너무 많이 소요돼 사용하는데 한계가 있었다.

기존 패턴 마이닝 기술들은 중간 길이의 패턴들을 구한 후 메모리에 저장해두고, 중간 길이보다 더 긴 패턴을 구할 때 저장해 둔 중간 길이의 패턴과 대조해 최종 패턴을 찾는 방식을 활용했다.

지마이너 기술은 이와 달리 그래픽처리장치(GPU)의 수천 개 코어를 사용해 임시로 계산한 중간 길이의 패턴들을 조합하고 최종 길이의 패턴을 구하는 기법을 제안, 기존 기술 문제를 근본적으로 해결하는데 성공했다.

지마이너 기술은 기하급수적 개수의 중간 길이 패턴들을 메모리에 전혀 저장하지 않음으로써 기존 기술들이 고질적으로 가졌던 메모리 부족 문제를 해결했다.

아울러, 데이터를 메인 메모리에서 GPU로 스트리밍하는 것과 동시에 GPU의 높은 계산 성능을 이용해 패턴을 구함에 따라 느린 속도 문제도 해결했다.

지마이너 기술 및 처리 절차 흐름도. 1) 입력 데이터로부터 길이가 n+1인 후보 패턴들을 생성하면 2)후보 패턴들을 GPU로 복사한다. 3)입력 데이터를 GPU의 장치 메모리를 통해 비동기 방식으로 스트리밍하고 4)스트리밍되는 입력 데이터에 대해 GPU의 계산 코어들을 이용, 중간 데이터 활용 없이 곧바로 후보 패턴의 적합성 여부를 테스트한다. 5)후보 패턴에 대한 부분 테스트 결과를 수집한 뒤 6)수집된 부분 테스트 결과를 메인 메모리를 통해 비동기 방식으로 스트리밍한다. 7)수집된 부분 테스트 결과를 취합, 최종 테스트 결과를 도출한다.

이를 통해, GPU 한 개가 장착된 일반 가정용 컴퓨터 1대만으로 최대 수십 대의 컴퓨터를 사용해 데이터를 분석했던 기존의 분산·병렬 기술보다 작게는 10배에서 최대 1천배 빠른 분석 성능을 나타냈다. 기존 기술들이 분석 가능했던 데이터보다 더 큰 규모의 빅데이터를 분석할 수 있다. 또 GPU 개수와 비례해 성능이 향상되는 우수한 확장 성능을 나타낸다.

관련기사

김민수 DGIST 정보통신융합전공 교수는 “다양한 산업 분야에서 축적되고 있는 빅데이터에 대해 메모리 문제 없이 초고속으로 빅데이터 패턴을 분석할 수 있는 원천 기술을 확보했다”며 “메모리 부족과 느린 속도라는 기술적 한계를 해결해 금융, 유통, IT, 바이오 등 여러 분야의 빅데이터 패턴을 분석해 기업의 효율적인 의사결정을 돕는데 활용할 수 있을 것”이라고 말했다.

이번 연구 결과는 정보과학 분야 국제 학술지 ‘인포메이션 사이언스' 5월호에 게재됐다. 전강욱 DGIST 정보통신융합전공 박사과정 학생이 제1저자로 참여했다.