기술 한계 옛말..."'데이터 홍수' 활용, 미래 아닌 현재"

"예전부터 '데이터 레이크'를 말해왔지만, 국내에서 이를 갖고 논의할 인력이 없었다. 이제는 이 용어를 많은 사람들이 안다. 예전엔 대규모 데이터를 다루는 기술의 한계로 고객 요구사항을 전부 파악하기 힘들었지만, 이제는 이를 충족시켜줄 수 있는 기술이 생겼다."

권동수 효성인포메이션 전문위원은 27일 지디넷코리아가 서울 잠실 롯데월드 호텔서 개최한 '제20회 ACC+ 2023'행사에서 이같이 말했다. 데이터 레이크는 대규모의 데이터 처리를 위한 데이터 저장소 기술이다.

권동수 위원은 데이터 레이크가 언급된 초기엔 이를 지원하는 기술이 하둡밖에 없었다고 했다. 데이터를 변환하고 저장하던 이전 방식과 달리 반정형·비정형 데이터를 모두 저장하게 되면서 페타바이트 단위의 대규모 데이터가 누적됐다. 이에 데이터노드가 100개 이상 필요한 상황이 발생하기도 했다.

이후 다양한 데이터 저장이 가능한 오브젝트 스토리지를 활용하면서 대규모 데이터 분석에 따른 인사이트 도출도 가능해졌다.

GPU가 등장하면서 대규모 데이터 처리 기술도 진보했다. 기존 시스템으로는 GPU를 통한 데이터 처리가 어렵게 되자, 오브젝트스토리지와 네트워크저장장치(NAS)를 초고속으로 병렬하는 시스템을 구축해 페타바이트 단위의 데이터 처리를 지원했다.

이후에도 GPU DB 및 GPU와 직접 연결되는 GPU다이렉트 스토리지 등이 도입되면서 대규모 데이터를 소화할 수 있는 데이터 레이크하우스 기술이 고도화 단계에 이르렀다는 설명이다.

권동수 위원은 "최근 많은 주목을 받는 GPT 모델의 매개변수가 1억1천700만개, 15억개, 1천750억개 이상으로 단기간에 급증했다"며 "자연어 처리 모델이 등장한지는 오래됐으나 대용량 처리 기술과 시스템이 없어 매개 변수를 늘리지 못했는데, 데이터 레이크를 비롯한 기술들이 고도화된 것"이라고 진단했다.