생성 AI는 데이터 엔지니어링을 어떻게 바꾸는가

“대규모언어모델(LLM)의 등장은 데이터를 만지고 활용하는 작업을 쉽게 했다. 사용자는 SQL 없이 자연어로 데이터를 다룰 수 있고, 엔지니어는 데이터레이크하우스를 통해 ETL 없는 데이터 공급을 할 수 있다. 데이터 엔지니어링 계층의 전통적인 워크로드가 없어지는 건 아니다. LLM은 특정 영역을 평탄하게 만들고 SQL과 ETL을 필요없어 보이게 만들지만, 여러 영역의 데이터 엔지니어링은 여전히 유효하다.”

다니엘 핸드 클라우데라 아시아태평양지역 최고기술책임자(CTO)는 최근 본지와 인터뷰에서 LLM 등장으로 달라지는 데이터 엔지니어링 작업에 대해 이같이 밝혔다.

그는 “LLM과 RAG를 위해 콤플렉스 임베딩과 벡터 데이터베이스 구축 등을 위한 데이터 엔지니어링은 필요하며, SQL도 LLM 사용을 위해 적절하게 짜거나 최적화하는 방향으로 활용해야 한다”며 “다만, 자연어 기반 검색 강화가 클라우데라의 목표고, 휴 에디터 같은 클라우데라 툴 내에도 들어갈 것”이라고 설명했다.

그는 LLM 같은 생성 AI 모델을 기업에서 제대로 활용하려면 유연한 데이터레이크하우스를 구축해 데이터를 관리해야 한다고 강조했다.

전통적으로 기업의 데이터 활용 흐름은 원본을 ETL 도구로 가져와 분석 시스템에 올리고, 분석가가 준비된 데이터를 SQL로 조회하는 방식이었다. 이런 흐름이 생성 AI로 넘어가면 바뀌게 된다. 데이터레이크의 데이터를 AI 모델이 학습하거나 수시로 조회하고, 인간은 자연어로 데이터를 다룬다. 단, 데이터레이크는 무작위로 모든 데이터 유형을 담아놓으므로 접근제어 무력화나 보안 위협, AI 안전 등의 문제를 초래할 수 있다. 그래서 데이터를 좀 더 구조화하는 ‘데이터레이크하우스’가 요구된다.

특히 생성 AI 모델이 잘못된 정보나 비도덕적 혹은 반사회적 표현을 답변으로 내놓는 환각 현상을 모든 사용자 층에서 우려하고 있다. 민감한 데이터를 다루는 기업이나 조직일수록 그렇다. 또한 더 전문적인 영역에서 맥락에 맞는 답변을 내놓게 하는 것도 숙제다. 이를 위해 ‘검색증강생성(RAG)’이란 방식이 해법으로 떠오르고 있다. 기업 내 저장된 비공개 데이터를 LLM에 연결하고 컨텍스트를 강화하는 것이다.

다니엘 핸드 CTO는 “전통적 방식으로 데이터를 사용하면. 관계형 데이터베이스에서 소스를 복제해서 데이터레이크나 데이터웨어하우스에 넣고, 머신러닝을 하려 프로세싱 엔진에 복제해서 또 갖다 놓는다”며 “벌써 두번이나 복제를 떠서 비효율적인데, 클라우데라는 데이터레이크하우스에 한번만 복제해서 갖다두고 여러번 써서 복제와 ETL도 줄이자는 것”이라고 말했다.

그는 “데이터레이크하우스의 2차적 이익은 혹시 모를 데이터 불일치를 줄이고, 데이터엔지니어링 파이프라인에서도 실패 가능성 줄일 수 있다는 것”이라며 “라인의 경우 데이터레이크하우스 아키텍처를 활용해 데이터 축적 후 특정 컬럼 추가나 컬럼명 변경, 제거 등의 구조 변경 등의 작업을 전체 프로세스를 멈추지 않고도 할 수 있다는 것을 보여주는 좋은 사례”라고 덧붙였다.

데이터레이크와 데이터레이크하우스를 끊어서 생각해야 한다고 조언했다. 데이터레이크는 단순한 저장소지만, 데이터레이크하우스는 보안계층이나 접근제어를 포함한 종합적 아키텍처란 것이다. LLM일수록 구축, 운영하는 엔지니어 입장에서 내부적으로 더 복잡하고 다양한 요건을 관리해야 하는데 고도의 플랫폼을 사용해야 한다고 그는 강조했다.

클라우데라는 기존 데이터 플랫폼에 ‘아파치 아이스버그’란 데이터레이크 기술을 채택했다. 아이스버그를 채택함으로써 개방형 테이블 포맷인 ‘파케이’를 써서 데이터를 쌓고 이용할 수 있다.

일반적으로 사용가능한 데이터레이크 기술로 ‘아이스버그’ 외에도 ‘델타레이크’나 후디’ 등이 있다. 왜 굳이 아이스버그를 택했는지 물어봤다.

그는 “데이터레이크하우스의 아키텍처 자체는 4~5년 전에 나왔고, 클라우데라의 연구 시점에 아이스버그가 좀 더 나은 레이크하우스 아키텍처를 만들 수 있는 기술이었다”며 “클라우데라의 기본 사상은 레이크하우스를 다양한 프로퍼티를 다 포함할 수 있어야 한다는 것”이라고 말했다.

그는 “이전에 데이터 플랫폼은 하이브 테이블 포맷을 썼는데, 당시에 아파치 후디 같은 오픈소스나 델타레이크 같은 준 오픈소스도 있었다”며 “6~12개월 정도 살펴봤을 때 아이스버그의 개방성, 프로세스 엔진 호환성 등이 좋다는 판단을 내렸고, 이후 여러 조직에서 아이스버그를 채택했다는 점은 우리의 전략이 맞다는 것을 확인시켜줬다”고 밝혔다.

그는 “아이스버그는 링크드인, 넷플릭스, 텐센트 등도 기여하고 있으며, 지난 클라우데라 이볼브 행사에서 애플도 기여 의사를 밝혔다”고 덧붙였다.

외면적으로 보기에 LLM의 데이터 흐름도는 데이터 복제, 이동도 없어서 단순해 보인다. 하지만 그 속은 전보다 더 복잡하다. RAG에 의해 여러 유형의 데이터가 사용자 화면에 답변으로 표출되기까지 수차례 오간다. 답변 정보를 LLM에 재학습시킬 것인지, 특정 정보의 경우 특정 사용자의 접근을 차단할 것인지 등 거버넌스가 복잡다난하다.

기업이 RAG를 LLM에 적용하려면 내부 데이터의 벡터화를 진행해야 한다. 관계형 데이터베이스에 저장된 데이터를 숫자로 바꾸고, 데이터 간 연관성을 부여해 LLM에게 맥락을 이해하는 작업이다.

다니엘 핸드 CTO는 “기본적으로 벡터화는 두가지로 나눠서 볼 수 있다”며 “클라우데라의 접근방식은 데이터를 청크로 쪼개 임베딩하고 벡터 DB에 넣는 형태”라고 말했다.

그는 “이 방식은 현재보다 좀 더 혁신이 필요하고, 워크플로우를 더 자동화하거나 작업을 더 쉽게 만들어야 한다고 본다”며 “파인콘 같은 클라우데라의 파트너가 열심히 해당 부분에서 노력하고 있고, 향후 추가 제품으로 나올 수 있다고 생각한다”고 덧붙였다.

일단 클라우데라는 RAG 작업을 간단하게 수행할 수 있는 지름길을 열어놨다. 클라우데라의 어플라이드 머신러닝 프로토타입(AMP)’은 템플릿 형태로 AI 환경을 빠르게 구축할 수 있게 한다. 생성 AI용도 AMP는 ‘밀버스’란 오픈소스 기반 벡터 DB를 내장하고 벡터 서치로 쓸 수 있게 한다.

에어플로우란 통합 요소도 있다. 에어플로우는 데이터 엔지니어링에서 전체 워크플로우를 정의하고 운영하게 하는 도구다.

다니엘 핸드 CTO는 “임베딩 단순화, 벡터 DB 거버넌스, 접근 단순화는 같으면서 다른 문제”라며 “내부적으로 평가를 하고 있으며, 기본적으로 시맨틱 서치에 프리필터링 개념을 넣어 맥락을 적용하고 사용자에게 적합한지 감안하게 한다”라고 말했다.

그는 “현재 클라우데라 플랫폼 내의 메타데이터 관리, 리소스 접근 측면 등을 잘 엮어서 거버넌스 문제를 해결하려 노력중”이라고 덧붙였다.

클라우데라데이터플랫폼(CDP)은 SDX란 요소로 데이터 거버넌스를 지원하고 있다. 데이터 전체의 여정을 보고 소유권이나 탄생부터 소멸까지 전체 수명 주기를 관리한다. 그는 향후 조직이나 부서, 역할 등에 따른 LLM 데이터 접근 관리에 대해서도 업데이트가 이뤄질 것으로 예상됐다.

그는 “데이터가 많이 단순해진 듯 하지만, 손대서 만져보면 복잡하며, 알고리즘 자체도 복잡하다”며 “그래서 클라우데라는 머신러닝 서비스를 제공하는 게 아니라, 그 운영 서비스를 제공한다”고 말했다.

그는 “클라우데라는 복잡한 AI를 구현하고 지원하는 근간을 마련했는데, 그 예를 들면 학습 후 성능 모니터링을 클라우데라 시스템에서 할 수 있다”며 “특정 임계치 이하로 성능이 떨어지면 자동 트리거를 줘서 재학습을 하게 했었고, 이는 LLM에서도 마찬가지로 기대 성능 임계치 미만으로 떨어지는 것에 트리거를 줘서 파인튜닝이나 벡터 DB를 업데이트하게 하도록 구현해놨다”고 밝혔다.