"MLOps 도입, 국내기업 대부분 가장 낮은 1단계"

안재만 베슬AI 대표 '2024 국방데이터 혁신 네트워크 9차' 행사서 밝혀

컴퓨팅입력 :2024/10/24 22:07

"MLOps 도입 성숙도를 5단계로 나누는데 국내 기업은 대부분 가장 낮은 1단계에 있습니다."(베슬AI 안재만 대표)

"LLM 기술 발전 속도는 엄청납니다. 학습으로 얻을 수 있는 이점 대비 비용을 충분히 고려해야 합니다. LLM모델을 서빙하는 비용도 충분히 계산해야합니다."(올거나이즈 신기빈 CAIO)

한국국방연구원(KIDA) 국방데이터연구단과 과실연 AI미래포럼이 공동 주최한 '2024년 국방데이터 혁신 네트워크 9차' 행사가 'AI개발 프로세스'를 주제로 24일 성남시 판교 소재 마음AI 본사에서 열렸다. 이 행사는 지디넷코리아와 한국경제, 한국IT서비스학회, 마음AI가 후원했다.

주제 발표는 베슬AI 안재민 대표가 '엔드 투 엔드 MLOps 프로세스 절차와 국방 도입 방안'을, 올거나이즈 신기빈 CAIO가 '실 사례로 본 LLMOps'를 주제로 각각 했다. 주제 발표후 이어진 패널 토의는 합동참모본부 박재혁 중령과 LIG넥스원 이혜진 수석연구원, 마음AI 손병희 연구소장, 국방기술품질원 나일용 팀장이 참여했다.

안재민 대표는 "베슬AI는 MLOps만 집중하는 이 분야 국내 리딩기업"이라고 운을 떼며 MLOps의 국방분야 도입 방향성과 어려운 점, 해결책을 제시했다. 2020년 4월 설립한 이 회사는 2021년 3월 머신러닝 모델 학습 및 재현 플랫폼 'SavviHub'를 선보였다. 이어 같은해 5월에는 현재의 베슬AI로 사명을 바꿨다. 코딩, 모델 학습, 최적화, 배포와 자동화 파이프라인까지 엔드 투 엔드 MLOps구현을 위한 플랫폼을 개발, 공급하고 있다. KAIST, 연세대, 서울대 등 주요 대학 AI대학원이 베슬AI 플랫폼을 활용하고 있다. 기업은 현대자동차, SKTmap, 코그넥스 등이 도입했다.

안재만 베슬AI 대표가 발표를 하고 있다.

안 대표는 이제는 AI를 어떻게 비즈니스에 적용할 지를 고민해야 한다면서 "MLOps는 재현 가능하고 자동화한 머신러닝(ML)으로 AI 연구와 개발을 위한 프로세스와 방법론"이라고 해석했다. 국방에서 MLOps가 필요한 이유로 "외부 API 사용이 불가능한 보안 환경때문"이라면서 "자체 데이터와 자체 모델 구축시 MLOps가 필요하다"고 진단했다. 또 계속되는 업데이트와 인적 자원 및 연산 자원의 효율적인 활용으로 비용 절감에도 MLOps가 기여한다고 해석했다.

MLOps 도입을 평가하는 성숙도 5단계도 소개했다. 가장 낮은 레벨 1은 모든 것을 손으로 하는 단계로 담당자가 퇴사하면 재현할 수가 없다. 안 대표는 "국내 기업은 대부분 레벨1에 해당한다"고 말했다. 레벨2는 실험 데이터, 코드, 스크립트, 하이퍼 파라미터 등을 재현할 수 있고 관리할 수 있는 수준이다. 이때부터 기록의 중요성을 인식한다. 레벨3(ML 파이프라인)은 코드와 데이터 업데이트를 모델에 자동 반영하는 파이프라인을 보유한 단계다.

또 레벨4(Monitored ML Pipeline)는 실제 서비스중인 모델의 지표 변화를 추적하고 재학습할 수 있는 단계고, 가장 높은 레벨5(Fully Automated CI/CD Pipeline)는 자동화한 파이프라인을 머신러닝(ML) 조직 니즈에 따라 자유롭게 추가, 수정, 삭제할 수 있는 자동화한 CI와 CD 시스템이 있는 단계다. CI는 지속적 통합(Continuous Integration)을, CD는 지속적 제공과 배포(Continuous Delivery/Deployment)을 말한다. 안 대표는 "한번에 가장 높은 단계로 갈 수 없다. 단계를 밟아가며 성숙도를 높여가야 한다"고 조언했다.

특히 그는 MLOps의 국방 연구분야 도입에 대해 "국방은 어려운 점이 더 많다"면서 "높은 보안과 효율적 연구업무 환경이라는 두마리 토끼를 잡아야 한다"고 말했다. MLOps의 국방 연구 분야 도입 난점으로는 민간 클라우드 서비스 불가 등을 들었다. 또 프로세스 표준화와 연구원의 자유도를 적절히 분배해야 한다면서 "연구자들에게 최대한의 유연성과 자유도를 보장하면서 동시에 재현가능한 연구 프로세스로 신뢰성과 지속성도 확보해야 한다"고 밝혔다. 각 분야별 너무나 다양한 제품과 기술이 있다면서 "검증한 기술, 혹은 호환 가능한 표준 인터페이스 채택 필요성이 있다"면서 "민간 분야의 해결 사례를 참고해 도입 과정에서 난점을 단계적으로 해결해야 한다"고 해법을 제시했다.

제너럴 AI시스템을 만들기 위한 필요 조건 두 가지도 제시했다. "수백개 AI모델을 자동으로 운영하는 인프라와 여러 AI모델과 데이터를 통한 의사결정 프로세스가 필요하다. 그런데 이 두개가 결국 MLOps다"고 짚었다.

안 대표에 이어 신기빈 올거나이즈 CAIO는 LLMOps 도입을 놓고 현장에서 일어나는 일을 소개, 관심을 모았다. 그가 일하고 있는 올거나이즈는 기업의 업무생산성 향상을 위한 올인원 LLM 솔루션을 개발해 공급하고 있다. 신 CAIO는 네오위즈, 네이버, 라인 등에서 오랫동안 백엔드 엔지니어(BE)로 일하다 2018년 올거나이즈에 CTO로 합류, 현재는 CAIO를 맡고 있다. 설립자 겸 CEO는 이창수 전 5Rocks CEO다. 한국과 미국,일본의 많은 대기업이 현재 올거나이즈 제품을 사용하고 있다.

신 CAIO는 LLMOps에 대해 "MLOps의 한 분야"라면서 "LLM의 라이프사이클을 관리하는 일련의 워크플로(Workflow)"라고 설명했다. AI학습에 대해 고객들이 오해하는 것도 소개했다. 학습데이터의 경우 "그냥 문서만 올리면 학습 되는 거 아닌가요?”라고 하거나 "우리가 데이터 모아둔게 몇천 건은 있어요. 이거 학습 시켜주세요.”라고 하거나 "쓰다보면 맘에 안드는 응답을 피드백으로 남겨서 잘 되게 학습시켜주세요.”라고 하는데, AI학습의 어려움을 잘 모르고 하는 소리라는 것이다.

신기빈 올거나이즈 CAIO가 발표를 하고 있다.
심승배 한국국방연구원(KIDA) 국방데이터연구단장이 사회를 보고 있다.

이외에 고객이 AI학습을 잘 모르고 하는 말의 예로 “그래도 학습하면 더 좋아지는 거 아닌가요?” “데이터 만들어두고 우리가 학습할 수 있게 해주세요.”라고 하거나 성능 측정의 경우 '우리는 RAG만 잘되면 되요.” “그래도 LLM인데 이런것도 되죠?”라고 하는 소리를 꼽았다. 또 배포 및 서빙(Serving)의 경우 "어? 동시에 30명 밖에 못써요? 우리 수백명이 써야하는데…”이렇게 느려서는 안되는데요.”라는 말을 들었다.

LLM 학습 단계는 크게 세 가지다. 첫째, 프리트레인(Pre-train)이다. 지식과 언어를 학습하는 단계다. 굉장히 많은 데이터가 필요하다. 시간도 많이 걸린다. 상대적으로 정제 노력은 덜해도 된다. 둘째, 인스트럭트 튠(Instruct Tune)이다. 지시를 따르는 능력을 획득하는 단계다. 특히 '지시-답변(Instruction-Answer)'의 페어(pair)형태 데이터가 필요하다. 프리 트레인보다 데이터 품질이 더 중요하고, 인스트럭션을 잘 팔로잉해야 한다. 이때도 데이터가 필요하지만 프리트레인보다는 적다. 하지만 품질 중요성은 프리 트레인보다 더 크다. 셋째, 얼라인먼트(Alignment)다. 말투나 말하지 말아야하는 내용 등을 익히는 단계다. 보상 모델(Reward model)이나 'Chosen, Reject' 쌍 형태의 데이터가 필요하다. 프리트레인과 인스트럭트 튜닝보다 상대적으로 소량의 데이터가 필요하지만 데이터 품질 중요성은 가장 높다.

신 CAIO는 고객이 “그냥 문서만 올리면 학습 되는 거 아닌가요?”라고 묻는데 실제는 프리 트레인이 쉽지 않다고 들려줬다. 자료 자체가 사람이 읽는용이므로, 기계가 이해하지 못하며, 이를 가능하게 하는 파싱(parcing) 단계가 중요하며, 데이터 정제 문제도 있다. 또 프리 트레인 이후에도 SFT와 Alignment를 따로 학습해야하는 문제가 생기는데, 이런 형태의 데이터는 존재하지 않아 생성해야하며, API-LLM vs 오픈소스 LLM의 문제도 있다고 밝혔다.

"그래도 학습하면 더 좋아지는 거 아닌가요?”라는 사용자 말에는 "맞다. 학습하면 좋아진다. 단, 이전에 학습한 내용은 점점 까먹는다. 이런 현상을 'Catastrophic forget'이라고 한다. 예를 들어 라그(RAG)만 학습하면 제너럴 인스트럭트는 까먹는다"고 말했다. '얼라인먼트 택스(Alignment Tax)'도 학습의 어려운 점이다. 이는 얼라이먼트를 하면 'Catastrophic forget'보다 더 많은 걸 까먹는걸 말한다.

관련기사

또 "데이터 만들어두고 우리가 학습할 수 있게 해주세요.”라는 고객사 말에 대해서는 "LLM 훈련은 데이터셋(Dataset)과 하이퍼 파라미터(hyper-parameter)에 극도로 민감하다"면서 "데이터가 좋아도 여전히 불안정할 수 있다. 이 불안정도 결국 데이터에서 오는데, 성격이 다른 이질 데이터가 한개만 섞어 있어도 성능이 크게 떨어진다. 아무리 자동화 한다고 해도 LLM은 사람의 손이 필요하다"고 짚었다.

신 CAIO는 아직 LLM 학습 툴이 나오지 않는 이유도 밝혔다. "빠른 발전 속도" 때문으로 "만든 모델이 한달 후에는 구닥다리가 된다"고 말했다. LLM모델 배포시 고려해야할 점으로는 모델이 충분히 서빙할 만큼 장비는 준비돼 있는지 봐야한다면서 "비용 면에서는 하나를 줄이면 다른 하나가 올라가는 트레이드 오프(Trade off)를 고려해야 한다. 그 예가 품질과 관계있는 양자화(Quantization)"라고 밝혔다.