[기고] 자동화 머신러닝을 둘러싼 오해 바로잡기

민선 애피어 최고 AI 과학자

머신러닝(기계학습, 이하 ML)은 여러 업계에서 데이터 수집과 분석 도구를 최적화하는 데 사용되면서 그 활용의 폭을 넓혀 왔다. 그러나 최근에는 자동화 머신러닝, 줄여서 오토ML(AutoML)이라 불리는 새로운 기술이 떠오르고 있다.

이 기술을 활용하면 고도로 전문화된 역량 때문에 공급이 부족하고 몸값이 비싼 데이터 과학자에 대한 의존도를 줄일 수 있다고 알려져 있다. 오토ML과 관련된 많은 오해 중에서 가장 만연한 것은 이 기술이 데이터 과학자를 완전히 대체할 수 있다는 오해일 것이다.

ML은 놀랍도록 다양한 분야에서 응용 가능하고 대단히 강력한 범용 기술이다. 따라서 이 기술이 오토ML로 한 단계 더 진화했다는 사실에 사람들이 환호하는 것은 당연한 일이다. 오토ML의 기능을 이해하려면 기존의 ML이 어떻게 작동하는지 먼저 알아야 한다.

ML은 여러 단계를 거쳐 작동한다. 우선 관련 데이터를 수집한 다음 원하는 내용만 학습하도록 데이터를 정리한다. 그 뒤 데이터의 대표적인 특징을 정의하고, 미리 설정된 목적을 달성하기 위해 정확도를 최적화하도록 훈련된 모델에 이 특징을 집어넣는다. 인간의 개입이 많이 요구되는 복잡한 작업이다. ML을 최대한 효과적으로 활용하려면 고도로 훈련된 데이터 과학자들로 구성된 팀을 동원하여 각 단계마다 개입하면서 모델을 구축, 적용, 최적화해야 한다.

오토ML의 궁극적인 목표는 이 모든 과정을 자동화해 효율성을 높이고 비용은 낮추는 데 있다. 제대로 작동할 경우 업종을 막론하고 다양하게 적용돼 사회의 여러 부문을 혁신할 수 있다. 오토ML이 많은 관심을 받는 이유다.

■ 데이터 과학자 역할 변화 초래

그러나 많은 신기술이 그렇듯이 현실은 좀 더 복잡하다.

오토ML이 얼마나 유용한지는 업종, 데이터 유형, 관련된 모델 클래스에 따라 다르다. 디지털 마케팅은 특히 데이터 수집과 정리의 측면에서 오토ML의 혜택을 크게 볼 수 있는 분야다. 고객이 기업의 마케팅 캠페인과 상호작용하면서 데이터 레이블이 자연스럽게 생성되기 때문이다. 이런 레이블을 정리해 불필요한 정보와 편향을 제거하는 도구들이 이미 시장에 구축돼 있다.

다른 업종에서는 데이터 수집과 정리 면에서 그렇게 유용하지는 않지만 자동 특징 구성공학(automatic feature engineering) 부문에서는 힘을 발휘하고 있다. 예를 들어 자율주행차는 보행자와 정지 신호를 구별하려면 인간의 도움을 필요로 한다. 마찬가지로 의료 영상 도구가 종양을 찾아내려면 숙련된 의사가 있어야 한다. 그러나 인공 신경망을 사용해 원본 이미지로부터 특징을 자동 구성하는 기술은 이미 많은 데이터 과학자의 수고를 덜어주고 있다.

그렇다고 과학자들이 오토ML을 무분별하게 적용해서는 안 된다. 무엇을 얻고자 목표하든 오토ML이 인간의 지식을 완전히 대체할 수는 없다. 그보다는 지식을 어느 지점에 적용할 것인지 그 포커스가 바뀌는 것으로 이해해야 한다.

가령 마케팅 분야에서는 인간이 수동으로 수행하는 것보다 훨씬 효과적인 프로세스만 자동화한다. 보통 이 프로세스는 반복적이고 복잡하며 이용 가능한 데이터도 충분한 편이다. 이를 통해 인간은 반복적인 업무에서 벗어나 데이터가 덜 축적된 영역에 자신의 지식을 적용할 수 있다.

그러므로 오토ML 기술이 아무리 발전했다 하더라도 데이터 과학자의 개입을 완전히 제거할 수는 없다. 이렇게 인간과 기계가 협력하여 일하는 접근법을 일각에서는 세미-오토ML(또는 반자동ML)이라고도 부른다. 실제로 기술이 구동되는 과정을 보다 사실적으로 반영한 용어다.

■ 효과와 비용 따져 보고 결정해야

기업이 오토ML의 효과와 작동 방식을 이해하기만 하면 오토ML을 활용해 큰 효과를 볼 수 있다. 핵심 인력 리소스를 줄일 수 있고 기계는 이런 작업을 인간보다 훨씬 빠르게 수행하기 때문에 효율이 높아진다. 적절히 사용하면 인간의 오류 위험을 최소화하면서 인간보다 뛰어난 성과를 낼 수 있다.또한 절차가 자동화되면 수동일 때보다 훨씬 효율적으로 규모를 확대할 수 있다.

그러나 종종 간과되는 요소도 몇 가지 있다. 가장 대표적인 것이 비용이다.

오토ML의 성배는 신경 구조망 탐색(neural architecture search)에 있다. 주어진 문제를 해결하기에 가장 적합한 신경망 아키텍처를 찾아내도록 AI를 프로그래밍하는 기능이다. 일단의 연구자들이 신경 구조망 탐색을 완전히 자동화 해 동일한 작업을 수행하는 인간보다 더 높은 성과를 낼 수 있음을 입증했으나, 이에는 막대한 규모의연산력이 요구된다. 예를 들면 12개 이상의 CPU를 며칠 동안 훈련해야 하는데, 그 비용이 상당히 크다. 따라서 오토ML을 활용하고자 하는 기업은 소요될 재정적, 시간적 비용과 잠재적 이익을 가늠해 현명한 결정을 내려야 한다.

또한 오토ML은 인간의 오류를 최소화하는 데 도움이 되지만, 이 또한 완전히 제거하지는 못한다. 오토ML은 사용자가 정의한 항목만 최적화하므로 항목을 잘못 정의하면 만들어진 모델이 문제를 해결할 수 없다. 이는 오토ML에만 국한된 문제는 아니다. 인간은 일반적인 ML에서도 똑같은 실수를 저지르지만, 여기서도 이미 개입돼 있는 인력이 오작동하는 모델의 행동을 파악하고 이를 바로잡도록 도움을 줄 수 있다. 따라서 인력을 줄여서 효율을 높일 수는 있겠지만 자칫 잘못하면 더 많은 오류를 초래할 위험이 있다.

■ 실제 비즈니스에 적용할 현실적인 대안

물론 실제 비즈니스에서 이 균형을 잡기가 쉽지는 않다. 인력 자원을 충분히 투입했을 때의 장점과 단점을 잘 가늠해 자사의 비즈니스 모델에 어느 쪽이 최선인지 결정해야 한다. 예를 들어 모든 단계에 인력을 투입해 작업을 수행하면 모델을 확장하기가 힘들 것이다. 반대로 모델을 구축할 때마다 전체 프로세스를 자동화하면 너무 많은 시간이 소요될 것이다. 보통 마케터에게는 시간 여유가 없다. 적당한 시기를 놓치지 않고 바로 뛰어들 수 있는 것이 중요하다.