[기고] AI의 편견을 벗기고 신뢰를 쌓는 방법

인공지능(AI)의 시대다. 챗GPT, 달리(Dall-e) 2 같은 생성형 AI 모델은 사용 편리성과 낮은 진입장벽으로 큰 관심을 끌고 있다.

생성형 AI는 단순히 질문에 답변하는 것을 넘어, 데이터를 구성하고 반복 작업을 도우면서 기업의 생산성을 높이고 혁신을 주도하고 있다. 현재의 AI는 창의력을 발휘하는 업무를 가속하고, 공급망을 최적화하며, 의약품을 설계하는 등 사회를 새로운 산업 혁명으로 이끌고 있다.

IDC의 최근 조사에 따르면, 올해 한국 AI 시장은 전년 대비 17.2% 성장한 2조 6천123억 원의 매출 규모를 형성하고 향후 5년간 연평균 14.9%의 성장률을 기록해 2027년까지 4조 4천636억 원에 이를 것으로 전망했다.

하지만, 많은 기업들이 AI 활용을 서두르면서도 부정확성과 데이터 편향으로 인한 신뢰도 문제와 이에 대한 안전장치 마련에 대한 의문이 대두되고 있다. 예컨대 AI가 제작한 딥페이크가 광범위하게 사용되며 만드는 허위 정보는 지적 재산, 개인 정보는 지속적으로 위협받고 있다.

AI 환각(Hallucination) 문제는 더 심각하다. 생성형 AI 사용자들은 대규모 언어 모델(LLM)이 사실과 다르지만 쉽게 신뢰할법한 답변을 자주 접한다.

데이터 편향은 AI의 부정적 영향을 확대하는 또 다른 문제다. 결국 데이터를 관리하는 것은 인간의 역할이기 때문에 큰 데이터 세트에서 확증 편향과 같은 다양한 형태의 데이터 편향은 피할 수 없다. 이러한 편향된 데이터는 AI 모델 훈련에도 반영되기 때문에 결과물도 편향적일 가능성이 높아진다.

한 예시로, 데이터 편향을 가진 이미지 생성 모델은 사업가 이미지를 생성할 때 양복을 입은 노인을 제시하고, 승무원 이미지를 생성할 때 젊은 여성을 제시하는 등 고정관념에 영향을 받은 결과를 도출할 수 있다.

이러한 우려는 기업에도 심각한 영향을 미칠 수 있다. 예를 들어, 환자 진단을 위한 의료 영상 AI는 일반적인 환자를 진단하는 데 유용할 수 있지만, 편향된 훈련 데이터로 인해 희귀 질환을 가진 환자에게는 효과적이지 않거나 도리어 해로운 치료법을 처방한다.

현 상황에서 이를 방치한다면 결국 AI는 채용, 대출 실행, 학교 입학 등 사회 전반에 걸쳐 불공정을 심화시키고 신뢰도 하락, 재정적 손실 등 부정적 결과를 초래할 수도 있다.

AI 기술이 확장되는 상황 속에서 부정확성과 편견을 해결하기 위해서는 AI의 구성 요소인 데이터를 더 자세히 살펴봐야 한다. 생성형 AI에서 나타나는 대부분의 문제는 오류가 있거나, 데이터가 오래됐거나, 충분하지 않은 사례와 신뢰도가 낮은 데이터로 인해 발생한다.

이처럼 신뢰도가 낮은 데이터와 알고리즘을 통해 결과를 도출되기 때문에, 데이터는 더 왜곡되고, 결과물의 부정확성과 편향은 확대된다. 많은 기업은 훈련 데이터에 대한 추적 가시성이 부족한데 이는 사용자들이 시간에 따른 훈련 데이터 변화나 AI 훈련 결과 도출 방법을 이해하기 힘들게 한다.

성공적인 AI 애플리케이션의 필수 요소는 신뢰성이다. 기업은 사내 데이터와 AI 품질에 대한 확신을 가져야 하고 이는 데이터 무결성, 보안성, 추적성과 함께, 환경 간 이동, 분석을 보장하는 데이터 거버넌스를 실행하는 것으로 시작한다.

데이터 편향을 해결하기 위해서는 기업들은 데이터 전략과 데이터 범위에 대한 계획을 재검토해야 한다. AI를 위한 훈련 데이터 세트는 활용 예상 사례를 충분히 대표할 수 있는 크기의 표본을 설정해야 한다. AI에 의해 결정된 훈련 데이터와 의사결정을 지속적으로 감시할 사람을 지정하는 것은 개선을 위한 필수 사항이다. 이 밖에도, 확증 편향을 지양하기 위해 기업 내 다양성도 보장돼야 한다.

이렇게 데이터 세트를 신중히 선택하고 관리하는 것은 기업이 AI를 사용할 때 결과의 정확성을 향상시킨다. 자체적인 생성형 AI 와 LLM을 만들고자 하는 기업들은 이용 사례에 맞는 결과를 위해 공개된 데이터로 훈련된 모델 보다는 기업 맥락에 맞는 데이터를 사용해야 한다. 예를 들어, 고객 서비스를 개선하기 위한 AI는 기업이 그동안 제공했던 고객 서비스 데이터와 같이 관련성이 높거나 올바른 데이터를 통해 학습해야 한다.