인공지능(AI)을 갖춘 기계가 편견에 사로잡힐 위험이 얼마든지 있고 그로 인한 문제를 극복할 방법까지 존재한다는 주장이 제기됐다.
이는 구글의 AI 연구조직 '구글 브레인' 팀이 최근 공개한 연구 논문에 담긴 메시지다.
최근 미국 지디넷은 이달초 구글 연구자들이 공개한 '지도학습에서 기회의 평등(Equality of Opportunity in Supervised Learning)'이라는 논문을 일부 인용해 소개했다.
[☞참조링크: Google's Brain Team: 'AIs can be racist and sexist but we can change that']
논문은 현재 머신러닝의 바탕이 되는 빅데이터 처리 방법론에선 AI에 편견과 차별적 인식을 조장하는 민감한 속성을 배제하는 기법이 제대로 연구되지 않았지만, 이를 수학적으로 보정할 수 있다는 내용으로 요약된다.
보도에 따르면 빅데이터 처리 기술의 부작용에 대한 우려는 새로운 게 아니다. 오바마 행정부는 지난 2014년 빅데이터리포트를 통해, 특정 집단에 자동화된 식별을 적용시 빅데이터기술이 부주의한 결과를 초래할 수 있다고 경고했다.
예를 들어 소셜네트워크 또는 위치정보같은 데이터로 개인의 신용여력을 평가하는 기법은 신용 이력을 갖지 않은 사람들에게 융자를 촉진하는 수단이 될 수도 있지만, 동일한 기법이 역으로 재정적 지원이 필요한 대상이 그런 서비스에 접근하지 못하게 가로막는 장벽으로 작용할 수도 있다. 특히 의사결정에 반박할 여지가 없도록 설계된 독점적 알고리즘에 의해 내려지는 결정일 때 이런 문제가 심화할 수 있다.
오바마 행정부는 이런 빅데이터 처리 결과로 야기될 수 있는 소수자 집단(minority groups) 대상의 위협 문제를 해결하기 위해 '의도적인 기회의 평등(equal opportunity by design)'의 중요성을 촉구했다. 그런데 구글의 연구자들이 파악한 바로는, 이제껏 빅데이터를 처리해 활용하는 머신러닝 분야에서 이런 민감한 속성에 대해 차별(discrimination)하지 않는 방법론이 면밀하게 다뤄진 바 없는 실정이다.
이에 관한 논문 저자 중 한 사람인 구글 브레인 팀의 연구자 모리츠 하트(Moritz Hardt)의 설명은 다음과 같다.
"예측에 적절한 방법으로 일반적인 인구집단과 다른 특성을 띠면서 보유 데이터가 상대적으로 적은 집단 사례를 고려하면, 예측 정확도는 일반적으로 학습에 동원할 수 있는 데이터량과 상관관계를 갖기 때문에, 이런 (소수자) 집단에 부정확한 예측을 일반화하기가 더 쉬워진다. 예를 들어 이런 관점에선, 이 집단에 속한 개인은 자기 부채를 갚더라도 '채무불이행 고위험군'으로 예측되는 경우가 너무 많아진다. 집단 분류에 인종, 성별, 장애, 종교같은 민감한 속성을 동시에 적용할 경우, 이 상황은 불공정하고 편견이 작용된 결과를 낳는다."
이런 문제를 해결하기 위한 단순한 접근으로 민감한 속성을 '알아차리지 않는 방식을 통한 공정함(fairness through unawareness)' 또는 판정에서 배제하는 방법을 고려해볼 수 있다. 그러나 이게 문제를 곧바로 해결해 주리라는 보장은 없다. 이런 속성값이 명시적으로 배제되더라도, 실제로 활용되는 알고리즘은 다른 데이터 포인트와의 결합에 기반한 속성을 참조할 가능성이 있기 때문이다.
다른 접근으로 '인구통계학적 대체값(parity)'를 쓰는 방법을 고려할 수 있다. 민감한 속성과 상관관계가 없는 예측을 하기 위해 실제 인구통계학 정보가 아닌 대체값을 사용하는 방식이다. 그러나 이런 접근을 통한 예측 방식은 심장마비같은 의학적 상태를 다루는 사안에 적용할 경우 "결과 예측과 집단 특성간의 모든 상관관계 연결을 막는데 현실적이지도 않고 이상적이지도 않다"고 하트는 지적했다.
구글 연구자들의 해법은 어떤 것일까? 이들은 머신러닝에서 '기회의 평등'이라는 개념을 갖고 출발했다. 이 개념은 요컨대 "원하는 결과를 얻기에 적격인 개인들은 그런 결과로 이어지기에 적절하게 분류될만한 동등한 기회를 가져야 한다"는 아이디어에 기반한다.
다시 신용여력 평가방법의 비유를 들면, 대출을 신청한 두 집단이 있을 때 각각은 그와 관련한 의사결정에 인종이나 성별의 영향 없이 동등한 비율로 승인받을 수 있어야 한다는 얘기다. 이 방법론은 개인이 대출을 받을 수 있을지 여부를 결정하는 은행의 신용평가시스템을 비롯한 어떤 형태의 평가시스템에도 적용될 수 있다.
하트의 설명에 따르면 이 방법론은 민감한 속성에 기반한 차별이나 측정을 방지할 수 있을뿐아니라 예측 기법을 더 면밀히 검토할 수 있게 돕는 작용을 한다. 더불어 빅데이터 처리 기술의 사용자가 예측의 성향을 '분류의 정확성'과 '비차별성' 사이에서 조절할 수 있도록 만들어 줄 수 있다.
구글은 연구 논문을 통해 이 방법론이 시스템의 기반을 통제하지 못하는 이들로서도 평가시스템의 차별을 해결할 수 있게 해 주고, 해당 조직에는 더 나은 평가시스템에 투자할 수 있도록 유도하는 동기를 부여해 준다고 주장했다. 이에 관련해 인용된 하트의 설명은 다음과 같다.
관련기사
- 이상형 아이돌 얼굴, 머신러닝으로 ‘뚝딱’2016.10.17
- SK주식회사C&C, 인공지능 교통안전 서비스 개발 추진2016.10.17
- 삼성전자가 美 인공지능 업체를 인수한 이유2016.10.17
- 사람 감정 읽어내는 'AI 로봇' 나왔다2016.10.17
"개인부터 의사결정권자에 이르기까지, 누구든 예측 정확성에 투자해 대응할 수 있는 사람이라면 우리의 프레임워크를 구현해서 질 낮은 예측의 비용을 전환하는 유인을 삼을 수 있을 것이다. 완벽한 예측 기술은 항상 우리가 지향하는 바를 충족하며, 더 정확한 예측 기술을 만드는 핵심 목표가 차별을 피하는 목표에 잘 들어맞는다는 점을 보여 준다."
다만 연구자들은 수학이 단독으로 머신러닝에서 차별 문제를 해결할 수는 없으리라는 점을 인정했다.