바이두, 머신러닝 성능 부풀렸다 들통

구글, 마이크로소프트(MS), 페이스북 만큼이나 머신러닝 기술에 투자하고 있는 중국 검색 업체 바이두가 이미지 인식 경진 대회에서 자사 머신러닝 알고리즘 성능을 부풀린 사실이 들통나 사과했다. 바이두는 이번 일로 대회에 참가가 제한됐다.

3일(현지시간) 뉴욕타임즈, 벤처비트 등 외신들은 바이두가 이미지 인식 경진 대회 '이미지넷'에서 거둔 성과에 대해 대중들이 오해할 소지를 만든 점에 대해 사과했다고 보도했다.

이미지넷은 머신러닝 알고리즘이 이미지를 인식해 1천개의 카테고리로 얼마나 정확하게 분류해 내는지 성능을 겨루는 대회다. 머신러닝은 수많은 데이터를 가지고 학습해 컴퓨터가 스스로 일정한 패턴을 찾아내는 기술이다. 이미지 속에 객체를 인식하는데 활용될 수 있다.

이미지넷 대회는 매년 열리며 대회에 참가한 팀은 최종 성적 제출에 앞서 일주일에 두 번씩 테스트 결과를 대회 서버에 제출할 수 있다.

바이두는 최근까지도 블로그를 통해 이미지 인식 대회에서 최고의 성과를 얻었고 있다는 홍보를 지속해 왔다. 5월 중반까지 이미지넷 테스트에서 바이두는 에러율 4.58%를 기록해 MS(4.94%), 구글(4.8%) 보다 더 뛰어난 머신러닝 기술을 보유하고 있다고 자랑해왔다.

그러나 이미지넷 조직위원회에 따르면 바이두가 일주일에 두번만 테스트 결과를 제출할 수 있게 제한한 대회 규칙을 어긴 것으로 나타났다. 바이두는 계정 30 개를 이용해 11월과 3월30일 사이 대회 서버에 200번 이상의 테스트 결과를 제출했다. 일주일에 두 번 제출이라는 대회 규정을 훨씬 초과한 것이다. 3월에는 단 5일 동안 40회 이상 테스트 결과를 제출하기도 했다.

이미지 인식 연구분야 커뮤니티에서는 바이두에 대한 비난이 쏟아지고 있다. 바이두가 허용된 것보다 훨씬 여러 차례 결과를 제출했기 때문에 다른 참가 팀과 공정하지 않은 결과를 얻었다는 것이다.

캘리포니아대학의 이미지 인식 분야의 선구자 지텐드라 말릭(Jitendra Malik)는 바이두의 행위는 "올림픽 대회에서 금지약물을 사용한 것과 같다"며 비난했다.