과기정통부, 초거대AI 신뢰성·성능 평가한다

GPT 등장 이후 글로벌 테크기업들의 거대AI 선점 경쟁이 뜨겁다. 우리나라도 네이버를 위시해 LG, 카카오 등이 거대AI를 내놓았다. 거대AI는 AI성능을 좌우하는 파라미터(매개변수)가 10억개 이상인 AI를 말한다. 효시는 오픈AI가 2019년 내놓은 GPT2로 이의 파라미터는 15억개에 달한다. 오픈AI는 올 3월 최신 버전인 GPT4를 내놓았고, 이에 대항해 구글도 10일(미국시각) 거대AI로 학습한 인공지능 챗봇 '바드'(Bard)를 미국과 한국을 비롯해 전세계 180개국에 오픈했다.

'바드'에는 이날 구글이 공개한 최신 대규모 언어 모델(LLM) AI '팜2(PaLM)'가 탑재됐는데, 팜2는 작년 4월 구글이 선보인 '팜'의 업그레이드 버전으로 100개 이상의 언어를 지원한다. 5300억개의 파라미터(매개변수)를 바탕으로 과학과 수학에서 추론도 가능하고 코딩도 가능하다. 하지만 이들 거대AI는 환각은 물론 내놓은 결과를 설명하지 못하는 AI의 근본 문제를 안고 있어 AI의 신뢰성과 안정성에 우려를 던지고 있다. 이에 세계 각국이 AI의 신뢰성과 안정성을 높이는 쪽으로 규제를 검토하고 있는데, 우리 정부도 초거대 AI의 신뢰성과 성능 평가에 나선다. 이 분야 신뢰성과 안정성을 높이는데 우리나라가 주도적으로 나서겠다는 의지다.

과기정통부는 11일 박윤규 제 2차관이 참석한 가운데 서울 명동 제네시스랩에서 열린 '인공지능 윤리·신뢰성 강화를 위한 현장간담회'에서 이 같은 계획을 밝혔다. 간담회에는 LG, 네이버 등 디지털 기업과 학계 전문가 10여명이 참석했다. 이날 인공지능 윤리·신뢰성 향상을 위한 정부 정책을 소개한 최동원 과기정통부 인공지능기반정책과장은 "초거대AI의 위험 우려 요인, 성능 등에 대해 공신력있는 제 3기관이 평가하는 것을 지원하겠다"고 밝혔다.

과기정통부는 11일 박윤규 제 2차관(왼쪽 여덟번째)이 참석한 가운데 서울 명동 제네시스랩에서 열린 '인공지능 윤리·신뢰성 강화를 위한 현장간담회를 개최했다.

평가는 ▲공평성 ▲사실 정확성 ▲활용 적합성 ▲출처 적정성 등 4개 부문에 걸쳐 이뤄질 전망이다. 현재 테스트셋을 개발중이다. 이와별도로 과기정통부는 인공지능 윤리와 관련한 검인증 체계도 마련한다. 최 과장은 "올 상반기에 검증체계를 마련하고 하반기에는 인증심사 기준과 시범인증에 나서겠다"고 덧붙였다.

이 과장에 이어 발표를 한 이강해 한국정보통신기술협회(TTA) AI융합기획단장은 "이미 만들어 놓은 신뢰할 수 있는 인공지능 개발 안내서를 기반으로 인공지능 제품, 서비스의 위험 요인을 분석하는 제 3자 검,인증 체계를 마련하는 한편 민간자율 시범 검,인증을 통해 인공지능 신뢰성에서 글로벌 주도권을 확보하는데 기여하겠다"고 말했다.

이외에 과기정통부는 채용, 치안 분야를 중심으로 '분야별 특화 자율점검표 및 개발안내서'도 올해 마련할 계획이다. 앞서 자율주행, 의료, 일반, 공공 및 사회 등 4개 분야에 대한 '신뢰할 수 있는 인공지능 개발서'를 만들었는데 여기에 채용과 치안 등의 분야를 추가할 예정이다.