개인정보 침해 문제 해결한 AI 반도체 개발

대규모 데이터를 학습하는 인공지능(AI) 서비스로 인한 프라이버시 침해를 막는 기술로 '차등 프라이버시'가 주목받고 있다.

KAIST(총장 이광형)는 전기및전자공학부 유민수 교수 연구팀이 차등 프라이버시 기술을 적용하면 AI 서비스의 성능이 떨어진다는 문제를 해결한 AI 반도체를 개발했다고 19일 밝혔다.

차등 프라이버시는 데이터에 의도적으로 노이즈 역할을 하는 가짜 정보를 심어 개인정보가 노출되지 않도록 하는 기술이다. 이때 원래 데이터의 통계적 특성은 유지하게 한다.

구글의 GPT-2 모델이 특정 입력에 대해 사용자 개인정보를 유출하는 사례. 모델에 특정 주소 (East Stroudsburg Stroudsburg) 로 시작하는 문장을 만들어 달라고 요청하자, 해당 주소와 관련된 실제 서비스 사용자의 개인정보(이메일, 주소, 회사, 전화번호 등)를 반환하는 모습이다 (검게 칠해진 부분은 실제 개인정보이기 때문에 해당 기사에서는 가려져 있음). (자료=구글, KAIST)

인공지능이 방대한 데이터를 학습하는 과정에서 민감한 사용자 정보가 수집돼 노출될 수 있다. 인공지능 챗봇 '이루다'가 학습에 사용한 데이터에 포함된 실제 주소를 대화 중 노출한 것이 대표적 사례다.

차등 프라이버시는 이 같은 일을 막을 수 있어 애플, 구글, 마이크로소프트 등에서도 쓰이고 있다. 그러나 AI 서비스에 차등 프라이버시를 적용하면 데이터와 노이즈가 섞이며 속도와 성능이 떨어지는 문제가 있다. 차등 프라이버시 머신러닝 학습 과정은 일반적인 머신러닝 학습과 다른 특성을 보이고, 이로 인해 기존 하드웨어에서 효과적으로 실행되지 않는다. 이는 메모리 사용량, 학습 속도 및 하드웨어 활용도의 비효율로 이어진다.

유민수 교수 연구팀은 차등 프라이버시 기술의 성능 병목 구간을 분석, 이 기술이 적용된 어플리케이션의 성능을 높일 수 있는 '차등 프라이버시 머신러닝을 위한 인공지능(AI) 반도체 칩'을 개발했다. 이 AI 반도체는 외적 기반 연산기와 덧셈기 트리 기반의 후처리 연산기 등으로 구성돼 있다.