
이력서에 적힌 경력을 부풀리거나 축소해서 쓰는 것을 찾아내는 AI 시스템이 90.6%의 높은 정확도를 달성했다. 이스라일의 홀론 공과대학교 연구팀이 발표한 이번 연구는 채용 과정에서 지원자들이 사용하는 교묘한 말 바꾸기를 AI가 얼마나 정확히 찾아낼 수 있는지를 실제로 분석했다.
3가지 버전의 이력서로 AI 속이기 실험
연구팀은 Mistral-7B라는 AI 모델을 사용해 특별한 실험 환경을 만들었다. 소프트웨어 개발자, 프로젝트 관리자, 데이터 분석가 등 다양한 분야의 직업을 포함해 같은 지원자에 대해 세 가지 버전의 이력서를 만들었다. 첫 번째는 평범하게 경력을 적은 버전, 두 번째는 일부러 경력을 낮춰서 적은 버전, 세 번째는 경력을 부풀려서 적은 버전으로 구성했다.
예를 들어 5년 경력의 소프트웨어 개발자의 경우, 부풀린 버전에서는 "클라우드 기술 전문가", "여러 팀을 이끄는 리더" 같은 표현을 사용하고 직급을 "수석 개발자"로 올려서 적었다. 반대로 낮춘 버전에서는 "프로그래머"나 "개발자" 같은 겸손한 표현을 사용했다. 이런 방식으로 핵심 사실은 똑같이 유지하면서 오직 표현하는 방식만 다르게 해서 AI 모델이 언어의 미묘한 차이를 얼마나 잘 알아차리는지 정확하게 측정했다.
최종 데이터는 초급자 200개, 중간급이자 100개, 고급자 200개로 구성되었으며, hireitpeople.com에서 모은 실제 이력서와 인공으로 만든 이력서를 합쳤다. 만드는 과정에서는 자동 검증과 사람이 직접 확인하는 방법을 통해 시간 순서가 말이 되는지 확인하고 목표한 조작 방식이 정확히 반영되었는지 점검했다.
중간급 경력 판별이 가장 어려워... RoBERTa 모델 90.6% 정확도로 1위
성능 평가 결과 특별히 훈련시킨 RoBERTa 모델이 90.6%의 최고 정확도를 기록했다. DistilBERT 모델도 87.18%의 높은 성능을 보였으며, 이는 특별한 훈련 없이 바로 사용한 GPT-4(78.6%)와 전통적인 키워드 기반 모델(81.2%)을 크게 앞선 수치다.
특별 훈련 과정에서는 표준적인 문장 나누기 작업을 거쳤으며, 교차 엔트로피 손실이라는 방법을 사용해 올바른 경력 단계를 예측하도록 학습시켰다. 학습 속도와 한 번에 처리하는 데이터양 같은 설정값들은 훈련용 데이터에서 5번 나누어 검증하는 방법으로 최적화했다. 즉석 분류에서는 사고 과정 연결이라는 기법을 적용해 모델이 이력서 내용을 근거로 분류 결과를 명확히 설명하도록 유도했다.
특히 DistilBERT 모델은 다른 모델들이 자주 헷갈리는 중간급 경력 찾기에서 뛰어난 성능을 보였다. 오답 분석 결과, 대부분의 모델이 초급자와 고급자 구분에는 상대적으로 성공적이었지만, 중간급 경력 판별에서 어려움을 겪었다. 이는 중간급 경력자들이 사용하는 언어 표현이 가장 애매하고 다양하기 때문으로 분석된다.
백인 남성 이름 85% 선호하던 AI 편향, 체인 오브 쏘트 기법으로 개선 가능
연구에서 주목할 점은 AI 기반 채용 시스템의 공정성 개선 가능성이다. 기존 연구들에 따르면 GPT-3.5는 백인 남성 이름의 이력서에 더 높은 점수를 주는 인종·성별 차별을 보였고, Wilson과 Caliskan(2024)의 연구에서는 AI 시스템이 85.1% 경우에서 백인 관련 이름을 선호했으며 특히 흑인 남성 지원자가 불리했다는 결과를 발표했다.
하지만 736명의 실제 지원자를 대상으로 한 관찰 연구에서 GPT-4의 이력서 평가가 사람 평가자와 비슷한 수준의 인종·성별 그룹 차이를 보였다는 연구 결과도 있다. 이는 적절한 명령어 설계와 사고 과정 연결 기법을 통해 차별을 줄일 수 있음을 보여준다.
차별 완화를 위한 방법으로는 처리 전 단계에서 민감한 정보를 숨기는 방법, 처리 중 조정을 통한 공정성 강화, 처리 후 감사를 통한 숨겨진 차별 찾기 등이 제시되고 있다. FairHire 같은 공정성 중심의 자동화된 선별 시스템 개발도 활발히 진행되고 있다.
13,389개 이력서 92% 정확도 분석... 11배 빠른 다중 AI 협력 시스템
실제 채용 현장 적용을 위한 기술 발전도 눈에 띈다. Lo 등(2025)과 Gan 등(2024)의 연구에서는 여러 AI가 협력하는 시스템을 도입해 정보 추출, 평가, 요약 등 전문화된 AI가 각각의 역할을 담당하는 시스템을 개발했다. 이 시스템은 사람이 직접 검토하는 것보다 11배 빠른 처리 속도를 달성하면서도 이력서 문장 분류에서 87.7%의 F1 점수를 기록했다.
ResuméAtlas 연구에서는 13,389개의 대규모 이력서 데이터를 활용해 BERT와 Gemma1.1 같은 언어 모델을 평가한 결과, 최고 성능 모델이 92%의 1순위 정확도와 97.5%의 5순위 정확도를 달성했다. 이는 기존의 단순한 학습 방법을 크게 뛰어넘는 수치다.
하지만 실제 사용 환경에서는 더 광범위한 분야 테스트와 공정성 검증이 필요하다. 특히 악의적으로 조작된 이력서에 대한 견고함 테스트와 기존 지원자 평가 시스템과의 연결 방안에 대한 추가 연구가 과제로 남아있다. 현재 시스템은 초급, 중간급, 고급 세 단계로만 나누지만, 향후에는 더 세분화된 경력 단계 구분과 산업별 특성을 반영한 맞춤형 모델 개발이 필요하다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: AI가 이력서의 거짓말을 어떻게 찾아내나요?
A: AI는 과장된 직급 표현, 성과를 부풀리는 말투, 겸손한 표현과 자신감 있는 표현 사이의 미묘한 차이를 학습해서 찾아냅니다. 예를 들어 "전문가", "리더십", "주도적 역할" 같은 표현이 얼마나 자주 어떤 상황에서 쓰이는지 분석합니다.
Q: 이 기술이 실제 채용에 사용되면 지원자에게 불리할 수도 있나요?
A: 연구팀은 오히려 더 공정한 채용을 위한 도구라고 설명합니다. 사람 평가자의 주관적 편견을 줄이고, 일관된 기준으로 평가할 수 있어 지원자들에게 더 공평한 기회를 제공할 수 있습니다.
Q: 정직하게 작성한 이력서도 잘못 판단될 위험은 없나요?
관련기사
- 챗GPT로 사과문 쓰면 진정성 의심받는다…카네기 멜런대 충격 연구 결과2025.09.12
- 챗GPT 강풍, 신입 일자리 날려 버렸다…"20대 고용 13% 급감"2025.09.09
- AI도 꼰대가 된다…"경력 쌓이면서 고정관념 강요"2025.09.05
- "오픈AI 임원 전원 챗GPT로 교체"…당돌한 청년 화제2025.09.04
A: 현재 90.6% 정확도는 10%의 오판 가능성이 있습니다. 따라서 AI 판단은 보조 도구로만 사용하고, 최종 결정은 여전히 사람 평가자가 내리는 것이 바람직합니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)