"과학기술 발전에 대응하고 인구절벽 시대를 극복하기 위해서는 인공지능(AI)의 신뢰성 확보가 필수적입니다. 이에 우리는 AI 무기체계의 신뢰성을 확보하기 위한 새로운 시험평가 체계를 개발하고 있습니다. AI는 전력화 이후에도 지속적으로 학습하고 성능이 변화하기 때문에 기존의 실물 시험 방식만으로는 충분하지 않습니다."
김강민 육군시험평가단 중령은 4일 경기도 성남시 그래비티 서울 판교 호텔에서 열린 '2025 슈어 AI 테크 컨퍼런스'에서 이같이 말했다. 이날 행사는 슈어소프트테크가 AI 신뢰성·안전성을 위한 시험평가의 현재와 미래를 조망하기 위해 마련한 자리였다.
김 중령은 이날 발표에서 군이 자체적으로 설계한 AI 시험평가 절차, 데이터셋 운영 구조, 향후 추진 계획 등을 소개했다. 그는 AI 기반 무기체계의 신뢰성을 확보하기 위해 기존의 단발성 시험에서 벗어나 반복 가능하고 정량적인 평가 체계로의 전환이 필요하다고 강조했다.

육군의 AI 시험평가 절차는 여러 단계로 구성돼 있다. 먼저 AI 성능평가용 데이터셋을 활용해 기본 성능을 확인하고 보안 검토를 마친 군 전용 데이터를 이용해 추가 학습을 진행한다. 이후 실제 운용 환경에서 수집한 데이터를 기반으로 다시 한 번 성능을 평가한다.
더불어 육군은 수집된 데이터를 학습용과 검증용으로 나눈다. 모델의 성능 향상 여부를 정량적으로 검증하고 마지막으로는 전체 무기체계를 대상으로 체계 수준의 시험평가를 실시하기 위함이다. 이 같은 절차는 AI 모델이 실시간으로 변화하는 특성을 반영하기 위한 구조다.
이 과정에서 가장 중요한 핵심은 시험평가 전용 데이터셋의 품질이다. 군 작전 환경은 민간과 달리 예측 불가능하고 비정형적인 경우가 많아 일반적인 데이터로는 실효성 있는 평가가 어렵기 때문이다.
김 중령은 "우리는 수십만 장 분량의 데이터를 프레임 단위로 정제했다"며 "이 중 일부는 평가용, 나머지 일부는 학습용으로 구성했다"고 설명했다. 이어 "다양한 전술 환경, 객체 자세, 복장, 기상 조건 등을 반영해 실전과 유사한 조건에서 AI 성능을 평가하도록 지원하고 이 데이터셋은 제3기관의 검수를 거쳐 품질 검증도 완료됐다"고 밝혔다.

AI 데이터셋의 다변화와 품질 보강을 위한 연구도 병행되고 있다. 김 중령에 따르면 육군은 향후 생성형 멀티모달 AI와 비전-언어 모델(VLM)을 결합해 부족한 데이터 유형을 보강하는 방식을 도입할 계획이다. 일례로, "낮에 걷는 일반 병사의 영상은 풍부하지만 눈 오는 밤에 포복하는 병사의 영상은 부족하다"는 품질 평가 결과를 프롬프트로 삼아 해당 조건을 보완하는 합성 데이터를 생성하겠다는 계획이다.
올해 시험평가단은 AI 무기체계 성능평가를 전담하는 조직을 신설했다. 내년부터는 주요 전력화 사업에 이 평가 절차를 실전 적용할 예정이다.
김 중령은 발표에서 "AI 신뢰성 검증은 단순히 기능 평가가 아니라 작전 환경에서 실제 사용 가능한지를 판단하는 핵심 요건"이라고 강조했다. 이어 "AI가 실물보다 데이터 기반으로 평가돼야 한다는 전환적 인식이 필요하다"고 덧붙였다.
관련기사
- [현장] "국제 AI 윤리 표준 만든다"…서울대, '제트인스펙션 컨퍼런스' 개최2025.05.20
- "AI 신뢰성 수출 본격화"…씽크포비엘, 中 유수 기관과 기술 협력 확대2025.05.15
- [현장] LG AI연구원, 신뢰·포용성 강화에 '방점'…"모두를 위한 AI로 향한다"2025.05.14
- "나는 네 개발자야"…AI, 새빨간 거짓말에 속았다2025.03.31
AI 강건성 평가 체계도 구체적으로 소개됐다. 이 체계는 AI 모델이 적대적 환경에서도 신뢰할 수 있는 성능을 유지하는지 시나리오별로 검증하고 향후에는 뉴런 커버리지 기반의 내부 구조 분석까지 확대한다. 이는 경량화된 AI 모델이 엣지 디바이스에서 안정적으로 작동해야 하는 군 운용 조건을 반영한 조치다.
김강민 중령은 "지금은 기술이 개념을 끌고 가는 시대"라며 "과거처럼 개념을 먼저 세우고 기술을 따라오게 하는 방식으론 늦다"고 강조했다. 이어 "AI 무기체계는 실물 무기가 아니라 알고리즘의 무기로, 검증과 신뢰 확보는 데이터와 실전 환경이 핵심"이라고 말했다.