"인공지능(AI)는 그래픽처리장치(GPU), 네트워크, 스토리지, 데이터, 에이전트까지 전 계층이 동시에 얽혀 있는 복합 시스템입니다. 어느 한 지점만 봐서는 장애 원인, 성능 병목, 비용 문제도 정확히 알 수 없습니다. 그래서 AI 운영은 전 구간을 통합해 들여다보는 옵저버빌리티가 필수입니다."

인필교 시스코 상무는 26일 서울 마곡 LG사이언스파크에서 열린 'LG CNS AI 테크 서밋 2026'에서 'AI를 위한 옵저버빌리티 전략'을 주제로 발표에 나섰다.

그는 "AI는 모델만의 문제가 아니라 인프라 전반의 문제"라며 모든 인프라를 통합적으로 들여다보는 가시성이 필요하다고 강조했다.

인 상무는 먼저 AI 인프라의 복잡성을 짚었다. GPU 서버 도입이 급증했지만, 실제 운영 단계에서는 GPU 사용률, 병목 구간, 네트워크 지연, 스토리지 성능, 전력과 냉각까지 모두 영향을 미친다고 설명했다.

그는 "GPU가 정상이라고 해서 AI 서비스가 정상은 아니다"라며 "CPU, 메모리, GPU 간 연결, 클러스터 네트워크, 데이터 공급 체계까지 함께 봐야 한다"고 말했다.

이어 '옵저버빌리티 포 AI(Observability for AI)' 개념을 소개했다. 이는 기존 포인트 모니터링을 넘어 인프라 메트릭, 로그, 트레이스, 이벤트 데이터를 통합 수집해 전체 흐름을 한 번에 파악해야 한다는 개념이다. 또 오픈텔레메트리 기반 데이터 수집과 '피델리티 데이터(fidelity data)' 확보의 중요성도 이날 강조했다.

인 상무는 "AI 환경은 일반 IT 시스템보다 훨씬 많은 데이터를 실시간으로 생성한다"며 "데이터가 빠짐없이 수집돼야 정확한 분석과 원인 규명이 가능하다"고 말했다.

AI 모델 관측 영역에 대해서도 언급했다. 그는 "이제는 모델과 에이전트 자체도 모니터링 대상"이라며 "환각 문제, 프롬프트별 응답 품질, 토큰 사용량과 비용까지 분석해야 한다"고 설명했다. 이어 "모든 프롬프트와 응답을 데이터로 확보해야 환각 여부와 품질을 판단할 수 있다"며 "운영 품질과 비용 최적화를 동시에 달성해야 한다"고 덧붙였다.

운영 과정에서 발생하는 장애를 방지하기 위한 에이전틱 AI도 소개했다. 인 상무는 기존에는 운영자가 AI에 질문해 원인을 찾는 방식이었다면, 앞으로는 AI 에이전트가 스스로 데이터를 수집하고, 문제를 감지하며 원인을 분석한 뒤 필요 시 자동 복구까지 수행하는 구조로 진화한다고 설명했다.

다만 모든 조치를 자동화하는 것은 아니라고 선을 그었다. 코드 수정이 필요한 사안 등은 사람의 승인과 판단을 거치도록 설계했다고 덧붙였다. 또 서비스형 소프트웨어(SaaS) 기반 제공을 기본으로 하되, 보안 요구가 높은 기업을 위해 온프레미스 환경도 지원할 계획이라고 밝혔다.

인 상무는 "엔터프라이즈 AI 운영에는 더 완벽한 가시성과 더 빠르고 정확한 문제 감지가 필요하다"며 "AI 기반 지능형 원인 분석을 통해 복잡해진 AI 인프라 운영을 더 간편하게 만들겠다"고 말했다.