스마트폰 카메라만으로 실시간 내비게이션 구현: 기존 대비 비용 90% 절감 효과
카네기멜론대학교 연구진이 시각장애인을 위한 혁신적인 내비게이션 보조 시스템 'AI 가이드독(AIGD)'을 개발했다. 이 시스템은 라이다(LiDAR)나 레이저 스캐너와 같은 고가의 특수 장비 없이 일반 스마트폰의 카메라만으로 실시간 경로 예측이 가능하다. 연구진은 시각장애인의 평균 보행 속도가 0.72m/s임을 고려해 시스템을 최적화했으며, 사용자의 가슴 부위에 스마트폰을 착용하는 방식으로 실시간 영상을 처리한다. (☞ 논문 바로가기)
실내외 통합 데이터셋: 57시간의 실제 보행 데이터로 학습된 AI
연구진은 피츠버그, 시애틀, 베이 에리어에서 총 57시간의 보행 데이터를 수집했다. 실내 데이터는 도서관 3곳과 대학 건물 복도, 식료품점에서, 실외 데이터는 피츠버그 거리 2곳, 공원, 시애틀 거리에서 수집했다. 총 392,580개의 데이터 샘플을 확보했으며, 이를 60:20:20 비율로 학습, 검증, 테스트 세트로 나누었다. 모든 영상은 30fps로 촬영한 후 2fps로 다운샘플링하여 128x128 크기의 흑백 이미지로 변환했다.
멀티라벨 분류와 GPS 연동: 실내외 모두에서 90% 이상의 정확도 달성
이 시스템은 전방(FRONT), 좌회전(LEFT), 우회전(RIGHT) 예측에서 CNN+LSTM+Intent 모델을 사용해 각각 0.920, 0.664, 0.700의 AUC 성능을 달성했다. 특히 실외에서는 구글 맵스 API와 연동하여 GPS 신호와 고수준 방향 정보를 통합했다. GPS의 4.9미터 오차 한계를 보완하기 위해 카메라 기반의 지역 경로 안내를 제공하며, 실내에서는 모든 가능한 회전 경로를 동시에 예측한다.
다양한 AI 모델 구조 실험: CNN+LSTM+Intent 모델의 우수성 입증
연구진은 CNN, ConvLSTM, PredRNN 등 다양한 모델 구조를 실험했다. 단순 CNN은 개별 프레임만 처리하는 반면, ConvLSTM은 시공간적 정보를 함께 처리할 수 있었다. PredRNN은 가장 높은 성능을 보였지만 계산 복잡도가 높아 실시간 처리에는 적합하지 않았다.
최종적으로 채택된 CNN+LSTM+Intent 모델은 CNN으로 이미지 특징을 추출하고 LSTM으로 시간적 관계를 모델링하는 동시에 GPS와 방향 정보를 통합하는 구조를 가진다. 특히 실외 테스트에서 LEFT 0.671, RIGHT 0.707의 AUC 성능을 달성하며 다른 모델들을 크게 앞섰다.
의도 기반 내비게이션의 혁신: GPS와 비전 정보의 통합
목적지 기반 내비게이션을 위해 구글 맵스 API의 보행 경로 정보를 활용하는 독창적인 방식을 도입했다. turn-slight-left, turn-sharp-left, turn-left 등 7가지 기본 동작을 정의하고, 각 단계별 시작과 끝 위치의 위도/경도 정보를 원-핫 인코딩 벡터로 변환했다. 이를 현재 GPS 좌표와 결합해 모델의 의도 임베딩(Intent Embedding) 벡터를 생성했다. 이러한 접근은 GPS의 낮은 정확도를 카메라 기반 지역 경로 인식으로 보완하는 동시에, 전체 경로에 대한 문맥을 제공한다.
데이터 불균형 해결: 회전 데이터 2배 증강으로 성능 향상
데이터셋에서 직진(FRONT) 데이터가 회전 데이터보다 많은 불균형 문제를 해결하기 위해 LEFT/RIGHT 클래스의 데이터를 2배로 증강했다. 또한 20%의 확률로 이미지 변환을 적용하고, 포컬 로스(Focal Loss)를 사용해 어려운 샘플에 더 큰 가중치를 부여했다. 클래스 가중치는 LEFT:RIGHT:FRONT를 2:2:1로 설정했다.
실시간 처리를 위한 최적화: 2FPS, 16비트 양자화 적용
아이폰 13에서의 실시간 구동을 위해 프레임 속도와 양자화 실험을 진행했다. 시각장애인의 보행 속도를 고려하여 2FPS로 설정했으며, 16비트 양자화를 적용해 메모리와 GPU 사용량을 최적화했다. 이를 통해 배터리 소모를 최소화하면서도 실시간 내비게이션에 충분한 성능을 확보했다.
미래 확장성: 10도 단위 회전각 예측 및 보행자 상호작용 고려
관련기사
- [Q&AI] 설날 용돈 얼마가 적당할까…AI에게 물어보니2025.01.25
- [Q&AI] 아나운서 김나정, 마약 강제 투약 자수…챗GPT가 예상한 형량은2025.01.25
- 오픈AI의 첫 'AI 에이전트' 오퍼레이터, 어떻게 작동할까2025.01.25
- 콜센터에 AI 도입했더니…통화량 30% 줄었다2025.01.22
현재 세 방향 예측에서 나아가 10도 단위의 회전각 예측과 보행 시작/정지 명령으로 기능을 확장할 계획이다. 또한 장애물, 보행자, 차량과의 상호작용을 고려한 더 정교한 경로 안내 시스템으로 발전시킬 예정이다. 이 연구는 고가의 특수 장비 없이도 시각장애인의 안전한 보행이 가능한 실용적인 솔루션을 제시했다는 점에서 의의가 있다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)