시각장애인들은 가구를 조립하거나 전자제품을 설정할 때마다 보이지 않는 벽에 부딪힌다. 제품 설명서는 그림과 도식으로 가득 차 있고, 이를 AI에게 대신 읽어달라고 해도 엉뚱한 정보를 돌려받기 일쑤다. 스토니브룩 대학교(Stony Brook University) 연구팀이 2026 CHI 학술대회에 발표한 논문 「Lost in Instructions」은 AI 보조 도구가 시각장애인의 DIY 작업에 얼마나 실질적인 도움을 주는지 체계적으로 측정한 최초의 연구 중 하나다. 결론은 충격적이다. 참가자 전원이 AI의 도움만으로는 과제를 완수하지 못했으며, 단계별 정확도는 평균 50% 미만에 머물렀다.

시각장애인이 제품 설명서를 쓰는 방법

연구팀은 먼저 15명의 시각장애인을 대상으로 심층 인터뷰를 진행했다. 참가자들은 33세에서 73세 사이로, 모두 스크린 리더(화면 낭독 프로그램)와 AI 도구를 능숙하게 다루며 제품 설명서를 활용한 DIY 경험이 있는 사람들이었다.

가장 먼저 확인된 것은, 시각장애인들이 제품 설명서를 절대적으로 신뢰한다는 점이다. 10명의 참가자는 조립·설치 작업을 할 때 반드시 설명서를 참고한다고 밝혔다. 유튜브 영상이나 타인의 도움이 있어도 설명서가 '공식 정보'로 먼저 읽혔다. 단, 고장 수리(트러블슈팅) 상황에서는 설명서가 거의 외면받았다. 수리 항목이 아예 빠진 경우도 많고, 있어도 너무 일반적인 내용이라 실질적인 도움이 안 된다는 이유였다.

설명서 형태에 대한 선호도도 명확했다. 종이 설명서는 AI 카메라 앱으로 사진을 찍어야 하는 번거로움이 있지만, 가장 믿을 수 있는 형태로 꼽혔다. PDF나 온라인 설명서는 스크린 리더가 읽는 순서가 실제 페이지 순서와 달라지는 문제, 이미지만으로 구성된 페이지, 중간에 튀어나오는 광고 등이 걸림돌이었다. 레이아웃 측면에서는 단일 컬럼 형식이 압도적으로 선호됐다. 두 단 이상으로 구성된 설명서를 AI가 읽으면 두 컬럼의 내용이 뒤섞여 "중간 단계가 4개나 사라졌다"는 경험담도 나왔다.

AI 도구를 조합해서 쓰는 이유

참가자들이 가장 많이 사용한 AI 보조 도구는 비마이에이아이(Be My AI), 씨잉에이아이(Seeing AI), 챗지피티(ChatGPT)였다. 주목할 점은 단 한 명도 하나의 AI만 전적으로 신뢰하지 않는다는 사실이다. 12명은 처음에 하나의 앱으로 시작했다가 설명이 불완전하거나 이해하기 어려우면 다른 앱으로 넘어가는 방식을 썼다. 두 앱에서 같은 내용이 나올 때만 믿겠다는 식으로 교차 검증을 시도한 참가자도 두 명 있었다. 그럼에도 이 방식이 완료를 보장하지는 않았으며, 충돌하는 정보가 반복되면 그냥 포기하는 경우도 생겼다.

새로운 앱을 도입하는 데도 규칙이 있었다. 시각장애인 커뮤니티 내에서 누군가 먼저 써보고 추천한 도구만 받아들이는 경향이 강했다. 참가자 P8은 "새로운 AI 도구가 계속 나오는데 일일이 따라가기 어렵다. 다른 누군가가 먼저 써봤다고 하면 그때 써보는 편"이라고 설명했다. 인간 지원 서비스인 에이라(Aira)나 비마이아이즈(Be My Eyes)는 AI가 완전히 실패했을 때 최후의 수단으로만 사용됐다.

AI가 실제 과제에서 실패한 방식

연구팀은 인터뷰에 참가하지 않은 별도의 시각장애인 7명을 모집해 실사용 관찰 연구를 진행했다. 참가자들은 책상 정리함 조립(A1), 링 라이트(Ring Light) 조립(A2), 타이머 설정·수리(T1), 알람시계 설정·수리(T2)의 네 가지 과제를 수행했다. 정안인(시력이 있는 사람) 기준 완료 시간의 4배를 제한 시간으로 주었다.

결과는 냉혹했다. A1·T1·T2 과제의 완료율은 0%였고, 설명서 구조가 상대적으로 단순한 A2만 14%의 완료율을 기록했다. AI 지원 없이 스스로 완수한 단계의 정확도는 전체 평균 50% 미만이었다. 연구팀이 분석한 실패 원인은 크게 네 가지다.

첫째, AI 도구는 시각 중심 편향(Vision-Default Bias)을 쉽게 벗어나지 못했다. 참가자들이 "나는 시각장애인이니 느낄 수 있는 것으로 설명해달라"고 명시적으로 요청해도, 응답의 약 80%가 색깔, 라벨, 도식 참조에 의존했다. "A 부품을 끼워라"는 식의 설명이 돌아오고, 그 A가 실제로 손으로 잡았을 때 어떤 촉감인지는 알려주지 않았다.

둘째, AI는 맥락 추적에 자주 실패했다. 참가자들이 부품 사진을 찍어 올리며 "지금 내가 잡고 있는 게 1단계에서 써야 할 부품이냐"고 물으면, AI는 사진 속 장면을 묘사하는 모드로 전환되어 "사람이 타이머를 들고 있습니다"라는 식의 동문서답을 내놓았다. 진행 중인 단계와 무관한 설명이 이어지면서 참가자들은 다시 처음부터 정보를 재구성해야 했다.

셋째, 같은 부품을 다른 이름으로 부르는 일관성 부재가 반복됐다. A1 과제에서 '직사각형 망'이라고 불렀던 부품이 다음 응답에서는 '선반', 그 다음에는 '검은 패널'로 이름이 바뀌었다. 참가자들은 같은 내용을 확인하기 위해 AI에게 평균 8~10번씩 같은 단계를 되물어야 했다.

넷째, 전체 AI 응답의 64%에서 환각(hallucination) 현상이 관찰됐다. 존재하지 않는 잠금 장치를 묘사하거나, 없는 버튼을 찾아보라고 지시하거나, 단계 순서를 뒤바꾼 채 설명하는 사례가 다수였다. 참가자 P2는 "없는 버튼을 계속 찾았다. 손으로 온 표면을 훑으면서 내가 뭔가를 놓치고 있다고 생각했는데, 사실은 AI가 만들어낸 버튼이었다"고 회상했다.

시각장애인이 실제로 원하는 설명 방식

연구팀은 인터뷰와 관찰 연구를 통해 시각장애인이 필요로 하는 구체적인 설명 구조를 도출했다. 핵심은 '최소 단위(Atomic Step)', 즉 한 번에 하나의 동작만 담은 지시다. 각 단계에는 동작, 방향, 성공 여부를 확인하는 감각적 신호, 그리고 조립 강도 정보까지 포함되어야 한다. "손가락 힘으로 시계 방향으로 돌리다가 클릭음이 한 번 나면 멈추세요. 클릭음이 없으면 빼서 다시 정렬하세요"가 이들이 원하는 설명의 예시다.

공간 정보도 절대적으로 필요하다. 제품 로고가 자신을 향하도록 잡은 상태에서 경첩이 어느 방향이고, 그 기준에서 왼쪽·오른쪽이 어디인지를 먼저 설명해야 이후 모든 지시가 의미를 가진다. 작업 중 기기를 뒤집어야 할 경우에도 "지금 기기를 180도 돌리세요"라고 명시적으로 말해줘야 한다. 오류 복구 안내 역시 중요하다. "맞지 않으면 다시 해보세요" 수준의 안내로는 부족하며, "빼서, 돌리고, 두 번 클릭 소리가 날 때까지 눌러보세요"처럼 구체적인 다음 행동이 제시되어야 한다.

연구팀은 실험자가 이 구조로 직접 설명했을 때 재설명 요청이 AI 재질문 횟수 대비 약 80% 감소했다고 밝혔다. 이는 정보의 내용뿐 아니라 구조와 순서가 접근성에 결정적인 영향을 미친다는 것을 보여준다.

AI 설계와 제품 설명서에 대한 제언

연구팀은 AI 개발자와 제품 제조사 양쪽에 구체적인 개선 방향을 제안한다. AI 도구 측면에서는 설명을 세 겹으로 구성하는 방식이 권고된다. 전체 부품 배치와 공간 관계를 설명하는 거시 수준, 부품 간 연결 방법을 설명하는 중간 수준, 홈의 촉감이나 잠김 소리 같은 세밀한 감각 정보를 제공하는 미시 수준이다. 또한 '프롬프트 체이닝(Prompt Chaining)'이나 '검색 증강 생성(RAG, Retrieval-Augmented Generation)' 같은 기술을 활용해 설명서를 단계별로 쪼개고, 사용자가 현재 어떤 단계에 있는지를 AI가 맥락으로 유지하도록 설계해야 한다.

제품 설명서 측면에서는 단일 컬럼 레이아웃과 단계당 하나의 동작 원칙이 가장 기본이다. QR 코드를 통해 대화형 보조 도구로 연결하거나, 각 부품에 NFC 태그를 내장해 해당 부품을 터치하면 음성 안내가 나오는 방식도 제안됐다. 부품에 촉각으로 식별 가능한 물리적 표식을 추가하는 것도 유효한 방법이다.

연구팀은 이번 연구의 한계로 표본 크기(인터뷰 15명, 관찰 연구 7명)의 제한과 영어 사용자만 대상으로 한 점을 꼽았다. 또한 관찰 연구 당시 비마이에이아이가 GPT-4 기반으로 작동했으므로, 이후 모델 업데이트에 따라 결과가 달라질 가능성도 있다. 향후 연구에서는 스마트 안경을 활용한 실시간 지원 방식과, 실제로 개선된 AI 시스템을 설계·검증하는 작업이 필요하다고 연구팀은 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 시각장애인이 제품 조립에 AI를 사용할 때 가장 큰 문제가 무엇인가요?

A. 현재 AI 도구들은 시각 중심적 설명에서 벗어나지 못하는 경우가 많습니다. "A 부품을 끼우세요"처럼 라벨에 의존한 안내를 제공하면서, 실제로 손으로 만져서 알 수 있는 촉감이나 소리 정보는 충분히 제공하지 않습니다. 연구에서는 전체 AI 응답의 약 80%가 색깔, 라벨, 도식 참조에 의존했으며, AI의 지원만으로 과제를 완수한 참가자는 없었습니다.

Q. 챗GPT(ChatGPT)나 비마이에이아이(Be My AI) 같은 AI 앱은 시각장애인에게 도움이 되지 않나요?

A. 도움이 되는 경우도 있지만, 현재는 DIY 작업처럼 정확한 단계 이행이 필요한 상황에서는 한계가 뚜렷합니다. 같은 부품을 다른 이름으로 부르거나, 없는 부품이나 기능을 설명하는 환각 현상이 전체 응답의 64%에서 나타났습니다. 이 때문에 시각장애인들은 여러 AI 앱을 조합해 쓰거나, 결국 사람의 도움을 받는 경우가 많습니다.

Q. AI 설명서 안내가 개선되려면 어떻게 바뀌어야 하나요?

A. 한 번에 하나의 동작만 담은 단계별 안내, 동작 전후에 손으로 느낄 수 있는 상태 변화 설명, 그리고 실수했을 때 구체적으로 어떻게 복구할지에 대한 안내가 핵심입니다. 연구에서 이 구조로 설명했을 때 참가자들의 재질문 횟수가 AI 대비 약 80% 줄어들었습니다. AI 개발자들이 이 구조를 시스템에 적용하는 것이 시각장애인 접근성 향상의 핵심 과제입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

논문명: Lost in Instructions: Study of Blind Users' Experiences with DIY Manuals and AI-Rewritten Instructions for Assembly, Operation, and Troubleshooting of Tangible Products

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)