샌디에이고 캘리포니아대학교와 존스홉킨스대학교 등 8개 대학 연구팀이 챗GPT, 클로드 같은 AI를 가상 세계에서 훈련하고 테스트할 수 있는 새로운 시뮬레이터 '심월드(SimWorld)'를 공개했다. 해당 논문에 따르면, 게임 제작에 쓰이는 언리얼 엔진 5로 만든 이 프로그램에서는 여러 AI들이 가상 도시에서 배달 일을 하고, 투자 결정을 내리며, 서로 협력하거나 경쟁한다. 실험 결과 AI마다 전혀 다른 행동 패턴을 보였고, 심지어 돈을 모두 써서 스쿠터를 사놓고 전혀 타지 않는 이상한 행동도 발견됐다.
100개 이상 환경을 제공하는 AI 훈련장 탄생
기존 AI 훈련 환경은 한계가 많았다. 마인크래프트나 포켓몬 같은 게임은 AI 훈련에 많이 쓰이지만, 블록을 쌓는 방식이라 현실과 거리가 멀다. 자율주행 시뮬레이터 카를라(CARLA)나 가정용 로봇 시뮬레이터 AI2-THOR는 각각 자동차나 집안일에만 집중되어 있다. 카를라는 15개, 해비타트(Habitat) 3.0은 211개의 수작업 장면만 제공한다.
심월드는 이런 문제를 해결했다. 게임 제작에 쓰이는 언리얼 엔진 5를 활용해 중력, 충돌, 마찰 같은 실제 물리 법칙을 정확하게 재현한다. 심월드는 100개가 넘는 다양한 환경을 지원하는데, 고대 도시부터 자연 풍경, 미래 도시, 판타지 세계까지 포함된다. 각 환경은 서로 완전히 다른 모습과 구조를 갖추고 있어, AI를 여러 상황에서 철저히 테스트할 수 있다.
특히 심월드는 도시를 자동으로 무한히 만들어낼 수 있다. 사용자가 "도시 크기는 이 정도, 도로는 이만큼 깔아줘" 같은 큰 틀만 정해주면, 프로그램이 알아서 수많은 도시를 만든다. 도로를 깔고, 건물을 배치하고, 거리 시설물을 추가하는 3단계 과정을 거쳐 도시가 완성된다. 모든 설정을 사용자가 바꿀 수 있어서, 원하는 조건의 실험 환경을 대량으로 만들 수 있다.
클로드가 1등 했지만 "스쿠터만 사고 안 타는" 황당한 행동도
연구팀은 심월드의 성능을 확인하기 위해 '배달 실험'을 했다. AI들을 가상 도시의 배달원으로 만들어 돈을 최대한 많이 벌게 한 것이다. 실험은 절차적 생성 모듈로 만든 하나의 도시 맵에서 진행됐다. AI들은 주문에 가격을 제시하고, 물건을 픽업하고, 배달을 완료하며, 다른 AI와 주문을 나누거나 스쿠터를 사는 등의 결정을 내린다. 각 AI는 체력이 떨어지면 음료수를 사 마셔야 하고, 처음 받는 돈과 성격도 각각 다르게 설정됐다.
실험 결과는 흥미로웠다. AI 모델마다 20개씩을 만들어 5,000번의 시뮬레이션을 돌린 결과, 딥시크-V3와 클로드-3.5-소네트이 각각 평균 69.48달러와 69.07달러를 벌어 1, 2위를 차지했다. 클로드-3.5-소네트는 성공한 배달 개수에서도 평균 2.73개로 1위였고, 에너지 사용 효율도 0.54로 가장 좋았다.
하지만 이들 고성능 AI는 행동이 들쑥날쑥했다. 어떨 때는 크게 성공하고 어떤 때는 형편없어서, 성과 편차가 매우 컸다. 연구팀은 "클로드-3.5와 딥시크-V3가 가치 없는 주문에 터무니없이 높은 가격을 부르거나, 돈을 다 써서 스쿠터를 사놓고 전혀 타지 않는 등 불규칙한 행동을 자주 보였다"고 밝혔다.
반면 제미나이-2.5-플래시는 평균 42.42달러를 벌어 중간 정도였지만, 성과가 매우 안정적이었다. 성과 편차가 3.10에 불과해 언제나 비슷한 수준의 결과를 냈고, 성공 배달 개수도 평균 2.10개로 일정했다. 딥시크-프로버-V2와 클로드-3.5-소네트는 주문 나누기를 각각 평균 7.33회, 11.33회 했는데, 편차가 각각 8.39로 평균을 초과할 정도로 예측이 불가능했다.
특히 GPT-4o-mini 모델은 모든 항목에서 0점을 받았다. 연구팀은 "이 모델은 주어진 지시와 맥락을 바탕으로 합리적인 결정을 내릴 만큼 목표를 충분히 이해하지 못하는 것으로 보인다"고 분석했다.
"병원 옆에 나무 좀 심어줘"... 말로 세상을 만든다
심월드의 가장 놀라운 기능은 말로 환경을 바꿀 수 있다는 점이다. "시계탑 근처 병원 정문 앞에 테이블하고 나무 몇 그루 놓아줘"라고 말하면, 시스템이 바로 실행한다.
작동 원리는 이렇다. 대규모 언어 모델 기반의 장면 에이전트가 현재 환경의 장면 그래프를 분석해서 명령을 이해한다. "병원"이라는 공간적 기준점과 "시계탑 근처"라는 맥락적 랜드마크를 식별한 뒤, 자산 라이브러리에서 적절한 물건을 검색해 배치한다. 만약 적합한 자산이 없으면, 텍스트-3D 생성 모델(Hunyuan3D)을 호출해 "빨간 스포츠카" 같은 프롬프트로 새로운 객체를 합성하고, 이를 호환 가능한 형식으로 변환해 환경에 통합한다.
이 접근 방식은 의미적으로 근거가 있고, 공간적으로 일관되며, 확장 가능한 세계 구축을 가능하게 한다. 연구팀은 "이것이 대화형이고 조합적인 시뮬레이션의 기초를 마련한다"고 설명했다. 복잡한 3D 프로그램을 배울 필요 없이, 일상 언어만으로 원하는 환경을 실시간으로 만들어낼 수 있다.
심월드는 사람, 차량, 로봇이라는 3가지 형태의 에이전트 구현을 지원한다. 사람 형태는 다양한 외형을 갖추고 완전히 리깅된 골격 구조를 통해 달리기나 물건 들기 같은 현실적인 애니메이션을 생성한다. 차량 형태는 버스, 자동차 등 다양한 실제 교통수단을 재현하며 가속, 조향, 제동, 견인력 등 정확한 물리적 주행 역학을 구현한다. 로봇 형태는 사족 보행 시스템 같은 특정 로봇 범주를 모델링하며, 현실적인 구동, 관절 제어, 센싱 모듈을 갖추고 있다.
성실한 AI는 일 잘하고, 호기심 많은 AI는 돈 잃어
연구팀은 AI의 성격이 행동에 어떤 영향을 주는지 알아보기 위해 추가 실험을 했다. 심리학의 빅5 성격 모델을 적용해서, 최고 성능을 보인 클로드-3.5-소네트 모델로 20개 에이전트를 만들고 각각 다른 성격 특성을 부여했다. 각 성격마다 2개씩 에이전트를 할당했다.
결과는 명확한 패턴을 보였다. 성실성이 높은 에이전트들은 입찰 행동 빈도가 낮았지만, 주문 픽업 같은 작업 완수 행동은 더 자주 수행했다. 또한 입찰 성공률도 높았다. 이는 성실한 에이전트가 전략적 경쟁보다 작업 완수를 우선시한다는 것을 시사한다.
친화성이 높은 에이전트는 아무것도 하지 않는 행동을 덜 보였고, 입찰 성공률이 높았다. 반대로 친화성이 낮은 에이전트는 비활동성이 높고 입찰 가격 범위가 좁아 경쟁력이 제한적이었다.
흥미롭게도 개방성이 높은 에이전트는 배달 주문 완료 행동이 감소했다. 연구팀은 "이들이 경쟁적이거나 비전통적인 입찰 전략을 탐색하느라 작업 수행에서 주의가 분산되었을 가능성이 있다"고 분석했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 심월드는 기존 AI 시뮬레이터와 뭐가 다른가요?
심월드는 게임 제작에 쓰는 언리얼 엔진 5를 기반으로 현실적인 물리 법칙과 고품질 그래픽을 구현합니다. 마인크래프트처럼 블록 기반의 단순한 물리가 아니라 실제 중력, 관성, 충돌을 시뮬레이션하며, 자연어 명령으로 환경을 실시간 편집할 수 있습니다. 또한 대규모 언어 모델과 비전 모델 기반 에이전트가 자연어로 고수준 행동을 명령할 수 있는 인터페이스를 제공합니다.
Q2. 실험에서 어떤 AI 모델이 가장 우수한 성과를 보였나요?
딥시크-V3와 클로드-3.5-소네트이 각각 평균 69.48달러와 69.07달러로 가장 높은 수익을 기록했지만, 성과 변동성이 컸습니다. 반면 제미나이-2.5-플래시는 평균 42.42달러로 중간 수준이었지만 표준편차가 3.10에 불과해 매우 안정적이고 예측 가능한 성과를 보였습니다. GPT-4o-mini는 모든 지표에서 0점을 기록하며 작업을 전혀 이해하지 못했습니다.
Q3. 심월드를 실제로 어디에 쓸 수 있나요?
관련기사
- 챗GPT, 경제학자·투자자 예측 대결서 160명 중 80등... 효율성은 인간 압도2025.12.08
- AI 의사 못 믿겠네…심각한 오류 4건 중 3건이 '진단 누락'2025.12.05
- "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"2025.12.04
- 자녀가 쓰는 AI 캐릭터 앱, 안전할까?…16개 플랫폼 안전성 '빨간불'2025.12.03
자율주행 차량, 배달 로봇, 가정용 로봇처럼 실제 물리 환경에서 작동하는 에이전트를 훈련하는 데 활용할 수 있습니다. 또한 비즈니스 시뮬레이션, 도시 계획, 사회 행동 연구, 공중보건 시나리오 분석 등 다양한 분야에서 복잡한 시스템과 창발적 행동을 연구하는 플랫폼으로 사용됩니다. 오픈소스로 공개되어 있어 누구나 자신의 연구 목적에 맞게 커스터마이징할 수 있습니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)











