피지컬 인공지능(AI) 스타트업 컨피그인텔리전스가 양팔 작업에 특화된 자체 로봇 파운데이션 모델(RFM) 'CFG-1'을 앞세워 글로벌 로봇 데이터 시장의 'TSMC'를 노린다. 베트남 하노이에 세운 데이터 거점에서 하루 1테라바이트(TB) 이상의 영상을 쌓고 아마존웹서비스(AWS) 인프라 위에서 모델 학습까지 한 호흡으로 잇는 구조다.
손형목 컨피그 공동창업자 겸 최고기술책임자(CTO)는 지난 21일 서울 강남구 코엑스에서 열린 'AWS 서밋 서울 2026'에서 지디넷코리아와 만나 "이런 로봇 데이터 파이프라인을 직접 만든 곳은 국내에선 우리가 아는 한 없고 국제적으로도 많지 않다"고 밝혔다.
월 2만 시간, 누적 145만 시간의 로봇 학습용 영상 데이터를 쌓고 있는 컨피그는 사람의 양손 작업을 로봇이 학습 가능한 형태로 변환하는 데이터 인프라와 자체 RFM을 함께 만드는 회사다. 직접 로봇을 만들지 않고 데이터 레이어에 집중해 'TSMC형 데이터 파운드리'를 표방한다.
시드 단계부터 삼성벤처투자 주도로 삼성·현대·LG·SK가 전략적 투자자로 참여해 2700만 달러(약 370억원) 규모 투자를 유치했다. 포춘 글로벌 500대 기업을 포함한 국내외 다수 기업·연구기관과 계약을 맺고 매출을 내고 있다.
"양팔이 로봇 지능의 다음 단계"…비전-언어-액션 정조준
컨피그가 만드는 CFG-1은 비전언어액션(VLA) 아키텍처를 기반으로 한 RFM이다. VLA는 비전·언어·액션 세 가지 모달리티를 복합적으로 학습하는 모델이다. 텍스트만 다루는 거대언어모델(LLM), 텍스트와 이미지를 함께 이해하는 비전언어모델(VLM)에서 한 단계 더 나아간 구조다. 비전과 언어를 입력받아 로봇의 물리적 움직임을 출력하기에 시중에서 통용되는 RFM 대부분이 사실상 이 VLA 아키텍처를 기반으로 한다.
컨피그가 단팔이 아닌 양팔에 집중한 이유는 시장과 기술 양쪽에 걸쳐 있다. 산업 현장에서 사람이 수행하는 작업의 대부분이 본질적으로 양손 작업이지만 기존 자동화는 주로 단팔 협동로봇 중심으로 이뤄졌다. 사람이 양손으로 수행하는 복잡한 작업을 자동화하는 영역에 훨씬 큰 사업 기회가 남아 있다고 회사가 판단한 이유다.
손 CTO는 "양팔 작업은 단순히 물체를 집어 옮기는 것을 넘어 두 팔의 역할을 나누고 서로의 상태를 이해하며 긴 시간 작업 맥락을 유지해야 한다"며 "양팔은 로봇 지능의 다음 단계"라고 강조했다.
하노이 일 1TB '데이터 공장'…사람이 직접 로봇 손 흉내
VLA 모델은 데이터가 곧 성능이다. 핵심은 '액션의 주체'를 사람으로 바꾼 발상이다. 통상 로봇 학습 데이터는 사람이 로봇을 원격조종(텔레오퍼레이션)하는 방식으로 모은다. 데이터를 10배 늘리려면 로봇도 10배 필요한 데다, 부품 고장 시 수주에서 수개월의 다운타임이 발생하는 게 한계다.
컨피그는 사람을 직접 데이터 수집 주체로 세워 이 병목을 풀었다. 이 작업이 이뤄지는 곳이 베트남 하노이의 데이터 인프라 거점이다. 수백 명 규모 작업자가 매일 다양한 양팔 동작을 수행하며 그 결과로 일 1TB 이상의 영상 데이터가 생성된다.
사람 손과 로봇 엔드이펙터 사이의 시각적·구조적 차이, 이른바 체화 간극은 두 갈래로 좁힌다. 시각 차이는 타깃 로봇 엔드이펙터를 모방한 핸드툴을 사람이 들고 작업해 메우고, 움직임 차이는 자체 액션 레이블링 모델로 보정한다.
적녹청(RGB) 카메라 기반 컴퓨터비전 기술로 프레임 간 손 움직임을 밀리미터 미만 정확도로 추정해 로봇 학습용 액션 정보로 변환하는 방식이다. 데이터 규모를 강조하면서도 컨피그가 진짜 무기로 꼽는 건 다양성이다. 손 CTO는 "사람들은 데이터 병목을 얘기할 때 양에 집중하지만 진짜 중요한 건 얼마나 다양한 상황·물체·액션 패턴을 밀도 있게 담았느냐"라고 밝혔다.
AWS 풀스택으로 짠 '엔드 투 엔드' 파이프라인
이 대규모 데이터 흐름을 받치는 게 AWS 인프라다. 인프라 구축 초기엔 하노이에 AWS 다이렉트 커넥트 로케이션이 없어, 하노이에서 싱가포르 회선을 거쳐 아마존 S3에 데이터를 적재하는 우회 구조를 썼다. 회사 설립 약 1년 뒤 하노이 로케이션에 다이렉트 커넥트 서비스가 시작되면서 싱가포르를 거치지 않고 직접 연결하는 구조로 전환했다. 안정성과 비용 효율 모두 한 단계 개선된 것이다.
컨피그의 학습 인프라는 다이렉트 커넥트로 데이터를 아마존 S3에 적재한 뒤 아마존 EKS 기반 컨테이너 파이프라인에서 전처리하고 아마존 세이지메이커 하이퍼팟 그래픽처리장치(GPU) 노드에서 대규모 학습까지 잇는 구조다. 회사 측에 따르면 이 풀스택을 통해 데이터 전송비 6배, 스토리지 비용 2배를 절감하고 추론 효율은 2.5배 늘렸다.
CFG-1은 약 1만 시간 분량 휴먼 액션 데이터를 H200 4노드, GPU 32개로 약 1주일에 걸쳐 학습시켜 만들었다. 차세대 버전은 더 많은 데이터와 B100 등 고성능 노드를 활용해 규모를 키운다는 계획이다.
비용 구조는 워크로드 성격에 맞춰 쪼갰다. 대규모 멀티노드 학습은 리저브드 인스턴스로 안정성을 잡고, 고객별 파인튜닝 같은 싱글노드 작업은 EC2 스팟 인스턴스로 비용을 낮췄다. 손 CTO는 "전송지연(레이턴시)에 민감한 로봇 제어와 모델 추론은 로컬에서, 데이터 수집·저장·정제·학습은 클라우드에서 처리하도록 분리하되 두 레이어가 한 호흡으로 연결되도록 설계한 게 핵심"이라고 밝혔다.
AWS와의 다음 협력 단계도 가시화하고 있다. 컨피그는 수백에서 수천 대 규모의 로봇과 로컬 GPU PC를 통합 관리하기 위해 AWS 사물지능인터넷(IoT) 코어 도입을 검토 중이다. 더 큰 모델 학습을 위한 AWS 트레이니움 실리콘 인프라 채택도 논의 단계다.
"로봇계 TSMC"…미·중과 다른 무기는 한국 제조 생태계
데이터 인프라와 모델 학습 체계를 갖춘 컨피그가 그리는 청사진은 '로봇 데이터의 TSMC'다. 모든 고객에게 같은 데이터를 공급하는 게 아니라 표준화된 인프라 위에서 고객별 로봇 임바디먼트·태스크·환경에 맞춘 데이터를 빠르게 생산하는 데이터 파운드리 모델을 지향한다.
산업별 요구는 공통 계층과 산업별 계층으로 나눠 푼다. 그래스핑·양손 협응·도구 사용 같은 공통 매니퓰레이션 능력은 공통 계층에서 쌓고 제조의 반복·정밀도, 농업의 비정형성, 방산의 안전성 같은 특수 요건은 시나리오 단위로 표준화해 산업별 계층에서 확장하는 방식이다.
관련기사
- [현장] 피지컬 AI '컨피그', AWS와 로봇 학습 비용 절반 낮췄다2026.05.21
- "피지컬AI 시대 사라진 일자리 사다리...새로운 교육 필요"2026.05.20
- AWS "한국, 글로벌 피지컬 AI 중심축 된다"2026.05.20
- 피지컬 AI 경쟁 본격화…현장 투입 위한 다음 과제는 ‘통신’2026.05.18
업계는 산업용 휴머노이드가 실증을 넘어 초기 대량 생산에 들어가는 시점을 오는 2027~2028년으로 보고 있다. 손 CTO는 이같은 글로벌 휴머노이드 양산 본격화를 앞두고 미국·중국 경쟁사 대비 경쟁력에 대해 자본·인재·하드웨어·시장 규모만으로는 정면 승부가 어렵다고 진단했다.
대신 양팔 조작에 필요한 고품질 액션 데이터, 휴먼-투-로봇 데이터 변환, 빠른 태스크 적응 루프에 집중해 차별화를 만든다는 게 회사 전략이다. 손 CTO는 "한국 제조 생태계가 우리의 무기"라며 "실제 산업 문제가 가까이 있고 이를 빠르게 데이터와 모델 개선으로 연결할 수 있다는 점이 차별점"이라고 밝혔다.











