[AI 리더스] 로봇계 TSMC 노리는 컨피그 "한국 제조 생태계가 우리 무기"

피지컬 인공지능(AI) 스타트업 컨피그인텔리전스가 양팔 작업에 특화된 자체 로봇 파운데이션 모델(RFM) 'CFG-1'을 앞세워 글로벌 로봇 데이터 시장의 'TSMC'를 노린다. 베트남 하노이에 세운 데이터 거점에서 하루 1테라바이트(TB) 이상의 영상을 쌓고 아마존웹서비스(AWS) 인프라 위에서 모델 학습까지 한 호흡으로 잇는 구조다.

손형목 컨피그 공동창업자 겸 최고기술책임자(CTO)는 지난 21일 서울 강남구 코엑스에서 열린 'AWS 서밋 서울 2026'에서 지디넷코리아와 만나 "로봇 학습에 직접 활용 가능한 액션 데이터를 이 정도 규모로 생산·운영하는 사례는 아직 국내외적으로 제한적"이라고 밝혔다.

월 2만 시간, 누적 15만 시간의 로봇 학습용 영상 데이터를 쌓고 있는 컨피그는 사람의 양손 작업을 로봇이 학습 가능한 형태로 변환하는 데이터 인프라와 자체 RFM을 함께 만드는 회사다. 직접 로봇을 만들지 않고 데이터 레이어에 집중해 'TSMC형 데이터 파운드리'를 표방한다.

시드 단계부터 삼성벤처투자 주도로 삼성·현대·LG·SK가 전략적 투자자로 참여해 2700만 달러(약 370억원) 규모 투자를 유치했다. 포춘 글로벌 500대 기업을 포함한 국내외 다수 기업·연구기관과 계약을 맺고 매출을 내고 있다.

"양팔이 로봇 지능의 다음 단계"…비전-언어-액션 정조준

컨피그가 만드는 CFG-1은 비전언어액션(VLA) 계열의 RFM이다. VLA는 비전 정보와 언어 지시를 바탕으로 로봇의 물리적 움직임을 생성하는 모델 구조다. 텍스트를 다루는 거대언어모델(LLM), 텍스트와 이미지를 함께 이해하는 비전언어모델(VLM)에서 한 단계 더 나아가, 실제 로봇 제어를 위한 액션 출력을 포함한다. 최근 촉각·힘 등 추가 센서 모달리티를 통합하는 방향으로 확장 중이다. 현재 VLA는 로봇 파운데이션 모델을 구현하는 대표적인 접근 중 하나로 자리 잡고 있다.

컨피그가 단팔이 아닌 양팔에 집중한 이유는 시장과 기술 양쪽에 걸쳐 있다. 산업 현장에서 사람이 수행하는 작업의 대부분이 본질적으로 양손 작업이지만 기존 자동화는 주로 단팔 협동로봇 중심으로 이뤄졌다. 사람이 양손으로 수행하는 복잡한 작업을 자동화하는 영역에 훨씬 큰 사업 기회가 남아 있다고 회사가 판단한 이유다.

손 CTO는 "양팔 작업은 단순히 물체를 집어 옮기는 것을 넘어 두 팔의 역할을 나누고 서로의 상태를 이해하며 긴 시간 작업 맥락을 유지해야 한다"며 "양팔은 로봇 지능의 다음 단계"라고 강조했다.

하노이 일 1TB '데이터 공장'…사람이 직접 로봇 손 흉내

VLA 모델은 데이터가 곧 성능이다. 핵심은 '액션의 주체'를 사람으로 바꾼 발상이다. 통상 로봇 학습 데이터는 사람이 로봇을 원격조종(텔레오퍼레이션)하는 방식으로 모은다. 데이터를 10배 늘리려면 로봇도 10배 필요한 데다, 부품 고장 시 수주에서 수개월의 다운타임이 발생하는 게 한계다.

컨피그는 사람을 직접 데이터 수집 주체로 세워 이 병목을 풀었다. 이 작업이 이뤄지는 곳이 베트남 하노이의 데이터 인프라 거점이다. 수백 명 규모 작업자가 매일 다양한 양팔 동작을 수행하며 그 결과로 일 1TB 이상의 영상 데이터가 생성된다.

사람 손과 로봇 엔드이펙터 사이의 시각적·구조적 차이, 이른바 체화 간극은 두 갈래로 좁힌다. 시각 차이는 타깃 로봇 엔드이펙터를 모방한 핸드툴을 사람이 들고 작업해 메우고, 움직임 차이는 자체 액션 레이블링 모델을 통해 타깃 로봇이 학습할 수 있는 액션 표현으로 변환해 최소화한다.

적녹청(RGB) 카메라 기반 컴퓨터비전 기술로 프레임 간 손 움직임을 밀리미터 미만 정확도로 추정해 로봇 학습용 액션 정보로 변환하는 방식이다. 데이터 규모를 강조하면서도 컨피그가 진짜 무기로 꼽는 건 다양성이다. 손 CTO는 "사람들은 데이터 병목을 얘기할 때 양에 집중하지만 진짜 중요한 건 얼마나 다양한 상황·물체·액션 패턴을 밀도 있게 담았느냐"라고 밝혔다.

AWS 풀스택으로 짠 '엔드 투 엔드' 파이프라인

이 대규모 데이터 흐름을 받치는 게 AWS 인프라다. 인프라 구축 초기엔 하노이에 AWS 다이렉트 커넥트 로케이션이 없어, 하노이에서 싱가포르 회선을 거쳐 아마존 S3에 데이터를 적재하는 우회 구조를 썼다. 회사 설립 약 1년 뒤 하노이 로케이션에 다이렉트 커넥트 서비스가 시작되면서 싱가포르를 거치지 않고 직접 연결하는 구조로 전환했다. 안정성과 비용 효율 모두 한 단계 개선된 것이다.

컨피그의 학습 인프라는 다이렉트 커넥트로 데이터를 아마존 S3에 적재한 뒤 아마존 EKS 기반 컨테이너 파이프라인에서 전처리하고 아마존 세이지메이커 하이퍼팟 그래픽처리장치(GPU) 노드에서 대규모 학습까지 잇는 구조다. 회사 측에 따르면 이 풀스택을 통해 데이터 전송비 6배, 스토리지 비용 2배를 절감하고 추론 효율은 2.5배 늘렸다.

CFG-1은 약 1만 시간 분량 휴먼 액션 데이터를 H200 4노드, GPU 32개로 약 1주일에 걸쳐 학습시켜 만들었다. 차세대 버전은 더 많은 데이터와 B200 등 고성능 노드를 활용해 규모를 키운다는 계획이다.

비용 구조는 워크로드 성격에 맞춰 쪼갰다. 대규모 멀티노드 학습은 리저브드 인스턴스로 안정성을 잡고, 고객별 파인튜닝 같은 싱글노드 작업은 EC2 스팟 인스턴스로 비용을 낮췄다. 손 CTO는 "전송지연(레이턴시)에 민감한 로봇 제어와 모델 추론은 로컬에서, 데이터 수집·저장·정제·학습은 클라우드에서 처리하도록 분리하되 두 레이어가 한 호흡으로 연결되도록 설계한 게 핵심"이라고 밝혔다.

AWS와의 다음 협력 단계도 가시화하고 있다. 컨피그는 로봇과 로컬 GPU 장비를 통합 모니터링·관리하고, 향후 대규모 운영에 대비하기 위해 AWS 사물지능인터넷(IoT) 코어 도입을 검토 중이다. 더 큰 모델 학습을 위한 AWS 트레이니움 실리콘 인프라 채택도 논의 단계다.