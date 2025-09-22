미국 실리콘밸리에서 인공지능(AI) 에이전트 훈련을 위한 새로운 핵심 기술로 '강화학습(RL) 환경'이 급부상하고 있다.

챗GPT 에이전트나 퍼플렉시티의 코멧 등 현재 소비자용 AI 에이전트는 아직 한계가 뚜렷하다는 평가가 나온다. 이를 뛰어넘기 위해서는 다단계 작업을 반복 훈련할 수 있는 정교한 시뮬레이션 공간이 필요하다는 분석이다.

22일 테크크런치 등 외신에 따르면 주요 AI 연구소와 빅테크 기업들은 RL 환경을 자체적으로 구축하는 동시에 이를 전문적으로 공급할 수 있는 외부 업체에도 눈을 돌리고 있다.

AI 에이전트의 훈련을 위한 새로운 핵심 기술로 'RL 환경'이 부상하고 있다. (사진=챗GPT 생성)

RL 환경은 AI가 실제 소프트웨어(SW)를 사용하는 상황을 가상으로 재현해 에이전트가 여러 단계를 거쳐 목표를 달성하도록 훈련시키는 가상의 작업장이다.

현재 시장에는 신생 스타트업부터 기존 데이터 라벨링 대기업까지 다양한 업체가 뛰어들고 있다. 스케일AI· 머코·서지 등은 기존 정적 데이터셋에서 한 단계 나아가 상호작용형 시뮬레이션으로 사업을 확장 중이다. 앤트로픽은 RL 환경 구축에만 내년에 10억 달러(약 1조3천억원) 이상을 투자하는 방안을 검토하는 것으로 알려졌다.

새롭게 주목받는 기업도 속속 등장하고 있다. AI 코딩 에이전트 훈련 환경을 공략하는 스타트업 메커나이즈는 엔지니어들에게 최대 50만 달러(약 6억원)의 연봉을 제시하며 인재 확보에 나섰다.

또다른 신생업체 프라임 인텔렉트는 안드레 카파시 등 유명 연구자와 벤처캐피털 투자를 등에 업고 오픈소스 생태계를 겨냥한 RL 환경 허브를 구축하며 허깅페이스와 같은 플랫폼을 지향하고 있다.

다만 RL 환경이 진정한 돌파구가 될지는 아직 미지수다. 막대한 연산 비용과 환경 확장성 부족이 여전히 난제로 꼽힌다. 오픈AI의 셔윈 우 엔지니어링 총괄은 최근 한 팟캐스트에서 "RL 환경을 구축하는 스타트업들에 대해 다소 부정적"이라고 평가하기도 했다.

그럼에도 업계 일부는 RL 환경이 AI 발전을 견인할 중요한 기반이 될 것으로 기대하고 있다. 스케일AI의 체탄 라네 제품 총괄은 "자율주행과 챗봇 시대를 거쳐 이제 RL 환경과 에이전트 영역으로 진화하는 것"이라고 강조했다.

로스 테일러 전 메타 AI 리서치 리드는 "RL 환경이 AI 발전의 차세대 엔진이 될지, 아니면 한계에 부딪힐지는 앞으로 1~2년 안에 판가름날 것"이라며 "실리콘밸리가 이 분야를 두고 치열한 경쟁에 나선 만큼 그 성패가 조만간 가려질 것"이라고 전망했다.