[현장] "AI 공장 성공, 소프트웨어에 달렸다"…래블업, '인프라 OS' 청사진 제시

김준기 CTO, GPU 클러스터 현실 공개…'수평 확장·수직 통합' 동시 해결 플랫폼 강조

컴퓨팅입력 :2025/09/24 15:22

래블업이 대규모 인공지능(AI) 인프라의 성공은 하드웨어가 아닌 소프트웨어에 달렸다고 선언했다. 자체 플랫폼을 AI 시대의 핵심 '운영체제(OS)'로 발전시켜 현장의 복잡한 문제들을 정면 돌파하겠다는 청사진이다.

래블업은 24일 서울 양재 aT센터에서 기술 컨퍼런스 'lab ¦ up > /conf/5'를 개최했다. 이날 두번째 기조연설을 맡은 김준기 래블업 최고기술책임자(CTO)는 AI 시대의 컴퓨팅 패러다임 변화와 그에 따른 인프라의 과제를 심도 있게 분석했다.

그는 먼저 'AI 팩토리'의 이상과 현실의 냉혹한 간극을 공개했다. 최근 약 500장의 그래픽처리장치(GPU)를 운용하는 대규모 프로젝트 경험을 공유하며 "솔직히 말해 이렇게 500장을 돌리면 무언가는 항상 고장이 날 수 밖에 없는 상태"라고 토로했다. 

김준기 래블업 최고기술책임자 (사진=조이환 기자)

스토리지 연결이 끊어지고 GPU 자체 오류와 통신 장애가 발생할 수 있으며 예측 불가능한 드라이버 버그로 인한 성능 저하 등이 빈번하다는 분석이다.

더불어 AI 데이터센터 구축은 전력망과 수자원까지 고려하는 거대 기간 산업이 됐다. 미국에서는 지하 발전소를 짓거나 원전을 3D 프린팅으로 생산하려는 스타트업까지 등장했다고 현지 분위기를 전했다.

김 CTO는 이 같은 총체적 난국을 해결할 해법으로 '수평 확장'과 '수직 통합'을 제시했다. 수평 확장은 수천 개 노드에 걸친 작업을 안정적으로 관리하고 장애를 극복하는 능력이다. 이를 위해 자체 개발한 '소코반(Sokovan) 스케줄러'를 통해 일부 GPU가 멈춰도 전체 작업이 중단되지 않고 자동으로 복구되도록 안정성을 확보했다.

수직 통합은 AI 모델부터 하드웨어 드라이버까지 전 계층을 아우르는 기술 역량을 의미한다. 김 CTO는 "이제는 파이토치로 모델 개발도 잘하면서 리눅스 시스템 콜인 엠엠에이피(mmap)의 최적화 이슈까지도 볼 수 있는 사람이 필요한 시대"라고 단언했다.

김준기 래블업 최고기술책임자가 발표하는 모습 (사진=조이환 기자)

이같은 역량이 필요한 이유는 AI가 컴퓨팅 인터페이스를 '자연어' 중심으로 바꾸고 있기 때문이다. 그는 전문가가 아니어도 말로 AI에게 일을 시키는 '바이브 코딩'과 여러 전문 AI 에이전트를 레고처럼 조합하는 '컴포저블 AI'가 미래가 될 것이라고 전망했다.

실제로 신정규 대표가 프로그래밍 경험이 없는 언어인 '러스트'를 사용해 여러 전문 AI 에이전트를 지휘하는 것만으로 상용 수준의 툴을 만든 사례를 직접 소개하기도 했다.

관련기사

발표 말미에 그는 향후 AI 인프라 업계가 풀어야 할 과제로 '분산 서빙'과 '기밀 컴퓨팅'을 제시했다. 래블업은 이러한 미래 기술까지 자사 플랫폼 안에서 해결해 나갈 계획이다.

김준기 CTO는 "우리가 하고자 하는 일은 AI 개발 배포 사용 사이클에 동반되는 모든 기술적 장애 요소를 소프트웨어 관점에서 제거하는 것"이라며 "우리의 '백엔드닷에이아이'가 그 핵심적인 역할을 할 것"이라고 밝혔다.