슈퍼브에이아이, 피지컬AI ‘인지 엔진’에서 행동 모델까지 구축

슈퍼브에이아이는 파운데이션 모델 스택과 'Real-Sim 하이브리드' 역량으로 피지컬 AI 시장을 선도했습니다. 산업 특화 시각 모델 'ZERO'와 Spatial AI 기술을 통해 스스로 적응하는 인지·추론·행동 구조를 구현했습니다. 특히 정부의 '독자 AI 파운데이션 모델 개발 사업' 참여를 통해 한국형 데이터 주권을 확보하고 차별화된 데이터 구축력을 입증했습니다. 향후 파운데이션 스택 완성을 토대로 처음 보는 상황에도 유연하게 대응하는 일반화된 피지컬 AI 기업으로 자리매김하겠습니다.

슈퍼브에이아이, 피지컬AI ‘인지 엔진’에서 행동 모델까지 구축
실데이터·시뮬레이션·시각 모델로 이어지는 파운데이션 스택 전략

슈퍼브에이아이는 인지(Perception)·추론(Thinking)·행동(Action)으로 이어지는 파운데이션 모델 스택 구축을 핵심 전략으로 삼는 피지컬AI 전문기업이다.

실제 촬영 데이터와 시뮬레이션을 하나의 파이프라인으로 연결하는 ‘Real-Sim 하이브리드’를 경쟁력의 축으로 내세우며, 올 초에는 CES에서 엔비디아의 ‘피지컬AI 에코시스템’ 파트너로 이름을 올렸다.

슈퍼브에이아이 차문수 CTO에게 회사의 피지컬AI 기술 철학과 사업 방향을 들었다.

슈퍼브에이아이 차문수 CTO는 “글로벌 최신 시뮬레이션·로봇 학습 생태계와 직접 맞물려 데이터를 만들어 낼 수 있다는 점이 슈퍼브에이아이의 차별점”이라고 강조했다. [사진=슈퍼브에이아이]

인지·사고·행동, 피지컬AI의 3단계 구조

슈퍼브에이아이는 피지컬AI를 ‘눈으로 보고(인지), 생각하고(사고), 움직인다(행동)’는 세 축으로 정의한다. 기술적으로는 시각 파운데이션 모델(VFM)에서 출발해 시각·언어 통합 모델(VLM), 명령을 물리적 행동으로 옮기는 모델(VLA), 물리 법칙을 이해하고 미래를 시뮬레이션하는 월드 모델(WFM)로 이어지는 스택 구조다.

기존 산업 자동화와의 본질적 차이는 인식 정확도가 아닌 행동 결정 방식에 있다. 기존 로봇은 정해진 대상·위치·예외 조건 안에서 미리 짜둔 규칙대로 동작하는 폐쇄형 자동화(closed-world automation)에 가까워, 제품이 바뀌거나 예외 상황이 생기면 재학습과 재설정이 필요하다.

차문수 CTO는 “피지컬AI의 차별점은 객체를 얼마나 정확히 인식하느냐가 아니라, 열린 환경에서 인식·추론·행동을 하나로 연결해 현장 변화에 스스로 적응하는 능력에 있다”고 말했다.

산업 특화 시각 모델 ‘ZERO’와 Spatial AI

슈퍼브에이아이는 피지컬AI 내재화를 지원하기 위해 세 축의 기술 자산을 제공한다. 중심에는 산업 특화 시각 파운데이션 모델 ‘ZERO’(VFM)가 있다. 기존 인식 모델이 학습 시 미리 지정한 항목만 알아보는 폐쇄형(closed-set) 구조를 가진 반면, ZERO는 자연어 설명과 소수의 예시 이미지만으로 학습 때 보지 못한 대상까지 인식하는 개방형 인식(open-set perception)을 구현한다.

두 번째 축은 Spatial AI 기술군이다. 현실 공간을 실사 수준의 3D 디지털트윈으로 복원하고, 카메라 영상만으로 객체의 3차원 위치를 파악하며, 여러 대의 카메라에 걸쳐 동일 대상을 연속 추적·재식별하는 기술을 자체 보유하고 있다.

세 번째 축은 카메라·라이다·관절 토크 같은 멀티모달 센서 데이터를 수집부터 정제·라벨링·학습·재학습까지 전 주기로 통합 관리하는 MLOps 플랫폼이다. 이 세 축의 기술이 실제로 집결하는 대표 무대가 정부 ‘독자 AI 파운데이션 모델 개발 사업(독파모)’다.

독파모 사업 통해 확보하는 한국형 데이터 자산

슈퍼브에이아이가 독파모 사업에 주목하는 배경에는 데이터 주권 문제가 있다. 전 세계에 공개된 로봇 학습 데이터 대부분이 서구 생활환경에 치우쳐 있어, 한국형 주거 환경에 맞는 데이터는 사실상 공백 상태다. 차 CTO는 “데이터 주권의 공백을 먼저 메우는 위치에 서 있는 셈”이라고 밝혔다.

1차 사업에서는 한국 가정환경을 여러 대의 카메라로 촬영해 공간 전체를 조망하는 3인칭 시점과 로봇 시점인 1인칭 시점을 동시에 구축했다.

또, 요리·설거지 같은 일상 시나리오를 다양하게 연출하고, 자체 자동 선별 기술로 원본 영상을 정제해 학습용 데이터로 자산화했다.

현재 진행 중인 2차 사업에서는 이 실데이터를 시뮬레이터가 조작 가능한 디지털 자산으로 전환하고 있다.

차 CTO는 “궁극적으로는 한국형 주거 공간을 3D 디지털트윈으로 복원하고 물리 속성을 부여해, 시뮬레이션 안에서 다양한 상황을 생성해 로봇을 학습시킬 수 있는 구조를 갖추는 것이 목표”라고 밝혔다.

Real-Sim 하이브리드와 NVIDIA 파트너십

슈퍼브에이아이의 영상 관제 솔루션은 사전 학습 없이도 상황을 즉시 인식한다. [자료=슈퍼브에이아이]

슈퍼브에이아이의 핵심 경쟁력은 실제 촬영 데이터와 시뮬레이션을 하나의 작업 흐름으로 다루는 ‘Real-Sim 하이브리드’ 역량이다.

열린 환경을 학습시키려면 현실에서 좀처럼 발생하지 않는 예외 상황(엣지 케이스) 데이터가 반드시 필요하지만, 이를 실제 촬영으로만 확보하는 것은 비용·안전 측면에서 한계가 있다.

독파모에서 확보한 실데이터를 디지털 자산으로 전환한 뒤 Isaac Sim에서 만들어 낸 합성 데이터와 결합해 Sim-to-Real 격차를 좁히는 것이 슈퍼브에이아이의 방식이다. 이는 엔비디아가 1인칭 영상으로 로봇 월드 모델을 학습시키는 ‘DreamDojo’의 접근 방향과도 맞닿아 있다.

차 CTO는 “글로벌 최신 시뮬레이션·로봇 학습 생태계와 직접 맞물려 데이터를 만들어 낼 수 있다는 점이 슈퍼브에이아이의 차별점”이라고 강조했다.

2026년, 파운데이션 스택 완성을 향해

슈퍼브에이아이는 올해 두 방향에 집중한다. 먼저 시각 모델 ZERO를 고도화하고, 고성능 GPU 없이도 엣지·로보틱스 환경에서 실시간 작동이 가능하도록 경량화한 뒤 국산 NPU 탑재를 통한 사업화를 추진한다.

아울러 독파모에서 쌓은 데이터·시뮬레이션 자산을 토대로 VLA 자율 조작과 휴머노이드 모방학습 영역으로 연구개발을 확장한다.

이 두 방향을 관통하는 목표는 VFM→VLM→VLA→WFM으로 이어지는 파운데이션 모델 스택을 단계적으로 완성하는 것이다.

차 CTO는 “정해진 환경에 특화된 자동화를 넘어, 처음 보는 상황까지 대응하는 일반화를 구현하는 피지컬AI 기업으로 자리매김하는 것이 목표”라고 포부를 밝혔다.