피지컬 AI 최강자? 엔비디아 코스모스가 로보틱스 훈련 방식을 바꾸다
'피지컬 AI', 로보틱스 훈련 방식을 바꿔버린 엔비디아 코스모스(NVIDIA Cosmos) 2.5를 심층 분석합니다. 실제 사용중인 Skild AI와 Serve Robotics 사례도 같이 소개합니다. '데이터 '생성'을 넘어 '선별'과 '큐레이션'이 왜 피지컬 AI 성공의 핵심인지, 슈퍼브에이아이의 전략과 함께 확인하세요.
피지컬 AI는 디지털 세계의 언어 모델(LLM)이나 이미지 생성에 머무르지 않고, 로봇, 자율주행차, 드론, 스마트 팩토리 등 '물리적 시스템'에 통합되어 현실 세계와 직접 상호작용하는 차세대 AI입니다.
피지컬 AI의 작동 원리는 인간의 인지 과정과 유사하며, 이는 3단계의 순환 고리에 기반합니다.
- ① 인지 (Perception): 카메라, LiDAR, 센서 등을 통해 주변 세상을 '보고 듣는' 단계입니다.
- ② 결정 (Decision): 수집된 데이터를 바탕으로 '생각하고 판단'하는 단계입니다.
- ③ 행동 (Action): 결정된 명령을 로봇 팔, 다리, 바퀴 등 구동 장치로 '물리적으로 실행'하는 단계입니다.

하지만 피지컬 AI의 상용화 앞에는 병목 현상이 존재합니다. 바로 '데이터 격차'입니다.
LLM은 인터넷에 존재하는 방대한 텍스트를 학습할 수 있지만 피지컬 AI는 반드시 '물리적 현실에 기반한 데이터'를 요구합니다. 피지컬 AI의 '데이터 격차'는 단순한 '양'의 문제가 아니라, '질'과 '종류'의 문제입니다. LLM의 데이터는 '얼마나 많은 텍스트를 스크래핑하는가'의 규모의 문제에 가깝습니다. 하지만 피지컬 AI가 학습해야 할 데이터는 '물리적 상호작용'과 '인과관계', 그리고 '시공간적 맥락'을 포함해야 합니다.
예를 들어, AI는 컵이 "테이블 위에 있다"는 단순한 '인지' 뿐만 아니라, "테이블 가장자리에서 밀면 바닥으로 떨어진다"는 '인과관계'와 물리 법칙을 학습해야 합니다. 즉, '존재'에 대한 데이터를 넘어 '상호작용'과 '결과'에 대한 데이터를 필요로 합니다. 이는 현실에서의 데이터 수집 난이도를 기하급수적으로 높이며, 결국 '합성 데이터(Synthetic Data)'를 유일한 현실적 대안으로 만들고 있습니다.
1. 새로운 패러다임: 시뮬레이션을 '슈퍼차징'하는 월드 파운데이션 모델(WFM)
엔비디아는 현실의 격차라는 거대한 장벽을 넘기 위해 '월드 파운데이션 모델(World Foundation Models, WFM)'이라는 새로운 개념을 제시했습니다.
이는 단순히 3D 에셋을 렌더링하는 것을 넘어, "물리적 세계의 상태에 대한 합성 데이터를 이해하고 생성하는 파운데이션 모델"을 의미합니다.
WFM은 시뮬레이션 데이터 생성 방식의 근본적인 전환을 의미합니다.
- 과거 (Artisanal, 장인 방식): 개발자가 Isaac Sim 같은 툴을 이용해 3D 환경을 수동으로 구축하고, 에셋을 배치하며, 액터(차량, 보행자)의 행동을 하나하나 스크립팅했습니다. 이는 고도로 숙련된 엔지니어가 필요한 노동 집약적이고 느린 '장인'의 방식이었습니다.
- 현재 (Generative, 생성 방식): Cosmos와 같은 WFM은 '생성형 AI'의 접근 방식을 시뮬레이션에 도입합니다. 개발자가 "비 오는 밤, 교차로에서 자전거가 등장하는 30초짜리 시나리오"와 같은 프롬프트(텍스트, 이미지, 비디오)를 입력하면, AI가 스스로 이 세계와 시나리오를 '생성'합니다.
이는 시뮬레이션 콘텐츠 제작의 패러다임이 '코딩과 3D 모델링'에서 '자연어 프롬프팅'으로 이동하고 있음을 시사합니다. 기존 워크플로우는 OpenStreetMap, Blender, JOSM 편집, USD 변환 등 복잡하고 전문적인 툴체인을 요구했습니다. 이는 고숙련 3D 시뮬레이션 엔지니어에게만 허락된 작업이었습니다.
하지만 Cosmos Predict 2.5는 "텍스트, 이미지, 비디오” 생성을 하나의 통합된 모델로 제공합니다. 3D 제작 기술이 없는 AI 모델 개발자조차 "이런 위험한 엣지 케이스 상황을 1000개 만들어줘"라는 프롬프트만으로 방대한 훈련 시나리오를 생성할 수 있게 되었습니다.
WFM은 시뮬레이션 데이터 생성을 '자동화'하고 '민주화'합니다. 이는 엔비디아가 강조하는 "아이디어 → 합성 데이터 → 훈련된 정책"으로 이어지는 전체 파이프라인을 획기적으로 단축시키는 핵심입니다.
엔비디아는 이 WFM 비전을 'Cosmos 2.5'라는 도구 모음(Tool Suite)으로 완성했습니다. 4개의 핵심 구성요소로 이루어져 있으며, 각각 '생성', '사실성 부여', '추론 및 평가', '검색'이라는 데이터 파이프라인의 핵심 단계를 정밀하게 담당합니다.
이 복잡한 스택을 이해하기 위해, 각 구성요소의 핵심 기능과 이들이 해결하는 구체적인 문제를 정리하면 다음과 같습니다.
표 1: NVIDIA Cosmos 2.5 스택: From Simulation to Reasoning
2. [심층 분석] NVIDIA Cosmos 2.5 스택 완전 해부
Cosmos 2.5 스택의 네 가지 구성 요소는 피지컬 AI 개발 파이프라인의 고질적인 문제들을 해결하기 위해 유기적으로 작동합니다.
A. Cosmos Predict 2.5: '연속적인 세계'를 생성하다
Cosmos Predict 2.5는 스택의 '생성 엔진'입니다. 핵심 기술은 단일 프레임(이미지, 텍스트, 비디오)을 입력받아, 물리적/시간적 일관성을 유지하는 약 30초 분량의 다중 카메라(multi-view) 비디오 월드를 생성하는 것입니다.
기술적으로는 이전 버전에 흩어져 있던 Text2Video, Image2World, Video2World 모델을 하나의 경량화된 아키텍처로 통합하여 효율성과 성능을 극대화했습니다.
여기서 주목해야 할 숫자는 '30초'입니다. 30초는 훈련 데이터의 질적 도약을 의미합니다. 이는 '단순 물리 예측'에서 '복잡한 행동 시나리오' 훈련으로의 이행을 가능하게 합니다.
기존의 3~5초 길이의 짧은 비디오 생성 모델은 "공이 어떻게 튈 것인가?" 또는 "차가 코너를 어떻게 돌 것인가?"와 같은 즉각적인 물리적 인과관계를 예측하는 데는 유용했습니다.
하지만 30초는 훨씬 더 복잡하고 긴 호흡의 '시나리오'를 담을 수 있는 시간입니다. 예를 들어, "보행자가 횡단보도에 접근(5초) → 달려오는 차량을 인지하고 망설임(10초) → 차량이 속도를 줄이는 것을 보고 건너기로 결정(15초) → 안전하게 횡단을 완료함(30초)"과 같은 의도와 상호작용이 포함된 복잡한 시계열 데이터를 생성할 수 있습니다.
결론적으로, 30초의 연속적 세계 생성 능력은 피지컬 AI가 단순한 '반응' 기계가 아닌, 복잡한 상황의 맥락을 이해하고 상대방의 '의도를 예측'하는 고차원적인 '추론' 에이전트로 훈련받을 수 있는 최소한의 데이터 단위를 제공한다는 점에서 그 중요성이 큽니다.
B. Cosmos Transfer 2.5: '극사실주의'로 Sim-to-Real을 정복하다
Cosmos Transfer 2.5는 Sim-to-Real 격차를 해소하는 '사실성 부여' 엔진입니다. 핵심 기술은 NVIDIA Isaac Sim이나 CARLA와 같은 시뮬레이터에서 생성된 '거친' 3D 씬을 입력으로 받습니다. 그리고 "비 오는 밤, 젖은 노면, 안개 낀 날씨"와 같은 텍스트 프롬프트에 맞춰, 이 3D 씬을 '사실적인' 영상으로 변환합니다.
이전 모델(Transfer 1) 대비 모델 크기가 3.5배나 작아졌음에도, 성능(속도, 품질, 프롬프트 정렬)은 오히려 향상되었습니다. 특히 긴 비디오 생성 시 오류 누적이 훨씬 적게 발생했는데, 이는 일관성 있는 긴 시나리오를 생성하는 데 중요한 개선점입니다.
Cosmos Transfer 2.5의 접근 방식은 Sim-to-Real 격차 해소를 위한 매우 영리한 '파이프라인' 전략을 보여줍니다. 바로 '물리적 정확성'과 '그래픽 사실성'이라는 두 마리 토끼를 잡기 위해 두 작업을 분리한 것입니다.
- 1단계 (물리): Isaac Sim + Newton Physics Engine 은 오직 '물리적 상호작용'에만 집중하여 빠르고 거친(하지만 물리적으로 정확한) 3D 씬을 생성합니다.
- 2단계 (그래픽): Cosmos Transfer 2.5가 이 씬을 입력받아 '사실적인 그래픽'만 후처리로 입힙니다.
이 '분리형 파이프라인'은 3.5배 작아진 모델의 빠른 속도와 결합되어, 기업들이 무한에 가까운 시각적 변형을 '저비용-고효율'로 생성할 수 있게 해줍니다. 이는 Sim-to-Real 격차를 해소하는 가장 실용적이고 확장 가능한 접근 방식입니다.
C. Cosmos Reason: '보는' AI를 넘어 '이해하는' AI 비평가
Cosmos Reason은 Cosmos 스택의 '뇌'이자 '품질 관리자'입니다. 70억 파라미터 규모의 VLM(비전-언어 모델)으로, "추론-인지, 멀티모달 인식"이라는 고차원적 기능을 제공합니다.
이 모델은 "저기에 차가 있다"는 단순한 객체 인지를 넘어, "저 차가 빗길에 미끄러져 보행자를 칠 수 있다"와 같이 영상 속의 시공간적 인과관계와 물리 법칙을 추론합니다.

또한 Cosmos Reason은 즉시 배포 가능한 NIM(NVIDIA Inference Microservice) 형태로 제공됩니다. 개발자들은 복잡한 인프라 구축의 부담 없이 이 강력한 '추론 엔진'을 자사의 데이터 파이프라인에 손쉽게 통합할 수 있습니다.

엔비디아 코스모스 리즌
Cosmos Reason의 진정한 가치는 로봇의 '뇌'로 사용되는 것 외에, 방대한 합성 데이터를 자동으로 평가하고 선별하는 'AI 비평가' 역할을 수행한다는 점에 있습니다.
Predict 2.5와 Transfer 2.5는 무한한 데이터를 생성할 수 있습니다. 하지만 이 중 상당수는 물리적으로 불가능하거나(예: 차가 건물을 통과하는 장면), 훈련에 무의미한 '쓰레기 데이터'일 수 있습니다. 인간이 페타바이트급의 생성 데이터를 일일이 검수하는 것은 불가능합니다.
엔비디아는 이 문제를 해결하기 위해 'AI 비평가'를 만들었습니다. Cosmos Reason이 "합성 비주얼을 평가하고 결과에 보상을 주는 비평가 역할을 하는 것입니다. 데이터 큐레이션 및 주석(Annotation)이 완전히 자동화 되어, MLOps 파이프라인까지 이어지게 됩니다.
D. Cosmos Dataset Search: '월' 단위의 작업을 '일' 단위로
Cosmos Dataset Search는 이 거대한 데이터 파이프라인의 '디버깅 및 반복'을 담당합니다. 핵심 기능은 방대한 시나리오 데이터 코퍼스에서 개발자가 원하는 특정 엣지 케이스를 즉시 검색하는 것입니다.
핵심 가치는 훈련 후(post-training) 모델의 약점을 보완하기 위한 반복(Iteration) 주기를 '수 개월'에서 '수 일'로 획기적으로 단축시킨다는 데 있습니다.
"모델이 왜 실패했는가?"라는 질문에 대한 답을 데이터 안에서 즉각 찾아주는, 데이터 중심 AI 파이프라인의 '디버깅 툴'이자 '검색 엔진'입니다.

예를 들어 자율주행차가 "폭우, 비보호 좌회전, 반대편에서 오는 자전거"라는 특정 엣지 케이스를 제대로 인식하지 못했다고 합시다.
- 과거: 엔지니어링 팀이 이 시나리오를 재현하기 위해 수동으로 시뮬레이터 툴을 조작하고, 수 개월에 걸쳐 수집된 현실 주행 데이터를 뒤져야 했습니다.
- 현재: 개발자는 Cosmos Reason(VLM)을 사용해 "폭우, 비보호 좌회전, 자전거"라고 자연어로 검색합니다. 그러면 Cosmos Dataset Search가 페타바이트급의 합성/실제 데이터 코퍼스 중에서 해당 시나리오 수천 개를 '수 일' 내로 찾아줍니다.
개발자는 이렇게 선별된 '실패 데이터셋'을 활용해 모델을 즉시 재훈련할 수 있습니다. 이는 "모델이 실패하면 → 해당 데이터를 즉시 검색해 → 데이터셋에 추가하고 → 재훈련"하는 완벽한 '데이터 중심 MLOps 루프'의 완성을 의미합니다.
3. 현장의 증명: Skild AI와 Serve Robotics
엔비디아는 이 기술이 단순한 프로토타입이 아님을 증명하고 있습니다. 이미 'NuRec(현실 복제) → SimReady Assets(3D 에셋) → Isaac Sim(시뮬레이션) → Cosmos(데이터 증강)'로 이어지는 4단계 표준 파이프라인을 제시하고, 실제 선도 기업들의 성공 사례를 통해 그 가치를 입증하고 있습니다.
A. 사례 1: Skild AI (시뮬레이션 + 증강의 완벽한 조합)
Skild AI의 목표는 특정 로봇이 아닌, 다양한 형태(인간형, 4족 보행, 로봇 팔)의 로봇에 범용적으로 적용 가능한 로봇 두뇌, 즉 '옴니바디 로봇 브레인'을 개발하는 것입니다.
이러한 '범용' AI라는 목표는 '수동' 시뮬레이션 제작 방식으로는 데이터의 다양성을 감당할 수 없어 달성이 불가능합니다. Skild AI는 이 문제를 엔비디아의 파이프라인으로 해결합니다.
- Isaac Lab: 강화학습을 위한 고성능 물리 시뮬레이션 환경인 Isaac Lab에서 수천 개의 로봇 인스턴스를 동시에 훈련시킵니다.
- Cosmos Transfer: 이렇게 생성된 시뮬레이션 훈련 데이터를 'Cosmos Transfer'를 사용해 다양한 환경 변수(조명, 배경, 텍스처)로 '증강'하여, 모델이 어떤 환경에서도 작동할 수 있도록 강건함(Robustness)을 극대화합니다.
Skild AI에 적용된 옴니바디 파운데이션 모델. 출처
Skild AI의 공동 창립자이자 CEO인 디팍 파닥(Deepak Pathak)은 엔비디아의 가치를 명확하게 요약했습니다.
"NVIDIA Isaac Lab과 Cosmos 기술은 로봇이 경험을 통해 학습하는 데 필요한 '대규모의 확장 가능한 데이터 소스'를 생성할 수 있게 해줍니다."
Cosmos의 '대규모 생성 및 증강' 능력이 '범용 로봇 AI'라는 목표 달성에 필수적임을 증명하는 사례입니다.
B. 사례 2: Serve Robotics (하이브리드 데이터 전략의 성공)
라스트마일 배달 로봇 기업인 Serve Robotics는 이미 1,000대 이상의 로봇을 실제 도시에 배포하여 10만 건 이상의 배달을 완료했으며, 2025년 말까지 2,000대 배포를 목표로 하고 있습니다.
Serve Robotics의 사례는 성숙한 피지컬 AI 기업이 '하이브리드 데이터 전략'을 어떻게 운영하는지 보여주는 최고의 모범 답안입니다. 그들은 '시뮬레이션'과 '현실 데이터'를 이분법적으로 보지 않고, 전략적으로 결합합니다.
- 현실 데이터 (Real Data): 배달 로봇 플릿(Fleet)은 월 100만 마일 이상의 주행 데이터를 수집하며, 이는 약 1700억 개의 이미지/LiDAR 샘플 이라는 엄청난 규모의 '현실' 데이터입니다.
- 합성 데이터 (Synthetic Data): NVIDIA Isaac Sim을 사용해, 이 방대한 현실 데이터에서 발견된 예측 불가능하고 위험한 '엣지 케이스' 수천 가지를 시뮬레이션 환경에서 집중적으로 재현하고 훈련시킵니다.
Serve Robotics의 작동 모습. 출처
Serve Robotics의 전략은 피지컬 AI의 성공적인 데이터 전략이 '현실 데이터' 또는 '합성 데이터'가 아닌, '현실 데이터와 합성 데이터'임을 명확히 보여줍니다.
이 파이프라인에서 [현실 데이터 = 문제 발견]의 역할을 하며, [합성 데이터(Cosmos/Isaac) = 문제 해결]의 역할을 수행합니다. 즉, 1700억 개의 현실 데이터는 "모델이 어디에서 실패하는지"를 알려주는 '문제 발견'에 사용되며, Isaac Sim과 Cosmos는 현실에서 단 한 번 발견된 그 '0.1%의 엣지 케이스'를 '100만 번' 재현하고 변형하여 '문제 해결'에 집중하는 데 사용됩니다.
4. 결론: Cosmos가 연 '데이터의 홍수', 진정한 승부처는 '데이터 큐레이션'
엔비디아 Cosmos 2.5 스택의 등장은 월드 파운데이션 모델(WFM)을 통해 피지컬 AI 개발의 가장 큰 장벽이었던 '데이터 생성'의 병목을 해결했음을 의미합니다.
새로운 문제는 '데이터 홍수(Data Deluge)'입니다. Cosmos가 '데이터 부족' 문제를 해결한 지금, 우리는 Serve Robotics가 월 1700억 개의 '현실' 샘플을 수집하고, Cosmos Predict가 '무한한' 합성 시나리오를 생성하는 시대를 맞이하고 있습니다.
피지컬 AI의 핵심 경쟁력은 이제 "얼마나 많은 데이터를 생성하는가?"가 아니라, "페타바이트급 데이터의 홍수 속에서 모델 성능을 높이는 '진짜 1%의 엣지 케이스'를 어떻게 식별하고 선별(Curate)하는가?"라는 질문으로 이동했습니다.
엔비디아 자신도 이 문제를 명확히 인지하고 있습니다. 그들이 'AI 비평가'인 Cosmos Reason과 '검색 엔진'인 Cosmos Dataset Search를 핵심 기능으로 포함시킨 이유입니다. '데이터의 홍수'를 관리할 '도구'를 함께 제공하는 것입니다.
하지만 Reason과 Search는 강력한 '컴포넌트(Component)'일 뿐, 전체 '워크플로우'를 관리하는 '플랫폼(Platform)'이 아닙니다. 현실의 기업들은 'Cosmos 생성 데이터', 'Isaac Sim 시뮬레이션 데이터', 그리고 'Serve Robotics의 실제 주행 데이터'처럼 다양한 소스에서 쏟아지는 이 모든 데이터를 단일한 파이프라인에서 통합 관리해야 하는 더 복잡한 과제를 안고 있습니다.
바로 이 지점에서 슈퍼브에이아이의 전략적 가치가 극대화됩니다.
- 엔진 vs. 허브: 엔비디아 Cosmos가 강력한 '데이터 생성 엔진'이라면, '슈퍼브 플랫폼'은 이 모든 종류의 데이터를 받아 통합적으로 관리, 정제, 라벨링, 분석하고 모델을 훈련/배포하는 '데이터 중심 MLOps 허브'입니다.
- 큐레이션의 핵심, 슈퍼브 큐레이트: 특히 슈퍼브 플랫폼의 주요 기능인 '슈퍼브 큐레이트'는 Cosmos가 필연적으로 야기한 이 '데이터 큐레이션' 병목을 정면으로 해결하는 솔루션입니다. 슈퍼브 큐레이트는 Cosmos가 생성한 수억 개의 원시 데이터(Raw Data)를 AI가 자동으로 분석하여 클래스 불균형, 시나리오 편향 등을 진단합니다. 그리고 모델 성능에 가장 치명적인 '희귀한 엣지 케이스'를 자동으로 선별하고, 라벨 노이즈를 탐지하여 가장 가치 있는 '황금 데이터셋'을 구축합니다.
NVIDIA Cosmos 2.5는 피지컬 AI의 '데이터 생성' 시대를 활짝 열었습니다. 하지만 이 혁명의 과실을 최종적으로 얻는 기업은, 무한히 생성된 데이터를 가장 잘 '선별하고 관리'하는 기업이 될 것입니다.
엔비디아 코스모스와 같은 월드 파운데이션 모델과 슈퍼브에이아이의 실용적인 데이터 큐레이션 솔루션은 경쟁 관계가 아닌, 피지컬 AI라는 거대한 혁신을 완성하기 위한 '필수적인 상호 보완 관계'에 있습니다. 복잡한 데이터 문제를 해결하고 피지컬 AI의 성공을 앞당기는 여정에서, 슈퍼브에이아이는 업계 최고의 파트너가 될 것입니다.

