[슈퍼브 인사이트] 매출 0원, 기업가치 11조… 무슨 일이죠? (feat. Physical Intelligence)
매출 0원인 2년 차 스타트업이 기업가치 11조 원을 인정받은 비결은? '로봇을 위한 챗GPT'를 만드는 피지컬 인텔리전스(PI)의 로봇 파운데이션 모델과 피지컬 AI 시대의 핵심인 데이터 전략을 알아봅니다.
>> 뉴스레터 구독하기
MIT Technology Review가 발표한 '2026년 10대 혁신 기술' 리스트에서 휴머노이드 로봇이 독자 투표 11위에 올랐습니다. 2025년 한 해에만 휴머노이드 로봇 분야에 60억 달러 이상이 투자되었고, 실제 가정에서 빨래 개기와 설거지 영상을 촬영해 로봇 학습 데이터로 판매하는 '긱 이코노미'까지 등장했을 정도인데요.
이 광풍의 한가운데에서, 창업 2년 차에 매출도 제품도 없는 한 스타트업이 4개월 만에 기업가치를 두 배로 끌어올리며 시장을 흔들고 있습니다. 바로 '로봇을 위한 ChatGPT'를 표방하는 Physical Intelligence(PI)입니다.
PI가 어떤 회사이고, 왜 글로벌 투자자들이 110억 달러라는 가격표에 베팅하고 있는지, 그리고 이 흐름이 피지컬 AI 시대를 준비하는 기업들에게 던지는 시사점은 무엇인지 정리해봤습니다.
🌟 SUPERB Spotlight
'로봇을 위한 ChatGPT'를 만드는 PI, 4개월 만에 기업가치 두 배
지난 3월 27일, 블룸버그는 PI가 약 10억 달러 규모의 신규 투자를 110억 달러 이상의 기업가치로 논의 중이라고 보도했습니다. 불과 4개월 전 56억 달러 가치로 6억 달러를 조달했던 회사의 기업가치가 단숨에 두 배로 뛴 것인데요.
제품도, 매출도, 상용화 로드맵도 공개되지 않은 창립 2년 차 스타트업에 이 정도의 자본이 쏠리는 이유는 무엇일까요? PI가 추구하는 '피지컬 AI(Physical AI)'의 의미와, 이 회사가 로봇 파운데이션 모델 경쟁 구도에서 차지하는 위치를 살펴봤습니다.

'ChatGPT for Robots' — PI가 만드는 것은 무엇인가
PI는 2024년에 설립된 샌프란시스코 기반 스타트업입니다. 공동창업자 Sergey Levine은 테크크런치 인터뷰에서 회사의 비전을 한 문장으로 요약했습니다.
"ChatGPT와 같지만, 로봇을 위한 것이라고 생각하라."

PI의 핵심 제품은 π0(파이제로)라 불리는 로봇 파운데이션 모델입니다.
2024년 10월 공개되고 2025년 2월 오픈소스화된 π0은 비전-언어 모델(VLM) 아키텍처 기반으로, 자연어 명령을 받아 다양한 로봇 유형을 제어해 빨래 개기, 커피 내리기, 박스 조립 등 수십 가지 작업을 수행할 수 있습니다.
2025년 4월에는 후속 모델인 π0.5를 발표했는데, 여러 로봇에서 수집한 데이터, 고수준 의미론적 예측, 웹 데이터 등 이질적인 소스를 함께 트레이닝해 처음 본 집의 주방이나 침실을 청소하는 수준의 개방형 일반화 능력을 보여줬습니다. 같은 해 11월에는 강화학습을 적용해 실전 작업 성공률과 처리량을 끌어올린 π*0.6까지 공개하며 모델 라인업을 빠르게 확장하고 있습니다.
PI는 '특정 로봇을 위한 특정 소프트웨어'가 아니라, 하드웨어에 독립적인 범용 로봇 두뇌를 목표로 합니다. 안드로이드가 다양한 스마트폰 제조사 위에 올라가듯, π 시리즈가 수많은 로봇 플랫폼 위에서 동작하는 중립적인 '브레인 레이어'가 되겠다는 전략이죠.

피지컬 AI 골드러시 — 경쟁 구도와 시장 신호
PI만 질주하고 있는 것은 아닙니다. 로봇 파운데이션 모델 시장 전체가 동시에 폭발하고 있습니다.
Skild AI는 SoftBank와 Nvidia로부터 140억 달러 가치로 10억 달러 이상을 조달했고, 휴머노이드 로봇 기업 Figure는 9월 10억 달러 이상을 조달해 390억 달러 가치에 도달했습니다.
2025년 한 해 로보틱스 스타트업이 조달한 금액은 138억 달러로, 2024년(78억 달러)은 물론 벤처 투자 피크였던 2021년(131억 달러)조차 넘어섰습니다.
흥미로운 대목은 PI의 전략이 경쟁자들과 미묘하게 다르다는 점입니다.
Skild AI는 이미 2025년 단 몇 달 만에 매출이 0에서 약 3천만 달러까지 증가하며 보안, 창고, 공장 조립 라인 등에 실제로 배치된 반면, PI는 상업화 일정을 전혀 공개하지 않은 채 연구 우선 기조를 고수하고 있습니다. 공동창업자 Lachy Groom은 "컴퓨트에 더 많이 투자할수록 더 좋아진다. 쓸 수 있는 돈에 한계는 없다"는 취지의 발언으로 이 전략을 요약한 바 있습니다.
2023~2024년 Anthropic, OpenAI 같은 LLM 기업들이 걸어온 길 — 매출 지표보다 기술적 잠재력과 연구 성과로 기업가치를 정당화하는 플레이북 — 을 로보틱스 영역에서 그대로 재현하는 모습입니다.

엔터프라이즈가 주목해야 할 시사점
'ChatGPT 모먼트'가 텍스트와 이미지를 넘어 물리적 세계로 확장되는 지금, PI의 사례는 비단 로봇 제조사에만 해당하는 이야기가 아닙니다. 제조, 물류, 헬스케어 등 물리적 작업이 비즈니스의 중심인 거의 모든 기업이 곧 마주하게 될 질문이기 때문입니다.
첫째, 하드웨어와 AI 모델의 분리가 본격화되고 있습니다.
π0이 오픈소스로 공개되면서 Hugging Face LeRobot에도 포팅됐다는 사실은, 특정 로봇 제조사에 AI 스택을 종속시키지 않고 '브레인 레이어'를 교체 가능한 자산으로 운영하는 시대가 오고 있음을 시사합니다.
둘째, 데이터가 곧 경쟁력입니다.
π0.5의 핵심은 "여러 로봇, 웹, 의미론적 레이블 등 이질적 데이터의 co-training"이었습니다. 고품질의 물리 세계 데이터 — 특히 시뮬레이션/합성 데이터 파이프라인 — 를 확보한 기업만이 일반화 성능에서 격차를 만들 수 있습니다.
셋째, '생성'에서 '행동'으로 AI의 무게중심이 이동합니다.
Apple, Meta, Google DeepMind 등 빅테크도 피지컬 로보틱스 영역에 본격 진입하며, 실제 환경과 연결된 AI 시스템이 다음 혁신 프론티어라는 베팅이 확산되고 있는데요. 텍스트나 이미지 생성에 머물렀던 AI 도입 전략을 '실제 물리적 작업을 수행하는 AI'로 확장할 시점이 다가왔습니다.
슈퍼브에이아이 역시 피지컬 AI의 핵심 과제인 고품질 학습 데이터 구축에 집중하고 있습니다. 3D 가우시안 스플래팅 기반 디지털 트윈 자산화, NVIDIA Isaac Sim 기반 합성 데이터 파이프라인 구축 등 'Sim-to-Real 갭'을 줄이기 위한 기술들을 현장에 적용 중인데요.


PI가 만드는 '로봇의 뇌'가 실제 우리 환경에서 작동하려면, 그 뇌를 학습시킬 양질의 데이터와 검증 인프라가 반드시 함께 준비되어야 합니다.
지금 이 순간에도 "우리 조직이 피지컬 AI 시대에 활용할 수 있는 데이터 자산은 무엇인가?"를 묻는 것이 가장 현실적인 준비가 아닐까 합니다.
✏️ SUPERB Curation
슈퍼브 차문수 CTO의 추천:
Google DeepMind, 온디바이스에서도 쓸 수 있는 멀티모달 모델 Gemma 4 공개
이제 텍스트뿐 아니라 이미지, 영상, 오디오까지 한 번에 처리하는 오픈 모델이 로컬 환경에서도 구동됩니다.
Gemma 4는 Google DeepMind가 Apache 2.0 라이선스로 공개한 멀티모달 모델 패밀리로, 2.3B짜리 경량 모델부터 31B 대형 모델까지 총 네 가지 크기로 제공됩니다. 특히 소형 모델(E2B, E4B)은 오디오 입력까지 지원하며, 128k~256k의 긴 컨텍스트 윈도우를 갖춰 에이전트 워크플로우에도 적합합니다.
물체 감지, GUI 요소 인식, 영상 이해, 이미지 캡셔닝, 멀티모달 함수 호출 등 다양한 태스크에서 준수한 성능을 보이며, LMArena 기준 31B 모델의 예상 점수는 1452점으로 파라미터 대비 높은 성능을 자랑합니다. transformers, llama.cpp, MLX, WebGPU 등 주요 추론 엔진에서 즉시 사용 가능하고, TRL을 통한 파인튜닝도 지원합니다.
정현지 Prodcut Advocate의 추천:
Netflix, 영상 속 객체를 지우고 물리 효과까지 복원하는 AI 프레임워크 VOID 오픈소스 공개
Netflix가 영상에서 특정 객체를 제거하면서 그 객체가 주변에 미쳤던 물리적 영향까지 자동으로 재구성하는 AI 프레임워크 VOID(Video Object and Interaction Deletion)를 오픈소스로 공개했습니다.
기존 영상 인페인팅 도구들이 단순히 객체를 지운 자리를 채우는 데 그쳤다면, VOID는 제거된 객체가 일으켰던 충돌이나 물리적 상호작용의 흔적까지 장면에서 일관되게 제거합니다. 시스템은 Alibaba의 CogVideoX를 기반으로 하며, Google의 Gemini가 영향 범위를 분석하고 Meta의 SAM2가 대상 객체를 분할하는 방식으로 여러 모델이 협력합니다. Apache 2.0 라이선스로 공개되어 상업적 활용도 가능하며, 코드와 데모는 GitHub와 Hugging Face에서 확인할 수 있습니다.
영상 후처리나 콘텐츠 편집 파이프라인에서 물리적 맥락까지 고려한 객체 제거가 필요한 팀이라면 실질적인 참고 사례가 될 것입니다. 비디오 데이터 정제나 합성 데이터 생성 작업에서도 응용 가능성이 있어 보입니다.