슈퍼브에이아이 “비전 AI 에이전트화 연구...기업 고충 해결에 초점”

슈퍼브에이아이는 자체 개발한 비전 파운데이션 모델 '제로(ZERO)'를 단순한 VLM을 넘어선 '비전 AI 에이전트' 단계로 정의하고, 인식-추론-행동이 가능한 피지컬 AI로의 진화를 가속화하고 있습니다. 특히, 실제 산업 현장의 비전 AI 도입 및 운용 난제를 해소하고 제조 현장 구인난 해결에 기여하고자 VLA 모델 연구와 현장 적용에 집중하고 있다고 밝혔습니다.

슈퍼브에이아이 “비전 AI 에이전트화 연구...기업 고충 해결에 초점”
차문수 슈퍼브에이아이 CTO (사진=슈퍼브에이아이)
차문수 슈퍼브에이아이 CTO 인터뷰

슈퍼브에이아이(대표 김현수)가 지난 6월 출시한 제로샷 파운데이션 모델 ‘제로(ZERO)’는 단순한 비전-언어 모델(VLM)이 아니다. 차문수 슈퍼브에이아이 최고 기술책임자(CTO)는 이를 '비전 AI의 에이전트' 단계라고 소개했다.

“VLM은 아직 룰 베이스의 머신 비전(1단계)에 머물러 있는 곳이 많다”라며 “최신 비전 AI 기술은 불량-정상 데이터를 학습하는 딥러닝(2단계)을 지나, 이제는 상황을 이해하고 미래를 예측하는 에이전트(3단계)의 사이에 도달했다”라고 설명했다.

비전 AI가 인간을 대신할 수 있는 3단계, 즉 에이전트에 도달하려면 ‘인식과 추론 그리고 행동’이 갖춰져야 한다고 말했다. 이를 통해 학습하지 않는 데이터에도 적절하게 대응해야 한다는 것이다.

슈퍼브에이아이의 ‘제로’도 이 단계에 도달하기 위한 것이다. 모델 하나로 다양한 상황에 대응하려는 것이다.

이는 비전 AI를 넘어, 피지컬 AI로 도약하려는 의도다. 슈퍼브에이아이의 다음 과제도 비전 파운데이션 모델을 로보틱스에 적용하기 위한 ‘비전-언어-액션(VLA) 모델’로 진화하는 것이다.

로봇은 미리 학습하지 못한 다양한 사물과 상황에 대체하는 것이 기본이기 때문에 에이전트 수준의 성능을 갖춰야 한다는 것이다.

“특히 휴머노이드 등 대부분 로보틱스는 많은 센서를 장착하고 있기 때문에, ‘인풋(input)’이 많아지고 그에 따른 고차원의 추론은 필수”라고 설명했다.

제로 샷 모델 설명도 (사진=슈퍼브에이아이)

슈퍼브에이아이는 특정 상황을 촬영한 영상을 학습하는 방식으로 이를 풀어가고 있다. AI는 영상에서 단계별 행동을 분석하고 파악한다. 그리고 이를 바탕으로 로봇이 실제 사람처럼 작업하는지를 체크한다.

실제 행동 데이터의 중요성도 강조했다. 여기에는 시뮬레이션(3D 데이터)이 완벽히 담아내기 어려운 여러 정보가 담겨 있기 때문이다. 예를 들어, 마찰과 진동, 센서 노이즈 등의 미묘한 현실 법칙을 반영하는 것은 로봇의 '물리적 강건성(Robustness)' 확보에 필수적이라는 것이다.

이 때문에 최근에는 1인칭과 3인칭 시각에서 로봇이 사람의 행동을 보고 학습할 수 있도록 연구를 진행 중이다. "로봇 시점에서 팔을 움직이는 데이터도 별도 구축 중이며, RGB 데이터로 깊이와 거리 측정까지 가능하도록 연구 중”이라고 말했다.

통제된 상황에서 고품질의 실제 데이터를 확보하고, 이를 시뮬레이션으로 만든 가상 데이터와 통합해 학습하는 전략을 주로 사용한다고 전했다. “대형언어모델(LLM)이 발달한 뒤 음성 인식과 키워드 추출이 수월해진 것처럼, VLA가 발달하면 행동 인식 및 추출이 수월해질 것”이라며 “룰 베이스를 통한 개별 학습이 아닌, 단일 AI 모델로 해결할 수 있을 것으로 전망한다”라고 말했다.

한계도 존재한다고 덧붙였다. 시뮬레이션 환경과 실제 환경이 100% 일치할 수는 없기 때문이다. 하지만 완벽하지 않은 형태의 모델이라도 실생활에 우선 적용하는 것이 중요하다고 밝혔다. 모델이 현실 데이터를 학습해 성능을 올리는 것이 효과적이라는 것이다. 따라서 제로 샷 모델은 필수다.

제로 샷 모델의 설명을 위해 구글의 대표적인 로봇용 파운데이션 모델 ‘제미나이 로보틱스-ER 1.5'를 예로 들었다. 이 모델은 ‘비주얼 그라운딩’이 가능하다.

이 모델은 근본적으로 텍스트 기반의 자기회귀적 구조에 의존하며, 액션(행동)까지 이어지는 실시간성 모델은 아니다. 하지만, 출력 이전에 고차원적인 계획과 추론을 통해 가장 합리적인 결과를 도출하며 비주얼 그라운딩을 가능하게 한다. 추론 능력이 향상되면 모든 상황을 학습하지 않아도 된다는 것이 핵심이다.

즉, 로봇은 인터넷에서 수집된 방대한 지식(예: '병'은 뚜껑이 있고, '열다'는 돌려서 떼는 행위라는 개념)을 배우고, 실제 로봇 데이터는 이 추상적 지식을 물리적 행동에 연결(Grounding)하는 역할만 하므로, 모든 종류의 병을 학습할 필요 없이 새로운 병에도 기술을 전이해 적용할 수 있는 것이다.

‘월드 모델’도 VLA에 유용할 것으로 봤다. “월드 모델은 로봇의 '상상력' 역할을 하며, 환경 변화와 행동 결과를 예측하고 이를 통해 안전하고 안정적인 계획을 수립할 수 있을 것”이라며 “엔비디아 코스모스와 같은 생성 월드 모델은 물리적으로 정확한 대규모의 가짜 데이터(합성 데이터)를 만들어내, 실제 데이터가 부족할 때 로봇 학습을 보강하는 데 직접 활용된다”라고 말했다.

하지만, 현재는 무엇보다 기업의 비전 AI 도입을 지원하는 데 총력을 기울이고 있다고 강조했다. “제로 개발 이후 업계 반응이 눈에 띄게 달라졌다”라며 “고객사로부터 오전에 샘플 영상을 받아, 오후에 바로 추론 결과를 보내는 경우까지 생겼다”라고 말했다.

제로에는 추가 데이터 학습을 최소화하는 제로 샷 기술이 적용됐기 때문이다. 이는 비전 AI를 현장에 곧바로 도입할 수 있도록 한다.

“제조 현장을 예로 들면, 근로자가 학습할 가이드라인이 100~300페이지에 달하는 경우가 많다”라며 “근로자가 새로 들어오면 평균 3달 정도의 수습 기간이 필요하다는 의미”라고 말했다.

하지만, 비전 AI 로봇팔을 세팅하려면 학습 기간은 일주일~한달로 줄어든다. 제조 현장의 구인난을 감안하면, 제로샷 모델과 VLM이 해결책이 될 수 있다는 것이다.

차문수 슈퍼브에이아이 CTO는 아직 비전 AI는 도입 초기라고 지적했다. “현장에 나가면, 단순 표준 운영 절차(SOP)조차도 미세조정 과정이 없으면 제대로 동작하지 않는 것이 현실”이라는 것이다.

“이런 문제를 해결하기 위해 비주얼 그라운딩과 VLA 기술에 집중하고 있다”라며 “기업의 실제 문제를 해결하는 데 초점을 맞출 것”이라고 말했다.