슈퍼브에이아이 "피지컬AI 걸림돌은 비주얼 그라인딩"...VLA 연구 강조
VLM 모델의 한계...인식, 추론, 행동 모두 수행하는 VLA 연구 촉구
산업용 비전 인공지능(AI) 전문기업 슈퍼브에이아이가 인간의 물리적 작업 능력을 모방하는 피지컬AI 시대의 핵심 과제로 '비주얼 그라운딩(Visual Grounding)' 문제를 꼽았다. 피지컬AI의 기반이 되는 시각언어모델(VLM)이 가진 근본적인 약점을 극복하기 위해 시각언어행동(VLA, Vision-Language-Action) 모델 연구의 중요성을 강조했다.
슈퍼브에이아이 경영진은 22일 위워크 선릉에서 개최한 세미나에서 "기존의 VLM은 시야에 보이는 물체의 개수를 인식하는 수준에 그친다"며 "물체의 위치가 정확히 어디 있고 공간 구조를 파악하는 것은 취약하다"고 설명했다. 실제로 AI 선두기업인 오픈AI와 앤트로픽의 VLM조차도 이 부분에서 고전하고 있는 실정이다.
AI업계는 VLM의 약점을 극복하기 위해 '월드모델(WFM)'을 접목하는 방법을 고안 중이다. 월드모델은 현실 세계의 물리적 법칙을 바탕으로 컴퓨터 그래픽 시뮬레이션 환경을 생성하는 모델이다. 구글의 지니3이 대표적인 WFM이다. VLM은 WFM의 시뮬레이션 상황을 보고 실제 환경의 공간을 정확히 파악한다.
문제는 두 개의 모델을 동시에 사용하면 시스템이 무거워지고 반응속도가 느려진다는 점이다. 차문수 최고기술책임자(CTO)는 "제조 공장에서 로봇이 실시간 작업을 수행하기 위해서는 물체 인식, 공간 이해, 행동 실행 등 삼박자를 동시에 실현하는 것이 필수"라며 "이에 세 개의 요소를 하나의 모델로 취합한 시각언어행동(VLA) 모델이 주목받고 있다"고 설명했다.
VLA는 기존 VLM과 월드모델이 각각 인식과 계획을 맡아 단계적으로 처리하며 발생하는 지연을 해소한다. 마치 인간이 보고, 생각하고, 행동하는 과정을 하나의 신경망으로 처리하는 것과 유사하다. 현재 VLA 분야에서는 구글의 '제미나이 로보틱스 ER 1.5' 모델이 인식, 추론, 액션 모두를 하나의 모델이 실행하는 개념으로 선두를 달리고 있다.
슈퍼브에이아이 역시 VLA로 연구 범위를 확장하겠다는 의지를 드러냈다. 그러나 당장 사업 방향은 VLM에 초점이 맞춰져 있다. 고객의 요구사항이 표준작업절차(SOP) 준수와 같은 기초적인 작업에 불과하기 때문이다. 차문수 CTO는 "다수의 고객사는 공장에 설치된 CCTV를 통해 작업자들이 SOP를 준수하는지 AI로 확인하는 것을 요구한다"며 "이같은 기술적 요구는 VLM만으로 실현 가능하다"고 말했다.
슈퍼브에이아이는 현실적인 고객 요구에 맞춰 현재의 VLM 기술력으로 시장을 선점한 뒤 점진적으로 VLA 연구에 힘을 싣는 투 트랙 전략을 구사한다. VLA도 다른 모델과 마찬가지로 데이터 확보가 우선적이다. 그러나 국내 기업의 데이터 보안 민감도가 높아 데이터 외부로 꺼내는 것은 실상 어렵다. 이에 국방, 제조, 안전 관리 등 데이터 수집이 어려운 영역일수록 합성 데이터가 중요한 대안으로 자리잡고 있다.
김현수 슈퍼브에이아이 최고경영책임자(CEO)는 "피지컬AI는 아직 데이터 구축 단계에 있으며 동작 구현이 우선이고 경량화는 상용화 이후의 고민"이라며 "높은 도입 비용과 현장의 불확실성이 변수로 남아 있으나 제조업 강국인 한국이 VLA 연구를 통해 글로벌 기술 주도권을 확보할 잠재력이 있다"는 포부를 밝혔다.