슈퍼브에이아이의 NVIDIA Isaac Sim 기반 합성 데이터 파이프라인 구축기
다중 카메라 객체 추적(MTMC) 모델을 위한 방대한 학습 데이터, 어떻게 구축할까요? 슈퍼브에이아이 3D 팀이 NVIDIA Isaac Sim을 활용하여 고품질 합성 데이터 파이프라인을 구축한 과정을 소개합니다. 3DGS 렌더링, 커스텀 어노테이터, 도메인 무작위화 기술로 Sim-to-Real 갭을 극복하는 노하우를 확인해 보세요.
슈퍼브에이아이는 다중 카메라 기반 3D 객체 추적(MTMC, Multi-Target Multi-Camera) 모델을 개발하고 있습니다. 대규모 공간에서 여러 대의 카메라로 다수의 객체를 정밀하게 추적하는 기술인데요. 수많은 사람들의 이동 동선을 파악하여 공간 혼잡도를 계산하거나, 공간의 효율을 높이는 솔루션으로 사용되기도 합니다.

이를 위해서는 타겟이 라벨링된 방대한 양의 다중 카메라 비디오 데이터가 필요하지만, 현실 세계에서 이러한 데이터를 수집하는 것은 쉽지 않습니다. 수작업 라벨링은 객체 수, 프레임 수, 뷰(View) 수를 곱한 만큼의 막대한 비용과 시간을 요구합니다.
슈퍼브에이아이 3D 팀은 이 한계를 극복하기 위해 합성 데이터(Synthetic Data)를 해결책으로 활용하고 있으며, NVIDIA의 Isaac Sim 생태계를 기반으로 파이프라인을 구축하고 있습니다. 슈퍼브에이아이 내부 구성원을 대상으로 한 송찬영 엔지니어의 발표를 바탕으로, 슈퍼브에이아이 3D 팀이 시뮬레이터 환경을 고도화하며 마주한 기술적 과제들과 연구 과정을 소개합니다.
Sim-to-Real 갭 극복을 위한 기술적 접근
합성 데이터를 활용하면 카메라 캘리브레이션 데이터, 타겟 바운딩 박스(bbox), 깊이 맵(Depth map), 시맨틱 라벨 등 완벽한 정답지를 자동으로 얻을 수 있습니다. 하지만 실제 환경 모델 적용을 위해서는 합성 에셋 확보, 확장 가능한 도메인 무작위화, 캐릭터 행동 및 군중 시뮬레이션 등 Sim-to-Real 갭을 줄이기 위한 여러 기술적 난제들이 존재합니다. 슈퍼브에이아이 3D 팀은 엔진과 프레임워크에 대한 이해를 바탕으로 다음과 같이 엔지니어링 이슈들을 해결해 나가고 있습니다.
1. 가우시안 스플래팅(3DGS) 렌더링 이슈와 2-Pass 워크어라운드
실제 현실의 3D 공간을 시뮬레이터 내에 시각적으로 정교하게, 마치 실사처럼 복원해 내기 위해 3D 가우시안 스플래팅(3DGS) 기술을 활용하고 있습니다.
슈퍼브에이아이의 R&D를 위해 제작한 공간을 촬영 후, Isaac Sim으로 인물 합성
물리적 상호작용을 위해 메시 프림을 스플래팅 데이터의 '프록시 프림(Proxy prim)'으로 연결하는데요. 프록시 프림과 매트 객체는 Isaac Sim 및 USD 환경에서 복잡한 원본 에셋 대신 물리 연산이나 가림(Occlusion) 처리를 단순화하기 위해 사용하는 핵심 기능입니다.
하지만 불완전한 메시에 이 속성을 적용할 때 렌더링과 라벨링 기능 간의 기술적 충돌이 발생했습니다.
- 메시를 보이지 않게(invisible) 설정하면 렌더링은 깔끔하지만, 어노테이터(Annotator)가 물리적 가림을 인식하지 못해 캐릭터가 벽 뒤에 있어도 투시하여 라벨링하는 문제가 생깁니다.
- 반대로 메시를 보이게(visible) 설정하면 어노테이터는 정상 동작하지만, 렌더링 시 메시 영역에 원치 않는 그림자 아티팩트가 생기고 조명이 왜곡됩니다.

슈퍼브에이아이 3D 팀은 이 근본적인 프레임워크 한계를 극복하기 위해 2-Pass 렌더링 워크어라운드를 고안했습니다. 첫 번째 패스에서는 메시를 포함하여 어노테이터를 위한 정확한 물리적 가림 연산을 수행하고, 두 번째 패스에서는 메시를 제외하여 3DGS 본연의 깔끔하고 사실적인 시각적 렌더링을 진행합니다. 이를 통해 렌더링 품질과 라벨링 정확성을 완벽하게 분리하여 확보할 수 있었습니다.
2. 인간의 인지 방식을 고려한 커스텀 어노테이터 개발
Isaac Sim의 합성 데이터 프레임워크인 Omniverse Replicator는 기본적으로 자동화 어노테이터(Auto-annotator)를 제공합니다. 하지만 이 기본 어노테이터는 객체가 사물에 가려져 카메라에 단 몇 픽셀만 노출되어도 이를 전부 포함하여 거대한 바운딩 박스를 정의하는 한계가 있었습니다. 실제 인간 작업자라면 너무 작아 인지하지 못했거나 노이즈로 간주하여 더 작고 타이트한 바운딩 박스를 생성했을 상황입니다.
데이터의 품질을 높이기 위해, 슈퍼브에이아이는 Replicator의 파이프라인을 확장하여 실제 사람의 인지 방식과 유사한 커스텀 어노테이터를 설계했습니다.
- 새로운 알고리즘은 먼저 시스템의 시맨틱 세그멘테이션 라벨 정보를 활용하여 화면에 실제로 노출된 캐릭터 픽셀들만을 정확히 추출합니다.
- 추출된 픽셀들의 연결된 윤곽선(Connected contours)을 계산합니다.
- 특정 임계값(Threshold parameter) 이하의 면적을 가진 미세한 윤곽선은 바운딩 박스 생성 시 노이즈로 간주하여 완전히 무시하도록 프로그래밍했습니다.
이러한 정교한 픽셀 필터링 로직을 통해 실제 사람이 작업한 것과 같이 AI 모델 학습에 최적화된 고품질의 BBox 데이터를 대량으로 생성해내고 있습니다.
3. 스크립트 기반의 강력한 도메인 무작위화
시뮬레이터 환경과 실제 환경 간의 갭을 극복하는 열쇠는 모델이 다양한 상황을 학습할 수 있도록 데이터에 무한한 다양성을 부여하는 것입니다. 슈퍼브에이아이 3D 팀은 파이썬(Python) 기반의 스크립트를 활용하여 다채로운 환경 변수를 프로그래밍 방식으로 완벽하게 통제하는 무작위화 파이프라인을 구축했습니다.
대표적으로 스크립트를 통해 다음과 같은 시각적, 물리적 변수들을 무작위로 변화시키며 데이터를 생성합니다.
- 조명 및 광원 (Lighting): 조명의 색온도, 조명의 개수, 무작위 조명 강도 샘플링.
- 카메라 설정 (Camera Properties): 초점 거리 등 렌즈 파라미터 변경.
- 객체 및 환경 재질 (Materials): 캐릭터의 의상 색상, 바닥의 재질 및 반사도 조절.

이처럼 USD Stage를 순회하며 씬(Scene) 내의 속성값을 일괄적으로 세팅하고 렌더링하는 자동화 파이프라인을 통해, 단일 씬 안에서도 AI 모델의 일반화(Generalization) 성능을 극대화할 수 있는 다채롭고 방대한 시각 데이터를 효과적으로 확보하고 있습니다.
슈퍼브에이아이 3D 팀은 단순히 시뮬레이터가 제공하는 기능에 만족하지 않고, 최신 NVIDIA 생태계의 깊은 기술적 맥락을 파악하여 한계점을 독자적인 알고리즘과 엔지니어링으로 돌파하고 있습니다. 피지컬 AI 시대에 걸맞은 최고 품질의 합성 데이터 파이프라인이 궁금하시다면 언제든 슈퍼브에이아이 팀을 찾아주세요.
