퓨샷 객체 탐지 챌린지 3년의 지형도: 글로벌 비전 AI 경쟁 구도 읽기
왜 지금 전 세계가 '소량 데이터 객체 탐지'에 주목할까요? 피지컬 AI 시대의 데이터 병목부터 중국 산학연합의 강세, 슈퍼브에이아이의 한국 기업 최초 우승까지 FSOD 챌린지 3년의 지형도를 담았습니다.
핵심 요약
- CVPR을 중심으로 한 퓨샷 객체 탐지(FSOD) 챌린지는 VPLOW 워크숍의 Foundational FSOD와 NTIRE 워크숍의 CD-FSOD, 두 갈래로 운영되고 있습니다. 문제의식은 인접하지만 평가 철학이 다릅니다.
- 3년간의 진화 방향은 분명합니다. 자율주행 단일 도메인(2024) → 20개 산업 도메인(2025) → 파인튜닝 트랙과 training-free 트랙의 분화(2026). "어떤 모델을 기반으로, 얼마나 빠르고 가볍게 현장에 적응시키는가"가 경쟁의 본질이 됐습니다.
- 3년의 리더보드가 남긴 가장 큰 교훈: 범용 모델 베이스라인이 산업 도메인에서 무너지는 동안, 정상은 '기반 모델 + 적응 체계'를 함께 설계한 팀들의 차지였습니다.
- 경쟁 지형은 사실상 중국 산학 연합의 강세 속에서 전개돼 왔으며, 2026년 슈퍼브에이아이가 한국 기업 최초로 우승하며 구도를 바꿨습니다.
- 슈퍼브에이아이는 상위권에서 상용 제품 모델(ZERO)로 출전하는 유일한 팀입니다. 연구용 조합이 아닌 '파는 모델'로 정상에 올랐다는 점이 이 우승의 또 다른 의미입니다.
퓨샷 객체 탐지(few-shot object detection)는 클래스당 10장 안팎의 예시만으로 AI가 새로운 객체를 인식하게 만드는 기술입니다. 산업 AI 도입의 최대 병목인 데이터 비용을 정면으로 겨냥하는 분야인 만큼, 최근 3년 사이 글로벌 연구 경쟁이 가장 뜨거운 영역 중 하나가 됐습니다. 이 글에서는 CVPR을 중심으로 한 FSOD 챌린지 생태계의 3년을 정리하고, 경쟁 구도와 방법론 트렌드를 읽어 봅니다.
왜 지금, 이 챌린지인가: 피지컬 AI 시대의 데이터 병목
이 챌린지 시리즈가 최근 3년 사이 빠르게 성장한 배경에는 산업 전반의 거대한 전환이 있습니다. AI가 화면 속 텍스트를 넘어 로봇·자율주행·스마트팩토리 등 물리 세계로 나오는 '피지컬 AI' 시대가 열리면서, 비전 AI에 요구되는 조건이 근본적으로 바뀐 것입니다.
물리 세계의 객체는 무한히 다양하고, 현장마다 다르며, 끊임없이 바뀝니다. 로봇이 마주칠 모든 부품을, 검사 라인에 나타날 모든 결함을 미리 수만 장씩 라벨링해 가르치는 방식은 원리적으로 불가능합니다. 결국 피지컬 AI의 '눈'은 처음 보는 객체에 적은 예시만으로 빠르게 적응하는 능력을 갖춰야 하고, 퓨샷 객체 탐지는 바로 그 능력을 측정하는 자(尺)입니다. 이 챌린지의 리더보드가 곧 '피지컬 AI 시대의 눈' 경쟁의 축소판인 이유입니다.
두 갈래의 챌린지: 같은 질문, 다른 철학
Foundational FSOD 챌린지(VPLOW 워크숍).
카네기멜런대학교가 주관하고 2025년부터 Roboflow가 공동 주관하는 시리즈로, "파운데이션 모델이 데이터 어노테이션에서 인간을 대체할 수 있는가"라는 질문에서 출발했습니다. 기존 FSOD 벤치마크(COCO 기반)는 최신 비전-언어 모델이 흔한 카테고리를 이미 zero-shot으로 잘 검출하기 때문에 변별력을 잃었다는 문제의식 위에서, 임의의 사전학습 모델을 클래스당 10장의 멀티모달(텍스트+시각) 예시로 정렬한 뒤 평가하는 프로토콜을 채택했습니다.

CD-FSOD 챌린지(NTIRE 워크숍).
일반 데이터로 학습한 모델이 원격탐사·수중 영상 등 도메인이 완전히 다른 환경에서 무너지는 문제, 즉 크로스 도메인 상황을 겨냥합니다. 소스와 타깃의 클래스 집합이 완전히 분리된 조건에서 1/5/10-shot 성능을 합산 평가하며, 소스 데이터를 엄격히 제한하는 트랙과 자유롭게 허용하는 트랙을 함께 운영합니다.

요컨대 전자는 '파운데이션 모델 시대의 현실적인 퓨샷 평가'를, 후자는 '도메인 시프트 내성'을 묻습니다. 두 시리즈 모두에 최상위권으로 등장하는 팀은 극소수로, 그만큼 두 문제를 동시에 잘 푸는 일이 어렵다는 방증입니다.
3년의 진화: 단일 도메인에서 2-트랙 체제까지
2024년, 개념 검증.
1회 대회는 자율주행 데이터셋(nuImages) 하나로 열렸습니다. 우승팀(NJUST KMG)의 솔루션은 대형 멀티모달 언어모델로 카테고리별 다양한 표현을 생성하고 최적 표현을 선택하는 접근으로, '모델이 알아듣는 언어로 바꿔 말하기'라는 이후 트렌드의 원형을 보여줬습니다.
2025년, 도메인 확장.
평가 무대가 Roboflow20-VL로 바뀌며 판이 커졌습니다. 슈퍼마켓 상품, 결함 검출, X-ray, 열화상, 항공 영상까지 20개 전문 도메인이 등장했고, 대표적 범용 모델들이 의료 영상에서 zero-shot 정확도 2% 미만을 기록할 만큼 난도가 올라갔습니다. '인터넷에 없는 세계'에서의 적응력이 본격적인 시험대에 오른 해입니다.

2026년, 방법론의 분화.
올해는 트랙이 둘로 나뉘었습니다. 파인튜닝을 포함한 모든 전략을 허용하는 Overall Track과, gradient 기반 학습을 금지하고 추론 시 in-context prompting만 허용하는 In-Context Prompting Track입니다. '학습 없이 적응하는 모델'이 독립된 연구 축으로 공인됐다는 의미로, 참가 규모도 Overall Track 기준 17개 팀, 200건 이상 제출로 성장했습니다. 전년도 최고 기록을 넘지 못하면 수상에서 제외하는 기준이 적용될 만큼 평가도 엄격해졌습니다.
경쟁 지형: 누가 싸우고 있는가
3년의 리더보드를 겹쳐 보면 구도가 드러납니다.
중국 산학의 강세.
2024년 우승팀 NJUST(남경이공대) 그룹은 3년 연속 순위권에 오른 유일한 학계 팀이고, 2026년 신설된 In-Context 트랙의 1·2위도 중국 연구 그룹이 차지했습니다. 학교와 기업이 결합한 산학연합 팀들이 양 챌린지 시리즈의 상위권을 꾸준히 채워 왔습니다.
최강 라이벌, 푸단대-레노버 산학연합.
그중에서도 푸단대학교와 레노버(Lenovo)가 결합한 FDUROILab Lenovo는 주목할 팀입니다. 2025년 Foundational FSOD 2위, 2026년 NTIRE CD-FSOD 우승, 그리고 2026년 Foundational FSOD에서 다시 2위. 양 시리즈 모두에서 최상위권을 유지하는 사실상 유일한 팀입니다. 2026년 Foundational FSOD에서 이 팀을 2.3점 차로 제친 것이 슈퍼브에이아이입니다.
새로운 참가자들.
2026년에는 사우디아라비아의 기술·보안 기업이 처음 등장했습니다. 중동 보안·CCTV 도메인의 비전 AI 수요가 글로벌 챌린지 무대까지 닿기 시작했다는 신호로 읽힙니다. 한편 서구권 빅테크와 학계는 주최 측(CMU·Roboflow)을 제외하면 리더보드에서 사실상 부재한데, 이 역시 흥미로운 공백입니다.
그리고 슈퍼브에이아이.
2025년 같은 워크숍에서 개별 객체 탐지(Object Instance Detection) 챌린지 2위와 Foundational FSOD 4위로 동반 입상하며 등장했고, 2026년 Foundational FSOD Overall Track 우승(평균 mAP 53.9)으로 정상에 올랐습니다. 한국 기업의 우승은 이 챌린지 역사상 처음입니다.
방법론 트렌드: 리더보드가 말해주는 세 가지
첫째, '학습 없는 적응'의 부상.
In-Context 트랙 신설이 상징하듯, 파인튜닝 없이 프롬프트와 검색만으로 모델을 적응시키는 접근이 독립 분야로 자리 잡고 있습니다. 멀티모달 프롬프트로 모델과 '대화하는' 능력이 곧 경쟁력이 되는 흐름입니다.
둘째, 합성 데이터의 유효성 입증.
NTIRE 2026의 소스 제한 트랙 우승팀은 생성 모델로 타깃 도메인 이미지를 합성하고 비전-언어 모델로 의사 라벨을 붙이는 프레임워크를 선보였습니다. 실데이터가 부족한 도메인을 합성 데이터로 메우는 전략이 챌린지 수준에서 검증된 셈입니다.
셋째, '부품 조합'의 시대.
상위권 솔루션들은 단일 모델이 아니라 비전 파운데이션 모델들을 조합하고 증강 전략을 얹는 시스템 설계 경쟁을 벌이고 있습니다. 직접 출전하는 대신 오픈소스 솔루션을 공개해 다른 팀의 입상을 지원하는 '솔루션 공급자' 모델까지 등장했을 정도입니다.
이 세 트렌드의 공통분모는 명확합니다. 경쟁의 본질이 '더 큰 모델'에서 '더 영리한 적응'으로 이동하고 있다는 것입니다.
슈퍼브에이아이의 위치: '파는 모델'로 이긴 유일한 팀
3년의 리더보드가 말해주는 가장 큰 교훈은, 퓨샷 적응의 성패가 적응 기법 이전에 '어떤 기반 모델에서 출발하느냐'에 달려 있다는 점입니다. 범용 모델 베이스라인이 산업 도메인에서 정확도 한 자릿수로 무너지는 동안, 정상에 오른 것은 기반 모델과 적응 체계를 함께 설계한 팀들이었습니다. 적응은 기법이지만, 적응이 작동하는 토대는 모델입니다.
이 지형도에서 슈퍼브에이아이의 좌표는 독특합니다. 상위권 팀 대부분이 연구용 모델 조합으로 출전하는 반면, 슈퍼브에이아이는 AWS 마켓플레이스에서 제공 중인 산업 특화 파운데이션 모델 제로(ZERO)로 출전합니다. 공개된 우승 솔루션 코드 역시 모델을 API 서비스로 추상화한 구조로, 재현성이라는 수상 요건과 제품 IP 보호를 양립시켰습니다. 연구를 위한 모델이 아니라 제품인 모델이 글로벌 무대에서 1위를 했다는 것이 점수 너머에 있는 우승의 의미입니다.
트렌드와의 정합성도 눈여겨볼 지점입니다. '학습 없는 적응'은 제로의 멀티모달 프롬프트 노선과, '합성 데이터'는 슈퍼브에이아이의 피지컬 AI 합성 데이터 파이프라인과, '영리한 적응' 경쟁은 우승 솔루션의 경량 어댑테이션 체계와 각각 맞닿아 있습니다. 챌린지 생태계가 향하는 방향과 회사의 기술 로드맵이 같은 곳을 보고 있는 셈입니다.
자주 묻는 질문 (FAQ)
Q. Foundational FSOD와 CD-FSOD 챌린지는 무엇이 다른가요?
전자(VPLOW 워크숍)는 파운데이션 모델을 클래스당 10장의 멀티모달 예시로 다양한 산업 도메인에 정렬하는 능력을, 후자(NTIRE 워크숍)는 학습 도메인과 완전히 다른 도메인에서의 적응력을 평가합니다. 문제의식은 인접하지만 데이터셋과 평가 프로토콜이 다릅니다.
Q. 퓨샷 객체 탐지 분야의 최근 트렌드는 무엇인가요?
파인튜닝 없이 프롬프트만으로 적응하는 training-free 접근의 부상, 합성 데이터를 통한 도메인 갭 해소, 그리고 여러 비전 파운데이션 모델을 조합하는 시스템 설계 경쟁이 두드러집니다. 공통적으로 '더 큰 모델'보다 '더 영리한 적응'으로 경쟁축이 이동하고 있으며, 그 적응이 작동하려면 산업 도메인에 강한 기반 모델이 전제돼야 한다는 점이 3년의 리더보드에서 확인됩니다.
Q. 슈퍼브에이아이의 성적은 어떻게 되나요?
2025년 CVPR VPLOW 워크숍에서 개별 객체 탐지 챌린지 2위와 Foundational FSOD 4위를 기록했고, 2026년 Foundational FSOD Overall Track에서 한국 기업 최초로 우승(평균 mAP 53.9)했습니다.
Q. 챌린지 결과는 어디서 확인할 수 있나요?
학회 공식 결과 페이지와 EvalAI 리더보드에서 전체 결과와 각 팀의 기술 보고서를 확인할 수 있습니다.
[관련 콘텐츠 더 보기]