테크

제로(ZERO)는 어떻게 CVPR 2026 퓨샷 객체 탐지 챌린지 1위에 올랐나: 우승 솔루션 기술 해설

ZERO가 CVPR 2026 퓨샷 객체 탐지 챌린지 1위를 차지한 우승 솔루션을 5단계 파이프라인으로 해설합니다. 멀티모달 프롬프트, 의사 라벨링, 경량 재분류 모듈이 어떻게 평균 mAP 53.9를 만들었는지 단계별로 풀어 드립니다.

SUPERB AI

Jun 19, 2026 • 15 min read

핵심 요약

슈퍼브에이아이의 우승 솔루션은 비전 파운데이션 모델 제로(ZERO)를 중심으로 한 5단계 파이프라인입니다: 데이터·프롬프트 발굴 → 파인튜닝 → 재분류 → 테스트타임 증강 → 멀티소스 융합.
설계 철학은 기술 보고서 제목 그대로 두 축입니다. Discover the Unknown(소량 데이터의 한계를 프롬프트 탐색과 의사 라벨링으로 확장)과 Reconsider the Known(찾아낸 결과를 경량 모듈로 재검산).
텍스트·시각·맥락을 함께 쓰는 멀티모달 프롬프트로, 카테고리명이 모호한 산업·의료 도메인 문제를 해결했습니다.
평균 mAP 53.9 — 2위(푸단대·레노버 산학연합) 대비 +2.3, 전년도 최고 기록 대비 +3.8, 공식 베이스라인(GroundingDINO) 대비 +20.6.
차별점은 '무게'입니다. 일부 경쟁팀이 결과 보정에 초대형 모델을 쓴 것과 달리, 슈퍼브에이아이는 가볍고 확장 가능한 재분류 모듈을 택했습니다(특허 출원 진행 중).

슈퍼브에이아이는 자체 산업 특화 비전 파운데이션 모델 '제로(ZERO)'를 중심으로 한 시스템으로 CVPR 2026 Foundational 퓨샷 객체 탐지 챌린지(Foundational Few-Shot Object Detection Challenge) Overall Track 1위를 차지했습니다. 1편(우승 발표)에서 성과의 의미를 다뤘다면, 이 글에서는 우승 솔루션이 기술적으로 어떻게 작동했는지를 단계별로 풀어 봅니다.

문제: 왜 산업 도메인에서 범용 객체 탐지가 무너지는가

퓨샷 객체 탐지(few-shot object detection)의 어려움은 단순히 '데이터가 적다'는 데 있지 않습니다. 진짜 문제는 도메인 격차입니다. 일반 인터넷 이미지로 학습한 모델은 X-ray·열화상·항공 영상처럼 낯선 산업 데이터를 만나면 성능이 급격히 떨어집니다. 실제로 주최 측이 GroundingDINO, Qwen2.5-VL 같은 대표적 범용 모델로 구성한 베이스라인은 다수 데이터셋에서 정확도 1% 미만에 그쳤습니다. 올해 챌린지 데이터셋(Roboflow20-VL FSOD)이 20개 전문 도메인으로 구성된 이유도 바로 이 한계를 시험하기 위해서입니다.

여기에 한 가지 어려움이 더해집니다. 제조·의료·보안 도메인의 카테고리명은 전문 약어이거나 의미가 모호한 경우가 많아, 텍스트 프롬프트에 의존하는 기존 open-set 모델(GLIP, GroundingDINO 등)은 "무엇을 찾으라는 것인지" 자체를 안정적으로 이해하지 못합니다. 슈퍼브에이아이의 솔루션은 이 두 문제, 도메인 격차와 카테고리 모호성을 정면으로 겨냥했습니다.

우승 솔루션의 두 축: "Discover the Unknown and Reconsider the Known"

Discover the Unknown(모르는 것을 발견하기): 소량의 예시만으로는 부족한 정보를, 최적 프롬프트 탐색과 의사 라벨링으로 스스로 '불려' 나가는 축.
Reconsider the Known(아는 것을 다시 보기): 모델이 일단 찾아낸 결과를, 한 번 더 가볍게 재검토해 정확도를 끌어올리는 축.

"낯선 현장을 먼저 파악해 배우고, 자신이 내놓은 답을 다시 검토한다"이 두 동작이 파이프라인 전체를 관통합니다.

우승 파이프라인 5단계

① 데이터·프롬프트 발굴 (Discover)

첫 단계는 파인튜닝에 들어가기 전, 모델에 줄 '재료'를 최적화하는 작업입니다. 두 가지가 핵심입니다.

프롬프트 별명 탐색(alias search).

데이터셋이 제공하는 기본 클래스명은 축약어 등 정보가 부족한 경우가 많습니다. 그래서 시각적 속성을 묘사하는 별명(alias) 후보군을 만들고, 정확도 향상이 멈출 때까지 도메인별로 하나씩 추가하며 최적 조합을 탐욕적(greedy)으로 탐색합니다. 제로는 한 번의 캐시된 연산으로 임의의 별명 조합을 채점할 수 있어, 이 탐색을 매우 저렴하게 수행할 수 있습니다. 사람이 일일이 프롬프트를 다듬는 대신, 어떤 표현이 가장 잘 통하는지를 모델이 스스로 찾는 방식입니다.

시각 예시 선별.

카테고리당 제공되는 10장의 예시를 전부 쓰는 것이 관례지만, 슈퍼브에이아이는 그렇게 하지 않았습니다. 전부 넣으면 노이즈나 편향으로 작용할 수 있기 때문입니다. 대신 임베딩 기반으로 다양성을 고려해 가장 효과적인 예시만 골라 쓰는 서브샘플링을 적용했습니다. 이는 슈퍼브 플랫폼의 데이터 큐레이션 서비스(Curate)에서 의미 있는 데이터를 골라내는 방법론과 같은 계열의 기술로, 연구와 제품이 같은 뿌리에서 시너지를 내는 지점입니다.

② 의사 라벨링으로 학습 데이터 확장 (Discover)

소량 예시의 또 다른 함정은 '희소한 어노테이션'입니다. 라벨이 붙지 않은 객체가 이미지에 남아 있으면, 모델은 그것을 '배경'으로 잘못 학습합니다. 이를 해결하기 위해 AI가 초벌 라벨을 만들고 검수해 학습 데이터를 불리는 의사 라벨링(pseudo-labeling) 단계를 둡니다.

구체적으로는 제로와 SAM3가 객체 후보 박스를 생성하고, 임계값을 통과한 박스를 잘라내 Qwen3-VL-32B가 도메인 카테고리 중 하나로 분류하거나 'unknown'으로 폐기합니다. 이렇게 걸러진 라벨을 원본 정답 라벨과 합쳐 확장 학습셋을 구성합니다. 외부 모델은 이처럼 파인튜닝용 라벨을 마련하는 데이터 준비 단계에서 보조적으로 활용되며, 실제 객체 탐지를 수행하는 주체는 제로입니다. 좋은 라벨을 빠르고 정확하게 확보하는 이 과정에는, 슈퍼브에이아이가 데이터 라벨링 자동화 사업에서 쌓아 온 노하우가 그대로 녹아 있습니다.

③ 제로 파인튜닝: 2단계 분해 탐색으로 도메인에 적응

확장된 데이터로 제로를 각 도메인에 맞춰 미세조정합니다. 다만 도메인이 20개나 되는 상황에서 전체 하이퍼파라미터 공간을 다 탐색하는 것은 비현실적이고, 모든 도메인에 단일 설정을 쓰는 것은 차선입니다. 그래서 탐색을 둘로 쪼갰습니다. 먼저 학습률과 텍스트 증강 전략을 고르고, 그다음 어떤 모듈(백본·탐지 헤드·언어 어댑터)을 학습할지 선택합니다. 최적 학습률과 증강 전략이 모듈 선택과 무관하게 안정적이라는 경험적 관찰에 기반한 설계로, 도메인별 최적 설정을 현실적인 비용으로 찾아냅니다.

④ 경량 재분류 모듈: 찾은 결과를 다시 보기 (Reconsider)

퓨샷으로 파인튜닝한 탐지 모델은 "물체가 어디 있는가(localization)"는 잘 찾아내지만, "그것이 정확히 무엇인가(classification)"를 자주 틀립니다. 단일 신뢰도 임계값만으로는 이런 오류를 걸러낼 수 없습니다.

슈퍼브에이아이는 이 지점을 겨냥해 두 가지 장치를 더했습니다. 카테고리별로 신뢰도 임계값을 따로 보정하고, 퓨샷 예시로 학습한 경량 2차 분류기가 탐지 결과의 이름표(클래스)를 한 번 더 검산합니다. 분류기는 고신뢰 검출에만 적용해(저신뢰 검출에서는 분류기 자체가 불안정하므로) 라벨을 유지·재할당하거나, 확신이 부족하면 검출을 제거합니다. 결과적으로 "탐지기는 빠짐없이 후보를 찾는 역할, 분류기는 이름표를 재고하는 역할"로 분업하는 구조입니다.

핵심은 '무게'입니다. 일부 경쟁팀이 이 보정 단계에 수백억 파라미터 규모의 초대형 모델을 동원한 반면, 슈퍼브에이아이는 가볍고 확장 가능한 구조를 택했습니다. 챌린지 점수만을 위한 설계가 아니라, 실제 고객 현장에 그대로 투입할 수 있는 실용성을 염두에 둔 선택입니다. 회사는 이 모듈에 대한 특허 출원을 진행하고 있습니다.

⑤ 테스트타임 증강과 멀티소스 융합: 마지막 한 방울까지

추론 단계에서는 멀티스케일 추론, 수평 플립, 타일링(큰 이미지 속 작거나 밀집된 객체 복구)을 조합한 테스트타임 증강을 적용하고, 결과를 클래스 인지 NMS로 정리합니다.

마지막으로, 서로 다른 설정·백본 크기·프롬프트 방식(텍스트/시각)으로 얻은 여러 검출 결과를 융합합니다. 흥미로운 점은 융합의 단위입니다. 평가지표인 mAP가 카테고리별 점수의 평균이라는 구조를 활용해, 도메인 단위가 아닌 카테고리 단위로 가장 잘하는 소스를 골라 쓰는 라우팅을 적용했고, 상위 소스들은 Weighted Boxes Fusion 등으로 결합했습니다. 챌린지 규정이 허용하는 최대 3개 모델 한도 내에서 서로 다른 크기의 제로 체크포인트 3종을 앙상블해 예측을 안정화한 것이 마지막 조각입니다. 모든 튜닝은 검증 데이터에서만 수행하고 테스트 데이터는 최종 제출에만 사용해, 평가의 엄밀성도 지켰습니다.

무엇이 격차를 만들었나

베이스라인(GroundingDINO)의 평균 mAP는 33.3, 전년도 최고 기록은 50.1이었습니다. 슈퍼브에이아이의 솔루션은 53.9를 기록하며 베이스라인을 +20.6, 전년도 최고 기록을 +3.8, 2위 푸단대·레노버 산학연합(51.6)을 +2.3 차이로 앞섰습니다. 이 격차는 어느 한 가지 비법이 아니라 위 다섯 단계가 맞물려 만들어 낸 결과입니다.

카테고리별로 보면 일관성이 더 뚜렷합니다.

카테고리	슈퍼브에이아이	2위	전년도 최고	베이스라인
항공 (Aerial)	55.9	51.3	51.3	31.8
문서 (Docs)	52.2	47.4	46.6	29.6
산업 (Industry)	64.4	59.4	62.3	37.5
의료 (Medical)	51.4	42.3	42.8	17.9
기타 (Other)	50.1	50.0	45.6	32.6
전체 평균	53.9	51.6	50.1	33.3

7개 카테고리 중 5개 1위. 특히 산업(64.4)은 주최 측 발표에서도 하이라이트로 언급될 만큼 압도적이었고, 가장 까다로운 의료에서는 2위보다 9점 이상 앞섰습니다. 카테고리명이 모호한 도메인일수록 멀티모달 프롬프트가 강하다는 가설이, 가장 어려운 의료 도메인에서 수치로 입증된 셈입니다.

그 바탕에는 슈퍼브에이아이의 '데이터 중심 AI' 철학이 있습니다. 좋은 데이터를 빠르게 확보하고(②), 의미 있는 데이터를 골라내며(①), 결과를 검수하는(④) 일련의 흐름은 모두 슈퍼브에이아이가 사업에서 다져 온 역량과 직접 맞닿아 있습니다.

점수 그 이상: 제품을 닮은 솔루션

공개된 코드(zero-fsod)에도 슈퍼브에이아이다운 선택이 담겨 있습니다. 탐지기를 HTTP 서비스로 추상화해, 모델 가중치와 소스는 보호하면서 파이프라인과 API 규약은 공개하는 구조입니다. 수상 요건인 재현성과 기업의 IP 보호를 양립시킨 방식이자, '제품으로서의 제로'라는 포지셔닝과도 일치합니다. 슈퍼브에이아이 고경렬 머신러닝 엔지니어는 “중요한 것은 거대한 모델을 동원하는 것이 아니라, 가볍고 빠르게 현장에 적응하는 방법을 설계하는 것이었다"며 "제로의 효율성 덕분에 짧은 기간에도 여러 가설을 빠르게 검증하며 최적의 조합을 찾을 수 있었다"고 말했습니다.

이 솔루션의 기반이 된 제로의 최신 버전은 AWS 마켓플레이스에서 바로 사용할 수 있습니다. 챌린지에서 검증된 '소량 데이터로 도메인에 빠르게 적응시키는' 흐름은, 도메인별 모듈 기능으로 슈퍼브 플랫폼에 순차 반영될 예정입니다.

자주 묻는 질문 (FAQ)

Q. 제로(ZERO)는 단독으로 객체를 탐지하나요? SAM3·Qwen3-VL은 어떤 역할인가요?

실제 객체 탐지는 제로가 수행합니다. SAM3·Qwen3-VL 같은 외부 모델은 파인튜닝에 쓸 학습용 라벨을 마련하는 의사 라벨링 단계에서 보조적으로 활용되며, 이 구성은 공개된 기술 보고서에 모두 명시돼 있습니다.

Q. 멀티모달 프롬프트가 왜 중요한가요?

산업·의료 도메인은 카테고리명이 전문적이거나 모호해, 텍스트만으로는 모델이 시각적 의미를 충분히 파악하기 어렵습니다. 제로는 텍스트·시각 예시·맥락을 함께 활용해 이런 모호함을 해소하며, 실제로 의료 카테고리에서 2위 대비 9점 이상의 우위를 보였습니다.

Q. '경량 재분류 모듈'은 무엇을 하나요?

모델이 찾아낸 객체의 위치는 신뢰하되, 그 객체의 클래스(이름표)를 한 번 더 가볍게 재검증해 정확도를 높이는 장치입니다. 초대형 모델 대신 가볍고 확장 가능한 구조를 택해 실제 현장 적용성을 높였으며, 특허 출원이 진행 중입니다.

Q. 베이스라인 대비 성능은 얼마나 향상됐나요?

주최 측 공식 베이스라인(GroundingDINO)의 평균 mAP 33.3을 53.9까지 약 +20.6 향상시켰고, 전년도 최고 기록(50.1)과 2위(51.6)도 모두 앞서며 Overall Track 1위를 기록했습니다.

Q. 이 기술을 직접 써 볼 수 있나요?

우승 솔루션의 기반 모델인 제로는 AWS 마켓플레이스에서 바로 사용할 수 있으며, 우승 솔루션의 기술 보고서와 파이프라인 코드도 공개돼 있습니다.

제로 도입과 관련되어 궁금한 점이 있으시다면, 아래 내용을 남겨주세요. 슈퍼브 전문가들이 바로 연락 드리겠습니다.