슈퍼브에이아이 ZERO, CVPR 2026 퓨샷 객체 탐지 챌린지 1위
슈퍼브에이아이가 CVPR 2026 퓨샷 객체 탐지 챌린지에서 1위를 차지했습니다. 산업 특화 비전 파운데이션 모델 '제로(ZERO)'로 20개 산업 도메인 평균 mAP 53.9를 기록하며, 작년 4위에서 1년 만에 오른 한국 기업 최초의 우승입니다.
핵심 요약
- 슈퍼브에이아이가 CVPR 2026 Foundational 퓨샷 객체 탐지 챌린지(Foundational Few-Shot Object Detection Challenge) Overall Track에서 1위를 차지했습니다. 평균 mAP 53.9로, 작년 4위(47.2)에서 1년 만의 정상 등극입니다.
- 자체 개발한 산업 특화 비전 파운데이션 모델 '제로(ZERO)' 기반 시스템으로, X-ray·열화상·항공 영상 등 서로 다른 20개 산업 도메인 평균 최고 성적을 기록했습니다. 7개 산업 카테고리 중 5개에서 1위입니다.
- 중국 푸단대·레노버(Lenovo) 산학연합 등이 참가한 17개 팀, 200건 이상 제출 경쟁에서 한국 기업 최초로 우승했습니다.
- 우승 솔루션의 기반인 제로의 최신 버전은 AWS 마켓플레이스에서 지금 바로 사용할 수 있습니다.
슈퍼브에이아이가 컴퓨터 비전 분야 세계 최고 권위 학회인 CVPR 2026에서 열린 AI 챌린지 정상에 올랐습니다. 자체 개발한 산업 특화 비전 파운데이션 모델 '제로(ZERO)'를 중심으로 'Foundational 퓨샷 객체 탐지 챌린지' Overall Track 1위를 차지한 것으로, 지난해 같은 챌린지 4위에서 1년 만의 도약입니다. 이번 결과는 2026년 6월 4일(현지 시간) 미국 덴버에서 열린 CVPR 'Open-World Vision(VPLOW)' 워크숍 현장에서 공식 발표됐습니다.

해당 챌린지는 카네기멜런대학교(CMU)와 Roboflow가 주관해 2024년부터 매년 열렸으며 올해로 3회째입니다. 슈퍼브에이아이는 지난해 4위(honorable mention)에 이어 올해 정상에 올랐고, 한국 기업이 이 챌린지에서 우승한 것은 이번이 처음입니다.

'퓨샷 객체 탐지'란? 몇 장만으로도 새 객체 인식
퓨샷 객체 탐지(few-shot object detection)란 수만 장의 학습 데이터 대신 클래스당 단 10장 수준의 예시만으로 AI가 새로운 객체를 찾아내도록 하는 기술입니다. 이 챌린지는 의료·제조·농업·물류·항공 등 다양한 산업 영상을 대상으로, 막대한 데이터 라벨링과 학습 없이도 AI를 현장에 즉시 적용할 수 있는지를 평가합니다.
특히 올해 사용된 데이터셋(Roboflow20-VL FSOD)은 X-ray·열화상·항공 영상 등 일반 인터넷 데이터와 동떨어진 20개의 전문 도메인으로 구성돼, 범용 모델의 한계를 가늠하는 시험대로 꼽힙니다. 실제로 주최 측이 GroundingDINO, Qwen2.5-VL 등 대표적인 범용 모델로 사전 구성한 베이스라인은 다수 데이터셋에서 정확도가 1% 미만에 그칠 만큼 난도가 높은 평가였습니다.
왜 '소량 데이터 객체 탐지'가 산업 AI의 핵심 과제인가
산업 현장에 AI 비전을 도입하려는 기업이 가장 먼저 부딪히는 벽은 데이터입니다. 새로운 제품 결함, 특정 의료 영상, 현장 고유의 객체를 인식시키려면 보통 수천~수만 장의 이미지를 일일이 수집·라벨링해야 합니다. 시간과 비용이 크고, 모델을 새 현장에 옮길 때마다 이 과정을 반복해야 한다는 점이 가장 큰 장벽입니다.
퓨샷 객체 탐지는 바로 이 지점을 겨냥합니다. 적은 예시만으로 새 객체에 빠르게 적응할 수 있다면, 데이터 수집·라벨링 비용을 대폭 줄이면서 AI를 현장에 곧바로 투입할 수 있습니다. 이번 챌린지는 슈퍼브에이아이의 기술이 20개 산업 도메인에서 실제로 작동함을 외부 검증으로 보여준 사례입니다.
글로벌 경쟁팀 제치고 20개 산업 도메인 평균 1위
올해 챌린지 Overall Track에는 17개 팀이 200건 이상의 결과물을 제출했습니다. 특히 올해는 전년도 최고 기록을 넘어선 팀에만 수상 자격이 주어지는 엄격한 기준이 적용됐습니다.
슈퍼브에이아이는 20개 도메인 평균 mAP 53.9(리더보드 정밀값 53.866)를 기록하며, 2위인 중국 푸단대학교·레노버(Lenovo) 산학연합팀(51.6)을 2.3점 차로 앞섰습니다. 전년도 최고 기록(50.1)을 3.8점, 주최 측 공식 베이스라인(GroundingDINO, 33.3)을 20점 이상 상회한 성적입니다.

성과의 핵심은 '일관성'입니다. 슈퍼브에이아이는 주최 측이 분류한 7개 산업 카테고리 중 항공(Aerial)·문서(Docs)·산업(Industry)·의료(Medical)·기타(Other) 5개에서 1위를 차지했습니다. 특히 산업 카테고리에서 64.4점으로 압도적 1위를 기록해 주최 측 발표에서도 하이라이트로 언급됐고, 의료 카테고리에서는 2위보다 9점 이상 높은 51.4점을 기록했습니다. 특정 분야에 치우치지 않고 서로 다른 여러 현장에서 고르게 최고 수준을 유지했다는 점에서, "하나의 모델로 다양한 산업 현장을 소량 데이터로 즉시 커버한다"는 산업 적용력을 수치로 입증한 결과입니다.

우승 솔루션의 기술 보고서와 코드는 챌린지 규정에 따라 공개됐으며, 학회 공식 결과 페이지와 EvalAI 리더보드에서 확인할 수 있습니다.
1년 사이 4위에서 1위로, 무엇이 달라졌나
지난해 슈퍼브에이아이의 성적은 같은 챌린지 4위, 47.2점이었습니다. 1년 만에 6점 이상을 끌어올리며 정상에 오른 배경에는 '관점의 전환'이 있습니다.
연구팀의 고경렬 머신러닝 엔지니어는 "지난해에는 제로의 기본기, 즉 사전학습 성능을 검증하는 데 집중했다면, 올해는 그 기본기를 각 산업 도메인에 빠르고 가볍게 적응시키는 '체계'를 만드는 데 역량을 쏟았다"고 설명했습니다. 모델의 잠재력을 실제 산업 활용으로 연결하는 방법론을 정교화한 것이 점수 차이로 이어졌다는 의미입니다.
연구팀을 이끈 차문수 CTO는 "연구의 성과와 산업에서의 활용을 함께 고민할 수 있다는 점이 이번 결과의 핵심"이라며 "제로는 점수만 높은 모델이 아니라, 고객의 현장에 빠르고 가볍게 들어갈 수 있는 실용적인 모델을 지향한다"고 말했습니다.
이번 우승 솔루션은 텍스트와 시각 예시, 주변 맥락을 함께 활용하는 멀티모달 프롬프트와, 탐지 결과를 한 번 더 검산하는 경량 재분류 모듈 등 여러 단계가 맞물린 파이프라인입니다. 일부 경쟁팀이 초대형 모델을 동원한 것과 달리 가볍고 확장 가능한 구조를 택해, 챌린지 점수만이 아닌 실제 현장 투입을 염두에 둔 설계라는 점이 특징입니다. 솔루션이 기술적으로 어떻게 작동했는지는 2편: 우승 솔루션 기술 해설에서 단계별로 자세히 풀어 드립니다.
산업 현장으로 들어가는 비전 파운데이션 모델 '제로'
슈퍼브에이아이는 이번 성과를 제조·모빌리티·보안·물류 등 핵심 산업군의 솔루션 고도화로 연결할 계획입니다. 우승의 기반이 된 제로의 최신 버전은 이미 AWS 마켓플레이스를 통해 바로 사용할 수 있으며, 도메인별로 몇 분 만에 모델을 적응시키는 모듈 기능도 슈퍼브 플랫폼에 순차 반영될 예정입니다.
제로는 로봇·자율주행·스마트팩토리 등 물리 세계와 맞닿은 '피지컬 AI'의 '눈' 역할을 맡는 핵심 모델입니다. 슈퍼브에이아이는 글로벌 무대에서의 검증을 발판 삼아 산업용 비전 AI 시장에서의 리더십을 강화해 나갈 계획입니다.
자주 묻는 질문 (FAQ)
Q. CVPR 2026 Foundational 퓨샷 객체 탐지 챌린지란 무엇인가요? 의료·제조·항공 등 다양한 산업 영상을 대상으로, 클래스당 단 10장 수준의 예시만으로 AI가 새 객체를 인식하는 능력을 겨루는 국제 대회입니다. 카네기멜런대학교(CMU)와 Roboflow가 주관하며, CVPR의 Open-World Vision(VPLOW) 워크숍에서 2024년부터 매년 열려 올해로 3회째입니다.
Q. 슈퍼브에이아이는 이 챌린지에서 어떤 성적을 거뒀나요? 2026년 대회 Overall Track에서 평균 mAP 53.9로 1위를 차지했습니다. 20개 산업 도메인을 7개 카테고리로 묶어 평가한 결과 5개 카테고리에서 1위를 기록했고, 특히 산업(64.4)과 의료(51.4) 카테고리에서 우위가 뚜렷했습니다. 작년 4위(47.2)에서 1년 만의 정상 등극이며, 한국 기업으로는 최초 우승입니다.
Q. 비전 파운데이션 모델 '제로(ZERO)'는 어떤 모델인가요? 슈퍼브에이아이가 산업 현장을 겨냥해 개발한 비전 파운데이션 모델로, 텍스트·시각 예시·맥락을 함께 활용하는 멀티모달 프롬프트 방식으로 객체를 탐지합니다. 헬스케어·자율주행·리테일 등 다양한 산업 데이터셋 평가에서 우수한 성능을 기록했습니다.
Q. 소량 데이터(퓨샷) 객체 탐지가 산업에 왜 중요한가요? 산업 현장에 AI 비전을 도입할 때 가장 큰 장벽이 데이터 수집·라벨링 비용과 시간이기 때문입니다. 소량 데이터만으로 새 객체에 적응할 수 있으면 라벨링 부담을 크게 줄이면서 AI를 새로운 현장에 빠르게 투입할 수 있습니다.
Q. 제로(ZERO)를 지금 바로 사용할 수 있나요? 네. 제로의 최신 버전은 AWS 마켓플레이스를 통해 즉시 사용할 수 있습니다. 도메인별로 빠르게 적응시키는 모듈 기능은 슈퍼브 플랫폼에 순차 반영될 예정입니다.
[CVPR 챌린지에 대해 더 자세히 보려면?]
