VFM

[VFM 개념] 현장에서 AI와 상호작용 가능? 멀티모달 프롬프트

멀티 프롬프트는 텍스트, 이미지, 스케치 등 다양한 방식으로 AI와 소통하는 혁신 기술입니다. 비전-언어 모델(VLM)과 비전 파운데이션 모델(VFM)의 차이점을 이해하고, SAM, Grounding DINO, SEEM 등 최신 멀티 프롬프트 기술의 특징과 활용 사례를 통해 AI와의 상호작용이 어떻게 진화하고 있는지 알아보세요.

SUPERB AI

Jun 13, 2025 • 19 min read

슈퍼브에이아이의 비전 파운데이션 모델 개념 시리즈, 지난 1편에서는 제로샷(Zero-Shot)과 오픈월드(Open-World) 개념을 통해 AI 모델이 추가 학습 없이 즉시 현장에 투입될 수 있는 가능성을 설명해 드렸습니다.

2편에서는 AI 모델과의 상호작용 방식을 혁신하는 멀티모달 프롬프트(Multi Modal Prompt) 기술을 다뤄보고자 합니다. 멀티모달 프롬프트는 텍스트만으로 AI와 소통하는 것을 넘어, 시각적 입력까지 활용하여 사용자의 복잡하고 세밀한 의도를 AI에 직관적으로 전달하는 기술입니다.

정적 모델에서 프롬프트 기반 상호작용 모델로의 전환

과거 컴퓨터 비전 모델은 특정 작업(예: 이미지 분류, 객체 탐지, 분할)에 대해 미리 정의된 입력과 출력만을 처리하는 정적(Static) 모델의 특성을 가졌습니다. 즉, 모델이 학습된 특정 클래스에 대해서만 예측을 수행하거나, 고정된 입력 형식에 맞춰진 결과를 내놓는 방식이었습니다. 새로운 작업이나 미학습된 클래스가 나타나면 모델을 처음부터 다시 훈련하거나 파인튜닝해야 하는 번거로움이 있었습니다.

그러나 대규모 사전 학습 모델의 발전과 함께, AI 모델과의 상호작용 패러다임은 프롬프트 기반(Prompt-based) 상호작용 모델로 전환되고 있습니다. 다른 사람에게 특정 작업을 요청할 때 다양한 형태로 지시를 내리듯이, AI 모델에게도 텍스트뿐만 아니라 이미지, 클릭, 스케치 등 여러 형태의 '프롬프트'를 제공하여 원하는 결과를 유연하게 얻어내는 방식을 의미합니다. 이러한 전환은 AI 시스템의 활용성과 범용성을 획기적으로 확장시켰습니다.

다양한 프롬프트 유형과 작동 원리

멀티모달 프롬프트는 단순히 텍스트 명령을 넘어서 다양한 형태의 입력을 AI에 전달하는 기술입니다. 주요 프롬프트 유형과 작동 원리는 다음과 같습니다.

텍스트 프롬프트 (Text Prompt): 가장 보편적인 형태로, 자연어 문장을 사용하여 모델에게 작업을 지시합니다. 예를 들어, "빨간색 자동차를 찾아줘" 또는 "이 이미지에서 스크래치가 있는 부분을 표시해 줘"와 같은 명령입니다. 모델은 대규모 텍스트-이미지 쌍으로 학습된 지식을 바탕으로 텍스트 설명을 시각적 개념과 연결하여 처리합니다.
클래스 프롬프트 (Class Prompt): 텍스트 프롬프트의 한 종류로 볼 수 있지만, 주로 분류 작업에서 특정 클래스 이름을 직접 지정하여 모델의 예측을 유도하는 방식입니다. 예를 들어, "이 이미지가 '개'인지 '고양이'인지 분류해줘"와 같이 미리 정의된 클래스 목록에서 선택하도록 유도할 수 있습니다.
시각 프롬프트 (Visual Prompt): 텍스트 설명만으로는 부족한 경우, 직접 시각적인 예시를 제공하여 모델의 이해를 돕습니다.
- 참조 이미지 (Reference Image): 원하는 객체나 패턴을 포함하는 다른 이미지를 입력으로 제공하여, "이 이미지와 유사한 객체를 찾아줘"라고 지시합니다. 모델은 참조 이미지에서 시각적 특징을 추출하여 이를 바탕으로 타겟 이미지에서 유사한 요소를 식별합니다.
- 박스 프롬프트 (Bounding Box Prompt): 이미지 내에서 특정 객체가 위치한 영역을 사각형 박스로 직접 지정하여 "이 박스 안에 있는 객체를 분할해 줘"와 같이 명령합니다. 모델은 주어진 박스 내부의 픽셀 정보를 집중적으로 분석하여 해당 객체를 분할하거나 인식합니다.
- 포인트 프롬프트 (Point Prompt): 객체의 특정 부분에 점(클릭)을 찍어 "이 점이 포함된 객체를 분할해 줘"라고 지시합니다. 모델은 주어진 점을 포함하는 가장 적합한 객체 경계를 추론합니다.
- 스케치 프롬프트 (Sketch/Mask Prompt): 사용자가 직접 이미지 위에 자유로운 형태로 스케치하거나 마스크를 그려서 "이 스케치된 영역에 해당하는 객체를 분리해 줘" 또는 "이 패턴과 유사한 부분을 찾아줘"와 같이 세밀한 지시를 내립니다. 이는 특히 불규칙한 형태의 객체나 미묘한 특징을 정의하는 데 유용합니다.

이러한 멀티모달 프롬프트 방식은 AI가 사용자의 의도를 보다 정확하고 직관적으로 파악할 수 있게 하여, 복잡한 실제 환경에서의 적용 가능성을 크게 높입니다.

SAM, SEEM, Grounding DINO의 기술적 차별점

최근 멀티모달 프롬프트 기반의 강력한 비전 모델들이 등장하며 주목받고 있습니다. 그중 대표적인 기술들을 살펴보겠습니다.

SAM (Segment Anything Model)
- 개념: 메타 AI에서 개발한 SAM은 '프롬프트 가능한 이미지 분할 모델'로, 이미지 내에서 어떤 객체든 분할할 수 있는 능력을 목표로 합니다. 사전 학습된 방대한 데이터셋(11억 개 이상의 마스크를 가진 1,100만 개 이미지)을 기반으로 합니다.
- 작동 원리: SAM은 텍스트 프롬프트, 포인트 프롬프트, 박스 프롬프트, 또는 스케치/마스크 프롬프트 등 다양한 형태의 시각적 프롬프트를 입력받아 해당 프롬프트에 해당하는 객체를 분할하는 데 특화되어 있습니다. 특히, 사용자의 클릭 몇 번만으로도 정확한 객체 마스크를 생성하는 강력한 능력을 보여줍니다. 이는 '객체 분할'이라는 단일 작업에 집중하여 파운데이션 모델로서의 성능을 극대화한 결과입니다.

기술적 차별점: SAM은 이미지 인코더, 프롬프트 인코더, 경량 마스크 디코더로 구성됩니다. 이미지 인코더는 입력 이미지의 특징을 추출하고, 프롬프트 인코더는 다양한 프롬프트 정보를 벡터 공간으로 변환합니다. 마스크 디코더는 이 두 정보를 통합하여 객체 마스크를 생성합니다. '프롬프트 엔지니어링'을 통해 다양한 객체와 시나리오에 즉시 적용될 수 있다는 점이 핵심입니다.
장점: 매우 뛰어난 일반화 성능으로 미학습된 객체도 잘 분할하며, 직관적인 시각적 프롬프트 인터페이스를 제공합니다.
단점: 순수한 텍스트 프롬프트만으로는 직접적인 객체 탐지나 분류 기능이 제한적이며, 주로 '분할' 작업에 초점을 맞춥니다.
적합한 사용 시나리오: 이미지 내의 특정 객체를 빠르게 분리하거나, 정교한 마스크를 생성해야 하는 이미지 편집, 의료 영상 분석, 자율 주행 데이터 라벨링 등에 적합합니다.

Grounding DINO
- 개념: DINO(DETR with Improved DeNoising Anchor Boxes for Object Detection) 모델을 기반으로 하며, "Grounding"이라는 이름처럼 텍스트 프롬프트를 통해 이미지 내의 특정 객체를 정확하게 '지칭(Grounding)'하고 탐지하는 데 특화된 개방형 어휘(Open-vocabulary) 객체 탐지 모델입니다.
- 작동 원리: Grounding DINO는 텍스트 프롬프트를 주 입력으로 사용하여 이미지 내의 객체를 탐지합니다. 예를 들어, "자동차와 사람을 모두 찾아줘"와 같은 텍스트 설명을 입력하면 모델은 해당 이미지에서 자동차와 사람을 탐지하고 바운딩 박스를 출력합니다. 이 모델은 대규모 텍스트-이미지 데이터셋을 활용하여 시각적 개념과 언어적 개념을 강력하게 연결합니다.

기술적 차별점: 언어 모델(Transformer)과 비전 모델(Swin Transformer)을 통합하여 텍스트 프롬프트로부터 시각적 특징을 효과적으로 학습합니다. 특히, 텍스트 쿼리(Text Query)를 이용해 이미지에서 객체를 '지칭'하는 능력이 뛰어나, 제로샷 객체 탐지에서 강력한 성능을 발휘합니다.
장점: 텍스트 설명만으로도 다양한 객체를 탐지할 수 있어 유연성이 높고, 개방형 어휘 탐지에 매우 강력합니다.
단점: SAM과 같은 정교한 마스크 분할 기능은 기본적으로 제공하지 않으며, 주로 바운딩 박스 기반의 객체 탐지에 초점을 맞춥니다.
적합한 사용 시나리오: 새로운 제품이나 클래스에 대한 즉각적인 객체 탐지, 보안 모니터링에서의 특정 상황 탐지, 재고 관리 시스템에서 특정 물품 식별 등 텍스트 기반의 유연한 객체 탐지가 필요한 경우에 유용합니다.

SEEM (Segment Everything Everywhere All at Once)
- 개념: SAM의 후속 연구로 볼 수 있으며, '모든 것을 어디에서든 한 번에 분할한다'는 목표를 가집니다. SAM이 객체 분할에 특화되었다면, SEEM은 분할을 포함한 다양한 시각적 이해 작업을 하나의 통합된 모델에서 처리하고자 합니다.
- 작동 원리: SEEM은 다양한 형태의 프롬프트(텍스트, 점, 박스, 스케치, 참조 이미지 등)를 통합적으로 처리하여 분할, 시각적 질의응답(VQA), 이미지 캡셔닝 등 여러 작업을 동시에 수행할 수 있도록 설계되었습니다. 이는 '비전-언어-분할(Vision-Language-Segmentation)'과 같은 다중 모달 작업을 하나의 모델에서 효율적으로 처리하려는 시도입니다.

기술적 차별점: SEEM은 SAM의 분할 능력을 계승하면서도, 다른 시각적 작업과의 시너지를 추구합니다. '다중 모달 프롬프트 인코더'와 '유니버설 마스크 디코더'를 통해 다양한 형태의 입력을 처리하고, 일관된 방식으로 마스크를 생성하거나 다른 시각적 추론을 수행합니다. 즉, 여러 비전 작업을 위한 사일로화된 아키텍처를 통합하여 시각적 지식을 공유하고 재사용합니다.
장점: 다양한 프롬프트 유형을 지원하며, 여러 시각적 작업을 하나의 모델에서 처리할 수 있어 범용성이 높습니다.
단점: SAM만큼 특정 분할 작업에 극도로 최적화되지는 않을 수 있으며, Grounding DINO만큼 텍스트 기반 객체 탐지에 특화되지는 않습니다.
적합한 사용 시나리오: 다중 모달 데이터 분석, 복합적인 시각적 질의응답 시스템, 통합된 시각적 추론이 필요한 로봇 비전, 스마트 공장 자동화 등 다양한 시각적 인지 작업을 유연하게 수행해야 하는 경우에 적합합니다.

모델	주력 작업	주된 프롬프트 유형	기술적 특징	장점	단점
SAM	객체 분할	시각 (점, 박스, 마스크)	프롬프트 가능한 분할, 대규모 데이터셋 학습	미학습 객체 분할 성능 우수, 직관적 상호작용	순수 텍스트 탐지/분류 제한, 단일 작업 집중
Grounding DINO	개방형 객체 탐지	텍스트	언어-비전 통합, 텍스트 지칭 기반 탐지	텍스트 기반 유연한 객체 탐지, 개방형 어휘 강점	마스크 생성 제한, 바운딩 박스 위주
SEEM	통합 시각 이해	다중 모달	다양한 프롬프트 통합, 여러 시각 작업 동시 처리	높은 범용성, 통합된 시각적 추론	특정 작업에 대한 최고 성능 아닐 수 있음

VLM vs. VFM: 비전 AI 모델의 진화

위에서 텍스트로도 입력이 가능한 멀티모달 프롬프트 모델을 소개해 드렸는데요. 이러한 모델들이 기존의 비전-언어 모델(VLM: Vision-Language Model)과 어떻게 다른지 궁금하실 수 있을 것 같습니다. 비전-언어 모델과 비전 파운데이션 모델을 비교하며 설명해 드리도록 하겠습니다.

VLM: 시각과 언어를 연결하다

VLM은 이미지와 텍스트를 함께 이해하고 처리하는 모델입니다. 예를 들어, '이 이미지에 무엇이 보이나요?'라는 질문에 텍스트로 답하거나, '빨간색 스포츠카를 보여줘'라는 텍스트에 해당하는 이미지를 찾는 등의 작업을 수행할 수 있습니다. 1편에서 설명드린 CLIP 모델이 대표적인 VLM의 예시라고 할 수 있죠. VLM은 시각 정보와 언어 정보를 하나의 공통 표현 공간에 매핑하여 서로 연관된 개념들을 함께 학습합니다.

VLM은 주로 '시각적 질문 답변(VQA)', '이미지 캡셔닝(Image Captioning)', '텍스트-이미지 검색(Text-Image Retrieval)' 등 특정 비전-언어 통합 작업에 초점을 맞춰 개발되는 경향이 있었습니다. 즉, 시각과 언어를 연결하는 것에 중점을 두었으며, 다양한 비전 작업(예: 탐지, 분할, 트래킹)을 통합적으로 수행하기보다는 주로 특정 텍스트-이미지 쌍의 이해를 통해 작동했습니다.

VFM: 모든 비전 작업을 통합하고 시너지를 극대화하다

그렇다면 비전 파운데이션 모델(VFM)은 VLM과 무엇이 다를까요?

기존 비전 모델들은 다양한 작업을 처리하기 위해 여러 개의 독립적인 모듈을 통합하는 방식으로 작동했습니다. 예를 들어, 이미지 분류, 객체 감지, 분할 등 각 작업마다 별도의 서브 모델을 연결하는 식이었죠. 이런 방식은 각 작업 간의 시너지 효과를 거의 얻지 못하는 한계가 있었습니다.

VFM은 이러한 한계를 뛰어넘어 다양한 비전 및 멀티 모달 작업 간의 시너지 효과를 극대화하는 것을 목표로 합니다. 이는 단순히 여러 기능을 하나의 모델에 담는 것을 넘어, 시각적 이해의 근본적인 접근 방식을 재정의하는 것입니다. VFM은 특정 비전-언어 작업에 국한되지 않고, 시각 정보를 기반으로 하는 거의 모든 종류의 인지 및 생성 작업을 수행할 수 있는 범용 모델을 지향합니다.

VFM은 다음과 같은 특징을 통해 진정한 통합 비전 모델을 구현합니다.

개방형 아키텍처(Open-ended Architecture): 미리 정의된 특정 작업에만 국한되지 않고, 새로운 시각적 개념이나 작업에 유연하게 대응할 수 있는 개방형 객체 감지(Open-vocabulary Object Detection)와 같은 기술을 지원합니다. 이는 모델이 학습 데이터셋에 없는 미지의 객체나 개념까지도 이해하고 처리할 수 있게 합니다.
다양한 세분성 수준의 통합 학습: 객체 단위(region), 픽셀 단위(pixel) 등 다양한 시각적 정보의 세분성 수준(granularity)에서 학습을 통합하여, 모델이 넓은 시야에서부터 미세한 디테일까지 동시에 이해할 수 있도록 합니다. 이는 이미지 전체를 이해하는 것부터 특정 영역이나 픽셀 단위의 정밀한 분석까지 한 번에 처리할 수 있게 함을 의미하며, VFM이 분류, 탐지, 분할 등 다양한 작업에서 일관된 성능을 낼 수 있는 기반이 됩니다.
강화된 프롬프트 가능성(Prompt-ability): 멀티모달 프롬프팅(Multi-modal Prompting)과 인컨텍스트 프롬프팅(In-context Prompting)을 통해 사용자가 다양한 방식으로 모델에 지시를 내리고 상호작용할 수 있도록 합니다. 이는 텍스트 프롬프트뿐만 아니라 시각적 예시, 클릭, 드래그 등 다양한 형태의 프롬프트를 통해 모델의 행동을 제어하고 원하는 결과를 얻어낼 수 있음을 의미합니다.

결론적으로 VFM은 시각적 인공지능의 모든 것을 아우르는 범용 AI 에이전트로서, 기존 모델들의 파편화된 한계를 극복하고 산업 현장에서의 활용성을 극대화합니다. 이는 모델이 한 번 학습하면 다양한 도메인과 작업에 전이될 수 있는 강력한 일반화 능력을 의미합니다.

💡

슈퍼브에이아이의 비전 파운데이션 모델 '제로'는 아래 AWS 마켓플레이스에서 바로 사용하실 수 있습니다.

다음 편에서는 비전 파운데이션 모델이 직면했던 기술적 도전 과제들과 함께 그 미래 방향에 대해 더 자세히 알아보겠습니다. 비전 파운데이션 모델 도입과 관련해 궁금한 점이 있다면 언제든 아래에 남겨주세요. 슈퍼브에이아이 전문가들이 바로 연락드리겠습니다.