[논문 리뷰]/[최신 논문] / [arXiv 2604.02327v1] Steerable Visual Representations: 자연어로 조향하는 시각 표현의 새로운 틀.md

[arXiv 2604.02327v1] Steerable Visual Representations: 자연어로 조향하는 시각 표현의 새로운 틀

조회

Jona Ruthardt, Manu Gaur, Deva Ramanan, Makarand Tapaswi, Yuki M. Asano | University of Technology Nuremberg, Carnegie Mellon University, International Institute of Information Technology Hyderabad | arXiv:2604.02327v1 | 2026년 4월 | unpublished

원문 링크: ABS | PDF | HTML


1. 서론: 왜 시각 표현은 ‘무엇을 볼지’ 사용자가 정하기 어려웠는가

이 논문은 좋은 시각 표현텍스트로 제어 가능한 시각 표현이 왜 쉽게 동시에 얻어지지 않는지를 정면으로 다룬다. 최근 비전 모델은 DINOv2, MAE, SigLIP 같은 강력한 사전학습 덕분에 분류, 검색, 세그멘테이션, 전이 학습에서 매우 높은 품질의 특징을 제공한다. 그러나 이런 표현은 대개 이미지 안에서 가장 눈에 띄는 대상, 가장 큰 물체, 또는 장면 전체 분위기에 강하게 끌린다. 그래서 사용자가 지금 관심 있는 객체가 작은 배경 물체이거나 장면의 비주요 요소일 경우, 기존 표현은 그 관심사를 잘 반영하지 못한다.

반대로 멀티모달 대형 모델은 자연어 지시를 따르는 능력이 뛰어나다. 사용자가 “리모컨을 중심으로 봐라”, “책장 주변만 보라”, “이 이미지에서 새의 눈만 비교하라” 같은 지시를 주면 텍스트 차원에서는 그 요구를 어느 정도 이해한다. 하지만 논문이 지적하듯, 이런 모델에서 추출되는 내부 표현은 시각적 일반성보다는 언어 추론 파이프라인에 최적화되어 있는 경우가 많다. 즉, 말은 잘 알아듣지만 범용 비전 표현으로 쓰기에는 어정쩡한 상태가 된다.

저자들이 제안한 핵심 문제의식은 단순하다. 이미지 표현의 주도권을 모델의 기본 saliency가 아니라 사용자 텍스트에 넘길 수 있는가, 그리고 그 과정에서 기존 ViT가 지닌 범용 특징 품질을 최대한 보존할 수 있는가가 질문이다. 이 논문은 그 해답으로 SteerViT를 제시한다. 이름 그대로 시각 표현을 자연어로 ‘조향’할 수 있도록 설계한 구조다.

여기서 중요한 차별점은 단순한 late fusion이 아니라는 점이다. CLIP 계열처럼 이미지 임베딩과 텍스트 임베딩을 뒤에서 더하거나 결합하는 방식은 추론 시 조건부 검색에는 어느 정도 도움이 되지만, 이미지 인코더가 만들어내는 표현 그 자체를 바꾸지는 못한다. 반면 SteerViT는 ViT 내부의 residual stream에 텍스트가 직접 개입하게 만들어, 같은 이미지를 보더라도 어떤 텍스트를 넣느냐에 따라 글로벌 의미와 로컬 집중 대상이 달라지게 한다.

Steerable visual representation teaser

Figure 1: 같은 이미지를 보더라도 텍스트 프롬프트에 따라 SteerViT의 주의와 표현이 다른 객체로 이동하는 예시.

Figure 1은 논문의 핵심 메시지를 가장 직관적으로 보여준다. 기본 DINOv2 표현은 이미지에서 가장 도드라진 고양이 쪽으로 의미가 고정되지만, SteerViT는 “bookshelf”, “remote control”처럼 주변의 비주요 물체를 프롬프트로 주었을 때 표현과 attention의 중심을 실제로 그쪽으로 이동시킨다. 즉, 텍스트가 단순한 후처리 조건이 아니라 시각 인코딩의 방향타로 작동한다는 사실을 한 장으로 정리한 그림이다.

논문은 이러한 목표를 세 가지 desiderata로 정리한다. 첫째, steerability, 즉 텍스트에 따라 무엇을 인코딩할지 바뀌어야 한다. 둘째, representation quality, 즉 그렇게 조향하더라도 retrieval, classification, segmentation 같은 표준 비전 작업에서 특징 품질이 무너지지 않아야 한다. 셋째, early vision-language fusion, 즉 언어 정보가 마지막 출력만 건드리는 것이 아니라 인코더 내부 단계부터 표현 형성에 영향을 주어야 한다. 저자들은 기존 계열이 이 세 조건을 동시에 만족하지 못한다고 보고, 그 간극을 메우는 것이 SteerViT의 역할이라고 주장한다.

실제로 이 논문의 기여는 하나의 모델 제안에 그치지 않는다. 저자들은 조향 가능성을 측정하기 위한 COREMOSAIC라는 평가 축을 새롭게 제안하고, personalized object discrimination과 industrial anomaly segmentation까지 실험 범위를 넓혀, 텍스트가 단지 설명용 입력이 아니라 표현의 초점과 해상도를 바꾸는 제어 신호라는 점을 입증하려 한다. 이 때문에 이 논문은 ‘비전-언어 융합 모델’ 논문이기도 하지만, 더 정확히는 비전 표현 학습의 목적 자체를 재설계하는 논문에 가깝다.

2. 배경과 문제 설정: 기존 접근이 왜 충분하지 않았는가

2.1 세 가지 모델 계열의 장단점

논문은 비교 대상을 크게 세 부류로 나눈다. 첫 번째는 unimodal ViT다. DINOv2와 MAE처럼 순수 비전 사전학습 모델은 매우 강한 특징을 제공하지만, query-agnostic하다는 한계가 있다. 즉, 입력 이미지 하나에 대해 본질적으로 하나의 대표 표현을 만드는 경향이 강하고, 사용자의 의도에 맞춰 표현의 초점을 바꾸기 어렵다. retrieval에서 장면 유사성은 잘 포착하지만 작은 객체 단위의 조건부 검색은 약하다.

두 번째는 cross-modal encoder 또는 CLIP류 모델이다. 이들은 이미지와 텍스트를 공통 임베딩 공간에 정렬하여 텍스트 조건 검색에 강점을 보인다. 하지만 논문이 강조하듯, 일반적인 late fusion은 텍스트와 이미지 특징이 각자 독립적으로 인코딩된 뒤 마지막 단계에서 결합된다. 그래서 텍스트가 이미지 표현 내부 구조를 재편하는 힘은 제한적이다. 이미지 표현은 여전히 원래 salient object나 장면 수준 의미에 크게 묶여 있다.

세 번째는 MLLM 및 open-vocabulary localization 모델이다. 이들은 텍스트 지시를 꽤 잘 따르며 localization 측면에서도 강력할 수 있다. 그러나 일반 시각 표현 품질이라는 관점에서 보면, 모든 벤치마크에서 안정적으로 좋은 frozen feature를 제공하는 것은 아니다. 또한 수십억 개 이상의 파라미터를 가진 모델이 많아, 범용 표현 인코더로서 가볍게 끼워 넣기 어렵다. 논문은 바로 이 지점에서 Steerable하면서도 representation quality를 유지하는 중간 지대가 비어 있다고 본다.

방법 계열 텍스트 조향성 범용 표현 품질 비전-언어 결합 위치 멀티모달 추가 파라미터
Unimodal ViT (DINOv2) 낮음 높음 없음 0
CLIP / SigLIP late fusion 제한적 높음 Late 약 200M 수준
Open-vocabulary localization 높음 표현 인코더로는 제한적 대체로 Late 200M~1B+
MLLM 중간~높음 범용 비전 feature로는 불안정 LLM 내부 중심 1B 이상
SteerViT 높음 높음 Early, in ViT 약 21M

위 표가 잘 보여주듯, 저자들의 주장은 단순한 성능 비교가 아니라 조건을 모두 만족하는 유일한 조합에 대한 주장이다. SteerViT는 텍스트 조향성을 확보하면서도 DINOv2 급의 범용 feature quality를 최대한 유지하고, 그 결합을 ViT 내부로 끌어들인다. 이 논문의 가치는 개별 벤치마크 점수보다도 이 구조적 위치 선정에서 나온다.

2.2 late fusion과 early fusion의 차이

late fusion과 early fusion의 차이는 결과적으로 무엇이 바뀌느냐의 차이로 이해하면 쉽다. late fusion에서는 이미지 특징 $f_v(X)$와 텍스트 특징 $f_t(T)$가 별도로 계산되고, 최종 점수나 joint embedding만 조건에 따라 달라진다. 반면 early fusion에서는 이미지 인코더 내부 상태 자체가 텍스트 $T$의 함수가 되어, 사실상 $f_v(X \mid T)$라는 조건부 표현을 얻게 된다.

논문이 겨냥하는 것은 바로 이 조건부 표현이다. 같은 이미지라도 “고양이”, “책장”, “리모컨”, “새의 눈”처럼 서로 다른 프롬프트가 들어오면, 서로 다른 군집 구조와 검색 결과를 내는 특징이 필요하다. 이것은 마지막 점수 계산만 바꾸는 방식으로는 충분하지 않다. 왜냐하면 retrieval, segmentation, personalized discrimination 같은 다운스트림 작업은 특징 공간 자체의 재배열이 필요하기 때문이다.

Taxonomy of visual encoding with text

Figure 2: query-agnostic ViT, late fusion 모델, SteerViT식 early fusion의 차이를 정리한 taxonomic overview.

Figure 2는 기존 시각 인코딩 계열을 구조적으로 분류한다. 순수 ViT는 query-agnostic이어서 입력 텍스트와 무관하게 같은 표현을 만든다. MLLM이나 open-vocabulary 계열은 텍스트를 활용하지만 주로 후단 결합 또는 LLM 내부 reasoning에 의존한다. 반면 SteerViT는 ViT 내부 residual stream에 cross-attention을 주입하여, 텍스트가 표현 형성 과정 자체를 바꾸도록 만든다. 이 차이가 논문 전체의 실험 결과를 설명하는 출발점이다.

저자들은 인지과학적 직관도 짧게 끌어온다. 사람도 같은 장면을 볼 때 과업 지시에 따라 시선과 집중 대상이 달라진다. “컵을 찾아라”와 “이상한 부분을 찾아라”는 서로 다른 시각 탐색 전략을 유도한다. 논문의 주장은 모델도 마찬가지여야 한다는 것이다. 좋은 표현은 항상 같은 것을 보는 표현이 아니라, 과업 조건에 맞게 적절히 바뀔 수 있는 표현이어야 한다.

3. 방법론: SteerViT는 어떻게 텍스트를 ViT 내부에 주입하는가

3.1 전체 아키텍처

SteerViT의 기본 구성은 비교적 단순하다. 시각 인코더로는 주로 frozen DINOv2 ViT-B/14를 사용하고, 텍스트 인코더로는 frozen RoBERTa-Large를 사용한다. 여기에 텍스트 임베딩을 ViT 차원으로 옮겨 주는 2-layer MLP projector와, ViT 블록 사이사이에 삽입된 gated cross-attention layer가 추가된다. 중요한 점은 시각 backbone과 텍스트 backbone 대부분을 동결한 채, 가벼운 멀티모달 경로만 학습한다는 것이다.

이미지 $X_v \in \mathbb{R}^{H \times W \times 3}$가 입력되면 ViT는 patch token $Z_v \in \mathbb{R}^{N \times d_v}$를 만든다. 텍스트는 토큰 임베딩 $Z_t \in \mathbb{R}^{L \times d_t}$로 인코딩되고, 이 임베딩은 L2 normalization과 MLP projection을 거쳐 $H_t \in \mathbb{R}^{L \times d_v}$가 된다. 이제 각 지정된 ViT 레이어에서 patch token이 query 역할을, 텍스트 토큰이 key와 value 역할을 맡는 cross-attention이 수행된다.

논문 기본 설정에서는 ViT-B의 12개 블록 중 every other block마다 cross-attention을 삽입해 총 6개 레이어를 둔다. 이 설계는 너무 촘촘하게 텍스트가 개입하여 본래 비전 표현을 과도하게 흔드는 것을 피하면서도, 충분히 이른 단계부터 점진적 조건화를 유도하기 위한 선택이다. 말하자면 완전한 재학습이 아니라 사전학습 ViT에 작은 조향 장치만 추가하는 접근이다.

SteerViT architecture

Figure 3: frozen ViT 내부에 gated cross-attention을 삽입하고 referential segmentation으로 post-training하는 SteerViT 구조도.

Figure 3은 SteerViT의 실제 구조를 한 번에 보여준다. 기존 ViT backbone을 거의 유지한 채, 텍스트 쪽에서 넘어온 토큰이 중간 레이어의 patch representation에 cross-attention 형태로 주입된다. 또한 최종 학습 목표는 복잡한 decoder를 붙이는 dense prediction이 아니라 patch-level segmentation proxy다. 이 설계 덕분에 모델은 localization 신호를 배우면서도 여전히 representation learning 중심 구조를 유지한다.

3.2 핵심 수식과 gate 설계

논문의 핵심 cross-attention은 다음처럼 정리된다. 한 레이어 $\ell$에서 patch token $Z_v^{(\ell)}$에 대해, 텍스트 투영 임베딩 $H_t$를 이용한 조건부 업데이트를 계산한다.

$$\hat{Z}_v^{(\ell)} = \mathrm{CA}(Z_v^{(\ell)}, H_t)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$

$$Q=Z_v^{(\ell)}W_Q, \quad K=H_tW_K, \quad V=H_tW_V$$

여기서 정말 중요한 부분은 단순 residual addition이 아니라 learnable gate다. 업데이트는 다음과 같이 주어진다.

$$Z_v^{(\ell+1)} = Z_v^{(\ell)} + \tanh(\alpha_\ell) \cdot \hat{Z}_v^{(\ell)}$$

각 레이어의 gate parameter $\alpha_\ell$는 0으로 초기화된다. 이 초기화는 매우 영리하다. 시작 시점에서 $\tanh(0)=0$이므로 모델은 정확히 원래의 frozen ViT와 같은 동작을 한다. 그런데 기울기 측면에서는 $\mathrm{sech}^2(0)=1$이므로 학습 신호는 충분히 통과한다. 즉, 학습 초기에 성능을 망가뜨리지 않으면서도, 필요한 방향으로만 gate가 서서히 열리도록 만든다.

이 구조가 중요한 이유는 representation preservation 때문이다. 만약 텍스트 조건 경로를 ungated로 넣으면, 강한 DINOv2 표현이 쉽게 흔들릴 수 있다. 실제 ablation에서도 gate를 제거하면 CORE는 높더라도 FG-CLS와 PODS에서 손실이 커진다. 저자들이 제시하는 핵심 설계 원리는 조향을 세게 거는 것이 아니라, 기존 표현을 훼손하지 않는 선에서 천천히 섞는 것이다.

또 하나 주목할 점은 projector가 단순 선형층이 아니라 2-layer MLP라는 것이다. 서로 다른 modality의 embedding geometry를 맞추는 데 선형 정렬만으로는 부족할 수 있는데, ablation 결과에서도 linear projector보다 MLP projector가 전반적으로 더 좋은 품질을 보인다. 이는 텍스트 토큰을 비전 residual stream에 주입하려면 단순 차원 맞춤 이상의 변환이 필요하다는 해석을 가능하게 한다.

3.3 왜 referential segmentation으로 학습하는가

SteerViT의 학습 목표는 referential segmentation이다. 텍스트가 가리키는 대상의 segmentation mask를 patch grid로 변환하고, 각 patch가 foreground에 얼마나 포함되는지 soft target $y_i$로 만든다. 선형 분류기가 patch별 확률 $p_i$를 예측하며, 손실은 다음과 같이 요약된다.

$$\mathcal{L} = -\sum_{i=1}^{n\times n} y_i \log p_i$$

표면적으로 보면 이는 세그멘테이션 학습이지만, 논문은 이 신호를 표현 조향 학습을 위한 proxy objective로 활용한다. 포인트 감독(pointing)은 단지 “어디를 보라”는 위치 신호만 주기 쉽지만, segmentation은 “무엇을 같은 객체로 묶어야 하는가”까지 전달한다. 따라서 텍스트와 결합된 시각 표현이 객체의 형태, 범위, 부분-전체 관계를 더 풍부하게 반영하게 된다.

이 선택은 실험적으로도 뒷받침된다. pointing supervision에 비해 segmentation supervision은 FG-CLS, ADE20k, PODS에서 모두 더 높은 수치를 보이며, 특히 personalized discrimination 같은 세밀한 과제에서 차이가 크다. 즉, 조향 가능한 표현은 단순히 한 점을 찍는 신호보다 객체 영역 수준의 의미 정렬을 배울 때 더 잘 형성된다는 것이 저자들의 결론이다.

이 점은 매우 중요하다. 만약 논문이 localization 성능만 원했다면 더 무거운 decoder나 detector를 쓸 수 있었을 것이다. 그러나 저자들의 관심사는 object mask 자체보다도, 그 supervision을 통해 얻어지는 조건부 feature space의 재구성이다. 그래서 SteerViT는 segmentation 모델이 아니라 representation model로 읽는 것이 더 적절하다.

조금 더 풀어 말하면, referential segmentation은 세 가지 학습 신호를 동시에 제공한다. 첫째, 텍스트가 가리키는 대상의 위치를 알려 준다. 둘째, 그 대상의 범위와 경계를 알려 준다. 셋째, 같은 객체를 구성하는 부분들이 서로 어떤 patch 집합으로 연결되는지 알려 준다. 이 세 신호가 결합되면 모델은 단지 “한 점을 보라”가 아니라 “이 설명에 해당하는 시각적 구성 전체를 하나의 의미 단위로 묶어라”를 학습하게 된다. 결국 SteerViT의 장점은 텍스트를 통해 주의를 돌리는 것에서 끝나지 않고, 무엇을 하나의 표현 단위로 볼지까지 조건부로 바꿀 수 있다는 데 있다.

이러한 해석은 personalized retrieval과 anomaly localization 모두를 하나의 틀 안에서 설명한다. 전자는 “이 새와 저 새를 어떻게 더 세밀하게 구분할 것인가”의 문제이고, 후자는 “정상 객체 전체가 아니라 어디가 비정상인가”의 문제다. 둘은 겉보기에는 다르지만, 실제로는 텍스트가 표현의 분해능을 바꾸는 문제라는 점에서 같다. SteerViT는 referential segmentation을 통해 이 분해능 조절을 배운다. 그래서 이 논문의 학습 objective는 부수적인 구현 선택이 아니라, 논문의 철학을 가장 직접적으로 드러내는 부분이라고 볼 수 있다.

4. 학습 데이터와 실험 설정: 작은 추가 파라미터로 어디까지 가는가

4.1 학습 데이터 구성

학습 데이터는 RefCOCO, RefCOCO+, RefCOCOg, Visual Genome, LVIS, Mapillary Vistas를 혼합하여 구성된다. 총 규모는 162k unique images2.28M image-text pairs다. 숫자만 보면 거대한 인터넷 규모의 사전학습 데이터는 아니지만, 중요한 것은 데이터의 성격이다. 모두 텍스트가 이미지 내 특정 대상이나 영역을 참조하는 referential signal을 포함한다.

특히 Visual Genome의 bounding box를 SAM2로 segmentation mask로 변환한 부분이 흥미롭다. 이는 기존 grounding 자산을 steerable representation 학습에 더 적합한 supervision으로 변환한 것이다. Mapillary에서는 Describe Anything 계열의 synthetic referring expression을 활용한다. 즉, 논문은 새로운 대규모 raw dataset을 만드는 대신 기존 annotated 자산을 조향 학습에 맞게 재구성하는 전략을 택했다.

Training data composition

Figure 4: SteerViT 학습에 사용된 데이터 소스별 이미지 수와 referring expression 수를 요약한 구성도.

Figure 4는 데이터 출처가 얼마나 다양한지 보여준다. RefCOCO 계열처럼 전통적인 referring expression 데이터뿐 아니라 Visual Genome, LVIS, Mapillary까지 포괄하며, 이질적인 어노테이션을 하나의 referential segmentation 프레임으로 묶는다. 이 조합은 모델이 특정 벤치마크 문체에 과적합되기보다, 다양한 수준의 객체 지시와 장면 구조를 접하도록 만드는 역할을 한다.

학습 계산량은 완전히 가볍다고 보기는 어렵지만, 제안 방법의 파라미터 규모를 생각하면 비교적 절제되어 있다. 기본 ablation 기준으로 batch size는 12, 학습은 500k iterations, 총 계산량은 약 84 H100 GPU-hours다. 대규모 foundation model을 처음부터 재학습하는 수준과 비교하면 훨씬 작고, 강한 frozen ViT에 가벼운 adapter를 붙이는 post-training으로는 설득력 있는 비용대다.

4.2 비교군과 평가 프로토콜

비교군은 크게 네 갈래다. Unimodal ViT로 DINOv2와 MAE, cross-modal encoders로 CLIP과 SigLIP, MLLM 계열로 InternVL3, Qwen3-VL, LFM-2.5-VL, 그리고 open-vocabulary localization 계열로 GroundingDINO와 SAM3가 포함된다. 이 구성은 단순히 더 강한 모델 한두 개와 비교하는 수준이 아니라, “표현 품질 vs 조향 가능성”의 스펙트럼 전반을 덮도록 설계되어 있다.

평가 항목도 논문의 메시지와 맞물린다. CORE는 같은 장면이지만 삽입된 객체가 다른 이미지들 사이에서, 프롬프트가 가리키는 객체가 맞는 이미지를 찾아내는 조건부 retrieval이다. MOSAIC은 네 장의 이미지를 하나로 합친 composite에서 프롬프트에 해당하는 영역으로 attention이 가는지 측정한다. 여기에 FG-CLS, ADE20k object-of-interest segmentation, PODS, GeneCIS, MVTec AD, VisA까지 더해, 조향성과 일반성, 그리고 OOD 전이성을 함께 확인한다.

입력 해상도는 가능한 모델에 대해 336×336로 맞추고, 선형 probe는 300 epochs, learning rate 1e-3, batch 128로 학습한다. anomaly segmentation에서는 “the anomaly in the <object>.”와 같은 10개 프롬프트를 ensemble로 사용한다. 이런 설정이 중요한 이유는 SteerViT의 이점을 과도한 튜닝 없이 보여주려는 의도가 분명하기 때문이다. 논문은 여러 과제를 위해 각기 다른 fine-tuning을 하지 않고, 하나의 조향 가능한 표현이 여러 곳으로 얼마나 멀리 전이되는지를 보려 한다.

항목 설정
기본 backbone DINOv2 ViT-B/14
텍스트 인코더 RoBERTa-Large
입력 해상도 336×336
batch size 12
총 학습 step 500k iterations
optimizer AdamW
학습률 스케줄 5k warmup으로 3e-4까지 증가, 40k step에 3e-5까지 cosine decay 후 고정
추가 멀티모달 파라미터 약 21M
연산 비용 약 84 H100 GPU-hours

이 표에서 특히 눈에 띄는 부분은 추가 파라미터가 21M 수준이라는 점이다. MLLM식 접근이 수십억 파라미터를 동원하는 것과 비교하면, SteerViT는 기존 강한 비전 backbone에 작은 조향 모듈을 붙이는 쪽에 가깝다. 따라서 이 논문의 실용적 메시지는 “새 거대 모델을 만들자”가 아니라, 좋은 ViT를 더 유연하게 쓰는 법에 있다.

5. 핵심 결과 I: 조건부 retrieval과 attention steering에서 무엇이 달라졌는가

5.1 CORE 벤치마크 결과

CORE는 이 논문의 대표 실험이다. SUN397에서 실내 3종, 실외 3종 장면을 선택하고, 각 장면당 100장의 base image에 FLUX.2 기반 편집으로 자연스러운 객체 5종을 삽입해 gallery를 만든다. 쿼리는 “bathroom의 리모컨”, “kitchen의 toaster” 같은 형식이며, 장면은 같지만 객체가 다른 후보들 중 정답을 골라야 한다. 즉, 장면 similarity만으로는 안 되고 텍스트가 지시한 비주요 객체를 특징 공간에서 분리해야 한다.

결과는 매우 강하다. SteerViT는 CORE acc@1 96.0을 기록한다. 이는 DINOv2의 43.7, MAE의 21.8을 압도한다. FLAIR가 81.3이므로 SteerViT는 약 14.7포인트 높다. 늦은 결합 기반 CLIP/SigLIP는 텍스트를 추가해도 향상이 거의 없고, 저자들은 개선이 +0.02% 수준에 불과하다고 적는다. 이 결과는 “텍스트를 함께 본다”와 “표현이 텍스트에 의해 재구성된다”가 전혀 다른 문제임을 말해준다.

CORE benchmark summary

Figure 5: CORE 벤치마크에서 모델 계열별 conditional retrieval 성능 비교.

Figure 5는 CORE에서 어떤 계열이 조건부 retrieval에 강한지 한눈에 보여준다. 순수 비전 모델은 장면 유사성에 끌려 점수가 크게 낮고, late fusion 계열은 텍스트를 넣어도 표현 구조 자체가 크게 바뀌지 않아 개선폭이 제한적이다. SteerViT는 open-vocabulary localization 모델과 비슷한 수준의 steerability를 보이면서도, representation backbone으로 활용 가능한 feature quality를 유지한다는 점에서 독특한 위치를 점한다.

틀린 프롬프트를 넣었을 때 성능이 크게 떨어지는 것도 흥미롭다. correct prompt에서 96.0이던 SteerViT는 incorrect prompt에서 약 47.7포인트 하락한다. 얼핏 보면 약점처럼 보이지만, 논문은 이를 진짜 텍스트 의존성의 증거로 해석한다. 프롬프트가 바뀌면 실제로 다른 특징을 만들고 있다는 뜻이기 때문이다. 만약 프롬프트가 바뀌어도 점수가 별로 떨어지지 않는다면, 그 모델은 애초에 텍스트를 제대로 반영하지 않았을 가능성이 높다.

모델 CORE Acc@1 비고
MAE 21.8 약한 조건부 검색
DINOv2 43.7 강한 feature지만 query-agnostic
FLAIR 81.3 강한 baseline
SigLIP + late fusion 제한적 개선 표현 재구성 부족
SteerViT 96.0 조건부 retrieval 최고 수준

장면별 결과도 고르게 강하다. Bathroom 99.2, Kitchen 98.6, Living Room 96.6, Park 93.0, Suburb 97.7, Street 90.8로, 실내외를 가리지 않고 높은 정확도를 보인다. Street와 Park처럼 배경 변동이 더 크고 물체가 상대적으로 작거나 복잡한 장면에서는 난도가 높지만, 그래도 기존 비전 표현 대비 큰 차이를 유지한다. 이는 SteerViT가 단순히 특정 장면 분포에 과적합된 것이 아니라, 장면이 고정되어도 객체 차이를 읽는 새로운 표현 능력을 확보했음을 시사한다.

여기서 특히 인상적인 점은 정답 프롬프트와 오답 프롬프트 사이의 간극이 scene별로 일관되게 나타난다는 것이다. Bathroom에서 99.2가 44.4로, Kitchen에서 98.6이 43.6으로, Street에서 90.8이 34.4로 떨어진다. 이는 단순히 어떤 객체가 자주 등장하는 장면 통계를 암기한 것이 아니라, 실제로 프롬프트가 바뀌면 retrieval 기준이 달라진다는 뜻이다. 실전 관점에서 보면 이는 매우 중요한 특성이다. 사용자 조건이 잘못 들어왔을 때 결과가 달라져야 진짜 조건부 시스템이지, 항상 비슷한 결과가 나오면 그 시스템은 사용자 의도를 표현에 반영하지 못한 것이다.

또한 CORE의 성공은 소형 배경 객체를 다루는 문제에 대한 하나의 해답이기도 하다. 일반적인 self-supervised ViT는 장면의 큰 구조나 중심 객체에 끌리기 쉽고, 그래서 배경에 작게 놓인 컵, 리모컨, 표지판, 병 같은 대상은 검색의 핵심 기준으로 잘 쓰지 못한다. SteerViT는 이 문제를 detector처럼 bounding box를 직접 예측하지 않고 해결한다. 즉, 이미지 전체 표현의 기준점 자체를 바꾸어 작은 객체도 검색을 지배하는 축으로 만들 수 있다. 이 점은 검색 엔진, 멀티모달 데이터베이스, 개인 사진 정리 같은 응용을 떠올리게 한다.

5.2 MOSAIC과 attention 재지향

MOSAIC은 4장의 PASCAL-VOC 이미지를 2×2로 합쳐 만든 composite에서, 마지막 self-attention block의 CLS-to-patch attention이 프롬프트 대상에 제대로 향하는지 본다. 여기서 DINOv2는 PR-AUC 14.3%에 그치지만, SteerViT는 50.2%를 기록한다. 이는 retrieval 점수만 좋아진 것이 아니라, attention routing 자체가 텍스트 조건에 의해 달라졌다는 직접 증거다.

MOSAIC attention maps

Figure 6: 4-image mosaic에서 프롬프트가 attention heatmap을 원하는 객체 쪽으로 재지향하는 예시.

Figure 6은 SteerViT의 attention이 왜 중요한지를 명확하게 보여준다. DINOv2는 대체로 가장 크거나 눈에 잘 띄는 물체에 attention이 머무르지만, SteerViT는 동일한 composite 이미지에서도 “bird”, “bike”, “dog” 같은 텍스트 프롬프트에 따라 열지도가 해당 영역으로 이동한다. 이는 텍스트가 단순 ranking score를 바꾸는 수준을 넘어, 모델 내부의 시각 탐색 전략을 실질적으로 바꾸고 있음을 의미한다.

이 결과는 조향 가능성을 평가하는 데 매우 중요하다. 조건부 retrieval 점수만 보면 어떤 경우에는 clever scoring trick으로도 수치를 올릴 수 있다. 하지만 attention map이 실제로 다른 위치를 가리킨다면, 모델이 내부적으로 다른 시각 evidence를 사용하고 있다고 해석할 수 있다. 논문은 바로 이 점을 통해 SteerViT가 후처리형 multimodal ranking 기법이 아니라 representation steering model임을 설득한다.

MOSAIC 실험은 논문이 매우 영리하게 설계한 부분이기도 하다. 네 장의 이미지를 하나로 합치면 모델은 장면 전체 saliency에 더 쉽게 흔들릴 수 있다. 따라서 여기서도 프롬프트 대상에 정확히 집중한다면, 이는 단순 이미지 수준 검색이 아니라 훨씬 로컬한 attention control이 가능하다는 강한 신호가 된다. 특히 논문은 마지막 self-attention block의 CLS-to-patch attention을 사용해, 외부 decoder 없이 backbone 내부의 시선 이동을 바로 읽어낸다. 이 점은 SteerViT가 별도의 localization head 덕분이 아니라 representation 자체의 주의 구조가 바뀌었기 때문에 작동한다는 해석을 뒷받침한다.

실험 해석 측면에서 MOSAIC이 특히 좋은 이유는, retrieval과 localization의 중간 지점을 찌른다는 데 있다. retrieval만 보면 최종 임베딩의 순위가 좋아진 것인지, 정말로 내부 시각 처리 경로가 달라진 것인지 구분하기 어렵다. 반대로 완전한 segmentation만 보면 외부 head나 후단 decoder의 도움을 받았을 가능성을 배제하기 어렵다. MOSAIC은 backbone 내부 attention만으로 프롬프트 반응성을 측정하기 때문에, SteerViT의 조향성이 표현 내부에 뿌리내렸는지를 상대적으로 직접적으로 보여준다. 이런 평가 축은 앞으로 텍스트 조건 비전 인코더를 비교할 때도 꽤 유용한 기준이 될 가능성이 있다.

또한 attention heatmap의 이동을 단순 시각화용 보조 그림으로만 볼 필요는 없다. 실제 응용에서는 사용자가 원하는 객체가 작은 경우가 많고, 특히 이미지 데이터베이스 탐색이나 시각적 질의응답 전처리 단계에서는 어디를 근거로 특징을 만들었는지가 중요하다. SteerViT처럼 텍스트에 따라 attention의 초기 분배가 바뀌면, 뒤이은 검색 점수나 patch aggregation도 자연스럽게 달라진다. 즉, MOSAIC은 단순히 보기 좋은 해석 그림이 아니라, 왜 이 모델이 작은 객체 retrieval과 anomaly localization에서 강한지를 설명하는 기계적 단서로 읽을 수 있다.

6. 핵심 결과 II: 표현 품질, 개인화, OOD 전이에서 얼마나 유용한가

6.1 범용 feature quality와 trade-off

SteerViT가 조향성만 좋고 일반 표현 품질이 크게 무너지면 논문의 메시지는 약해진다. 그래서 저자들은 ImageWoof, Waterbirds, StanfordCars 평균 선형 probe인 FG-CLS와 ADE20k object-of-interest segmentation을 함께 본다. vanilla DINOv2가 FG-CLS 89.0인 반면, full SteerViT는 87.7이다. 즉, 소폭 하락은 있지만 파괴적 손실은 아니다. 대신 CORE는 43.7에서 96.0으로 급상승하고, PODS는 29.6에서 58.1로 오른다.

이 trade-off는 논문이 강조하는 Pareto improvement의 핵심이다. 기존 late fusion은 FG-CLS 91.8처럼 오히려 분류형 probe에서는 유리할 수 있어도, PODS 36.6으로 personalized discrimination이 약하다. ungated cross-attention은 CORE 94.6으로 강하지만 FG-CLS가 83.5로 떨어진다. 즉, SteerViT는 최적의 한 점이 아니라, 조향성과 일반성 사이의 균형점을 잘 찾은 모델로 이해할 수 있다.

Pareto frontier teaser

Figure 7: steerability와 representation quality의 trade-off 공간에서 SteerViT가 형성하는 Pareto frontier.

Figure 7은 SteerViT의 위치를 매우 잘 요약한다. 일반적인 모델은 조향성이 높아질수록 표현 품질이 크게 희생되거나, 반대로 표현 품질을 유지하면 텍스트 제어성이 거의 생기지 않는다. SteerViT는 gate를 통해 이 두 축 사이의 균형을 조절하며, 기존 계열보다 더 우상단에 가까운 지점을 차지한다. 논문의 공헌은 단순 최고 점수보다도 이런 새로운 trade-off frontier를 제시했다는 데 있다.

설정 FG-CLS CORE PODS
Vanilla DINOv2 89.0 43.7 29.6
Late fusion 91.8 93.3 36.6
Ungated CA 83.5 94.6 47.1
Linear projector 86.7 95.2 56.4
Full SteerViT 87.7 96.0 58.1

이 표는 설계 요소별 역할을 깔끔하게 보여준다. early fusion은 CORE와 PODS 상승의 핵심이고, gate는 FG-CLS 손실을 줄이며, MLP projector는 personalized task에서 세밀한 이득을 준다. 즉, 각 구성 요소가 서로 다른 실패 모드를 막아 주는 식이다. 단순히 cross-attention만 넣는다고 SteerViT가 되는 것이 아니라, ‘얼마나 세게’, ‘어떤 변환으로’, ‘언제 섞을 것인가’가 모두 중요하다는 사실이 드러난다.

6.2 PODS와 텍스트 구체성의 효과

PODS는 소수의 reference image만 있을 때 인스턴스 수준 discrimination과 retrieval을 수행하는 과제다. 여기서 SteerViT는 coarse supercategory prompt에서는 PR-AUC 27.9로 vanilla DINOv2의 29.6보다 약간 낮지만, 자세한 설명을 넣으면 58.1 PR-AUC로 급상승한다. retrieval 쪽 NDCG도 77.3으로, synthetic data로 지도 미세조정한 DINOv2의 79.6에 근접한다.

이 실험은 매우 시사적이다. SteerViT는 항상 자동으로 좋아지는 모델이 아니다. 무엇을 얼마나 구체적으로 말하느냐에 따라 표현의 granularity가 달라진다. 예를 들어 “bird”라는 상위 범주만 주면 여러 새 사이를 잘 가르지 못할 수 있지만, “small brown bird with white ring around the eye” 같은 서술을 주면 군집 구조가 훨씬 세밀하게 바뀐다. 다시 말해, 텍스트는 단순 필터가 아니라 표현 해상도를 조절하는 조종간처럼 작동한다.

PODS prompt specificity performance

Figure 8: PODS에서 프롬프트를 더 구체적으로 줄수록 SteerViT의 personalized discrimination이 크게 향상되는 결과.

Figure 8은 텍스트 specificity가 왜 중요한지 수치적으로 보여준다. coarse category 수준에서는 조향 신호가 너무 거칠어 대상 간 차이를 충분히 강조하지 못하지만, 세밀한 속성과 부분을 포함한 설명이 들어오면 특징 공간이 더 날카롭게 재조정된다. 이 결과는 SteerViT가 텍스트를 class label처럼만 쓰는 것이 아니라, 세부 속성까지 feature geometry에 투영할 수 있음을 의미한다.

PODS retrieval with detailed prompts

Figure 9: 상세 설명을 사용할 때 retrieval 결과가 얼마나 정교해지는지 보여주는 예시.

Figure 9는 실제 retrieval 사례에서 이 현상이 어떻게 나타나는지 보여준다. 일반적인 객체명만 넣었을 때는 비슷한 상위 범주의 다른 인스턴스가 함께 섞이지만, 텍스트에 색, 부분, 질감, 배치 같은 힌트를 더하면 상위 결과가 눈에 띄게 정교해진다. 이로부터 SteerViT는 ‘텍스트를 사용할 수 있는 비전 표현’이 아니라, 텍스트의 정보량에 비례해 세분화되는 비전 표현으로 이해하는 편이 정확하다.

6.3 anomaly segmentation과 real-world transfer

SteerViT가 인상적인 이유 중 하나는 OOD industrial anomaly segmentation에서의 성능이다. MVTec AD에서 ROC_P 87.8, PRO 82.1, F1^max 35.6을 기록하고, VisA에서는 ROC_P 92.1, PRO 82.0, F1^max 18.3을 얻는다. 전용 anomaly segmentation 방법인 FADE가 일부 지표에서 더 높지만, SteerViT는 전용 AS 모델이 아니라 범용 steerable representation임을 감안하면 상당히 강한 결과다.

이 결과는 두 가지를 보여준다. 첫째, 텍스트 프롬프트가 “정상 패턴에서 벗어난 부분”이라는 과업 정의를 표현 공간에 직접 심어줄 수 있다는 점이다. 둘째, SteerViT가 특정 객체를 찾아내는 것에 그치지 않고, 정상 구조에서 이탈한 국소 패턴까지 포착하는 조건부 이상 탐지 표현으로 작동할 수 있다는 점이다. 이는 연구 노트에서 강조한 “표현의 과업 초점 조절”이 실제 OOD setting에서도 통한다는 증거다.

산업 비전에서 이 결과의 함의는 적지 않다. 전용 anomaly detector는 보통 특정 도메인에 맞는 정상 패턴 학습이나 defect taxonomy를 요구한다. 반면 SteerViT는 텍스트를 이용해 “어떤 종류의 시각적 이탈을 보고 싶은가”를 비교적 유연하게 지정할 수 있다. 물론 모든 결함을 해결하는 것은 아니지만, 새로운 객체군이나 빠른 프로토타이핑 환경에서는 매우 유용할 수 있다. 즉, SteerViT는 높은 완성도의 최종 산업 솔루션이라기보다, 도메인 적응 이전 단계에서 강력한 zero-shot 탐색 표현으로 이해하는 편이 좋다.

Zero-shot anomaly segmentation examples

Figure 10: zero-shot anomaly segmentation heatmap 예시. 텍스트 조건에 따라 이상 영역이 강조된다.

Figure 10은 텍스트 조향이 이상 탐지에서도 작동함을 시각적으로 보여준다. 정상 객체 전체를 보는 표현이 아니라, “anomaly”라는 조건을 중심으로 attention과 patch-level response가 재배치되기 때문에 작은 결함 위치가 열지도 형태로 드러난다. 전용 anomaly detector가 아닌 표현 모델이 이런 반응을 보인다는 점은, SteerViT의 조건부 feature가 단순 object grounding을 넘어 과업 중심 시각 탐색으로 확장될 수 있음을 시사한다.

방법 MVTec AD VisA 해석
MaskCLIP 63.7 / 40.5 / 18.5 60.9 / 27.3 / 7.3 기준선
CLIPseg 69.0 / 34.6 / 12.5 89.5 / 62.4 / 13.9 텍스트 기반 세그먼테이션
SAM3 79.9 / 54.5 / 24.1 89.8 / 65.9 / 15.5 강한 OV localization
FADE 89.6 / 84.5 / 39.8 91.5 / 79.3 / 16.7 전용 anomaly method
SteerViT 87.8 / 82.1 / 35.6 92.1 / 82.0 / 18.3 비전용 방법 대비 매우 강함

표를 보면 SteerViT는 전용 anomaly method보다 항상 이기지는 않지만, VisA에서는 ROC_P와 PRO에서 오히려 앞서기도 한다. 이는 텍스트 조건을 통해 관심 영역을 좁히는 능력이 industrial setting에서도 상당한 이점을 줄 수 있음을 의미한다. 요컨대 SteerViT의 진짜 강점은 하나의 전용 과제를 최고로 푸는 것이 아니라, 여러 과제로 자연스럽게 전이되는 steerable feature를 만든다는 데 있다.

7. 분석과 ablation: 무엇이 성능을 만들고, 무엇이 병목이 되는가

7.1 backbone과 스케일링 효과

SteerViT는 특정 backbone에만 묶인 발상은 아니다. 논문은 DINOv2, SigLIP, MAE에 모두 같은 아이디어를 적용해 비교한다. CORE 기준으로 DINOv2는 43.7에서 late fusion 93.3, SteerViT 96.0으로 올라가고, SigLIP는 38.3에서 75.4, 91.3으로, MAE는 21.8에서 41.0, 74.9로 상승한다. 특히 MAE처럼 기본 conditional retrieval 능력이 약한 모델일수록 early fusion의 상대 이득이 더 크다.

이 결과는 SteerViT가 단순히 DINOv2 위에서만 통하는 꼼수가 아니라는 점을 보여준다. 다만 절대 성능은 여전히 backbone 품질에 영향을 받는다. 즉, 조향 모듈이 아무리 좋아도 출발점인 시각 표현이 너무 약하면 최종 품질에도 한계가 있다. 저자들이 말하는 핵심은 “backbone을 대체한다”가 아니라, 이미 좋은 backbone을 텍스트 조건으로 더 유연하게 만든다는 데 있다.

Backbone Base CORE Late fusion CORE SteerViT CORE
DINOv2 43.7 93.3 96.0
SigLIP 38.3 75.4 91.3
MAE 21.8 41.0 74.9

비전 인코더와 텍스트 인코더 스케일링도 흥미롭다. Small+Large 조합은 FG-CLS 80.0, ADE20k 50.8, CORE 93.6, PODS 44.1이고, Base+Large는 87.7, 55.4, 96.0, 58.1이며, Large+Large는 85.8, 55.5, 96.8, 62.8이다. 수치가 말해주듯 무조건 큰 비전 인코더가 모든 축에서 우월한 것은 아니지만, 전반적으로 시각 backbone의 스케일이 조향 품질의 상한을 결정하는 경향이 있다. RoBERTa-Base에서 Large로 바꾸는 것의 이득은 존재하지만 상대적으로 작다.

훈련 기간 분석도 설득력 있다. 50k iteration만으로 CORE는 이미 95.3%에 도달하고, FG-CLS는 89.6으로 거의 유지된다. 이후 450k까지 갈수록 PODS와 RefCOCOg가 더 올라간다. 즉, coarse한 조향성은 초기에 빨리 형성되지만, 세밀한 personalized discrimination과 grounding 품질은 더 긴 학습에서 성숙한다. 이는 저자들의 objective가 실제로 representation hierarchy를 점진적으로 재구성한다는 해석과도 잘 맞는다.

이 학습 곡선은 실용적인 메시지도 준다. 조향 가능한 표현의 기본 골격은 비교적 빠르게 얻을 수 있기 때문에, 사용 환경에 따라서는 완전한 500k 학습 없이도 의미 있는 성능을 확보할 수 있다. 반면 장기 학습은 세밀한 속성 구분과 instance-level discrimination을 강화한다. 따라서 응용 시나리오에 따라 빠른 프로토타입 버전과 고품질 장기 학습 버전을 나눠 생각할 여지가 있다. 이러한 특성은 SteerViT가 연구용 장난감이 아니라, 학습 예산에 따라 단계적 품질 향상이 가능한 방법임을 시사한다.

7.2 supervision, FFN, gate scaling에 대한 해석

supervision ablation은 이 논문의 메시지를 가장 명확하게 밀어준다. pointing supervision은 FG-CLS 80.4, ADE20k 47.4, CORE 95.2, PODS 45.7인 반면, segmentation supervision은 87.7, 55.4, 96.0, 58.1이다. 특히 PODS에서 +12.4 상승은 크다. 이 차이는 객체 수준 의미를 배운 표현이 downstream personalization에서 훨씬 강하다는 점을 말해준다.

FFN ablation도 흥미롭다. DINOv2에서는 FFN을 제거한 쪽이 오히려 CORE 96.0, PODS 58.1, MVTec 82.1로 더 좋고, FFN을 넣으면 성능이 소폭 하락한다. MAE에서도 FFN 추가는 CORE 74.9를 67.7로 떨어뜨린다. 게다가 파라미터는 21.2M에서 35.4M으로 67% 증가한다. 이는 텍스트 정보를 섞는 데 추가 비선형 변환을 크게 늘리는 것이 반드시 이득이 아니라는 뜻이며, 저자들이 최종 모델에서 FFN을 생략한 이유도 여기에 있다.

또 하나 눈길을 끄는 것은 추론 시 gate factor를 조절할 수 있다는 점이다. 논문은 inference time에 gate scaling을 바꿔 vanilla ViT와 SteerViT 사이를 연속적으로 보간하는 실험을 보여준다. DINOv2와 SigLIP에서는 약 0.6 근처가 좋은 타협점으로 나타난다. 이는 사용자가 필요에 따라 얼마나 강하게 텍스트 조향을 걸지 선택할 수 있다는 뜻이며, 실무적으로도 꽤 흥미로운 성질이다.

예를 들어 장면 중심 검색에서는 gate를 낮추고, 세밀한 객체 검색이나 맞춤형 추천에서는 gate를 높이는 식의 운용이 가능하다. 같은 backbone 하나로도 상황별 다른 표현 성격을 뽑아낼 수 있다는 뜻이다. 일반적인 foundation model은 사전학습 뒤에는 거의 고정된 특징 성향을 갖는데, SteerViT는 그 성향을 추론 시점에서 부분적으로 조절할 수 있다. 이 점은 모델이 정적인 인코더에서 조절 가능한 인코더로 바뀌었다는 의미를 가진다.

Gate scaling tradeoff

Figure 11: inference 시 gate factor를 조절하며 vanilla ViT와 SteerViT 사이의 trade-off를 연속적으로 탐색한 결과.

Figure 11은 SteerViT가 단순한 on/off 방식이 아니라는 점을 보여준다. gate를 0에 두면 거의 원래 backbone처럼 동작하고, 값을 키우면 텍스트 조향성이 점점 강해진다. 이는 본 논문이 제안하는 표현이 하나의 고정 상태가 아니라 과업과 사용자 요구에 맞게 조절 가능한 연속적 공간임을 의미한다. 이 성질은 retrieval과 검색, 추천, personalization 같은 실제 응용에서 꽤 유용할 수 있다.

논문 후반의 feature divergence 분석도 해석에 도움을 준다. base ViT와 SteerViT의 중간 feature cosine divergence는 레이어가 깊어질수록 커진다. 이는 텍스트가 초반부터 개입하더라도, 효과는 네트워크를 거치며 누적적으로 증폭된다는 뜻이다. 즉, SteerViT는 한 번의 강한 수정이 아니라 여러 층에 걸친 점진적 표현 재편을 구현한다.

이 분석은 방법론의 타당성을 다시 확인해 준다. 만약 초반 몇 층에서 divergence가 급격히 폭증했다면, 텍스트 주입이 기존 비전 표현을 과도하게 덮어쓰고 있다는 우려가 생길 수 있다. 반대로 너무 끝까지 divergence가 작다면 late fusion과 실질적으로 다를 바 없을 수 있다. 그런데 논문이 보여주는 패턴은 초반에는 원 backbone과 가깝게 유지되다가, 깊어질수록 조건부 차이가 점진적으로 커지는 형태다. 이는 기초 시각 구조는 유지하면서 상위 의미 축에서 선택적으로 갈라지는 조향이라는 SteerViT의 설계 철학과 잘 맞아떨어진다.

실무적으로도 이 성질은 중요하다. 저수준 경계, 질감, 반복 패턴 같은 신호는 많은 과제에서 공통 자산으로 남겨 두고, 중상위 수준 의미만 프롬프트에 따라 조절하는 편이 전이성과 안정성에 유리하다. SteerViT는 바로 그런 형태의 분업을 암묵적으로 학습한 것으로 보인다. 그래서 이 모델은 텍스트 지시를 강하게 반영하면서도, 완전히 새로운 비전 모델을 훈련한 것처럼 기본 feature quality가 크게 무너지지 않는다. 이 지점이 단순 cross-attention 삽입과 논문이 제안한 gated residual conditioning 사이의 실제 차이라고 볼 수 있다.

8. 한계와 비판적 읽기: 이 논문을 어디까지 믿어야 하는가

8.1 논문이 직접 보여준 한계

가장 먼저 짚어야 할 한계는 강한 backbone 의존성이다. DINOv2에서 가장 좋은 절대 성능이 나오고, MAE나 SigLIP에서도 개선은 분명하지만 출발점 차이를 완전히 지우지는 못한다. 따라서 SteerViT는 범용 조향 솔루션이라기보다, 강한 비전 backbone 위에서 가장 설득력 있게 작동하는 확장 기법으로 보는 편이 적절하다.

둘째, 프롬프트 품질 민감성이 분명하다. PODS에서 coarse prompt는 vanilla DINOv2보다 오히려 약간 나쁠 수 있다. 이는 SteerViT가 ‘아무 말이나 넣어도 좋아지는 모델’이 아니라, 적절히 구체적인 조건이 주어질 때 강점을 발휘하는 모델임을 보여준다. 사용자 또는 상위 시스템이 좋은 설명을 생성하지 못하면 기대만큼의 이득이 나오지 않을 수 있다.

셋째, CORE는 분명 흥미로운 벤치마크지만 합성 편집 기반 평가라는 한계가 있다. FLUX.2로 객체를 삽입해 장면을 통제했기 때문에 조건부 retrieval을 깔끔하게 측정할 수 있지만, 현실 배포 환경의 복잡한 공변량 이동을 완전히 반영하는 것은 아니다. 저자들이 GeneCIS로 보완하려 했다는 점은 좋지만, synthetic benchmark의 높은 성능을 그대로 실제 서비스 품질로 연결해서 해석하는 것은 조심할 필요가 있다.

넷째, anomaly segmentation 결과는 매우 인상적이지만 모든 이상 유형을 포괄하지는 못한다. 저자들도 visible defect가 거의 없거나 정상 레퍼런스 학습이 필요한 경우는 zero-shot prompt만으로 어렵다고 인정한다. 즉, SteerViT는 anomaly understanding의 좋은 기반 표현일 수는 있어도, 모든 산업 결함 문제를 대체하는 만능 해법은 아니다.

다섯째, 학습 비용도 완전히 무시할 수준은 아니다. 추가 파라미터는 작지만 500k step과 84 H100 GPU-hours는 연구 목적상 가볍다고만 하긴 어렵다. 다만 foundation model 사전학습과 비교하면 훨씬 실용적이므로, 이 부분은 절대적 비용보다 대비 효과로 평가해야 한다.

여섯째, 실험 축이 대부분 ViT 계열에 집중되어 있다는 점도 기억할 필요가 있다. 논문의 아이디어는 원리상 다른 시각 인코더에도 확장될 수 있어 보이지만, 실제 검증은 Transformer 기반 backbone 위주로 이루어졌다. 따라서 CNN 기반 대형 표현이나 하이브리드 구조, 혹은 비정형 멀티스케일 인코더에서 동일한 장점이 유지되는지는 아직 열려 있는 문제다. 특히 cross-attention을 residual stream에 주입하는 방식이 backbone마다 얼마나 다른 안정성 문제를 보이는지도 후속 검증이 필요하다.

일곱째, 텍스트 인코더를 frozen RoBERTa-Large로 두는 선택도 장점과 한계를 동시에 가진다. 장점은 안정적이고 계산량이 비교적 절제된다는 점이지만, 한편으로는 더 복잡한 compositional prompt나 긴 설명에 대한 처리 한계가 존재할 수 있다. SteerViT가 보여준 강점은 분명하지만, 미래 버전에서는 텍스트 조건의 조합성, 부정 표현, 관계 서술, 다중 객체 동시 조건처럼 더 복잡한 자연어 제어를 얼마나 자연스럽게 다룰 수 있는지 따져볼 필요가 있다.

여덟째, 현재 실험은 주로 단일 프롬프트가 하나의 주된 관심 대상을 가리키는 상황에 초점이 맞춰져 있다. 하지만 실제 응용에서는 “빨간 컵은 보고, 뒤쪽 파란 병은 무시하라”, “왼쪽 새의 날개 무늬만 비교하라”, “결함은 보되 반사는 제외하라”처럼 긍정 조건과 부정 조건이 섞인 복합 질의가 자주 등장한다. SteerViT의 기본 구조는 이런 확장 가능성을 암시하지만, 논문 v1 단계에서는 아직 해당 영역을 충분히 검증하지 않았다. 따라서 사용자가 자연어로 표현한 복잡한 의도를 어디까지 안정적으로 feature space에 투영할 수 있는지는 남은 질문이다.

아홉째, 벤치마크 전반이 조향 가능성과 전이성을 폭넓게 보여 주긴 하지만, 실제 온라인 시스템에서 중요한 latency와 캐싱 전략은 별도로 논의되지 않는다. 조건부 표현은 프롬프트마다 이미지 특징이 달라지므로, 전통적인 image-only embedding 캐시보다 운영 방식이 복잡해질 수 있다. 물론 gate scaling이나 적은 추가 파라미터 덕분에 완전히 비현실적인 접근은 아니지만, 대규모 검색 시스템에 넣으려면 프롬프트 재사용성, 인기 질의 캐시, 다중 조건 배치 처리 같은 엔지니어링 고민이 뒤따를 것이다. 논문은 학문적으로 설득력 있지만, 운영 관점에서는 이런 후속 연구가 필요하다.

8.2 그래도 왜 중요한가

그럼에도 불구하고 이 논문이 중요한 이유는, 조향 가능성을 ‘질문응답 능력’이 아니라 표현의 속성으로 다뤘기 때문이다. 최근 멀티모달 연구는 종종 더 큰 LLM을 붙여 instruction following을 강화하는 방향으로 흐른다. 그러나 이 논문은 그와 달리, 좋은 비전 표현을 유지한 채 텍스트가 residual stream 자체를 바꾸게 하는 방법에 집중한다. 이는 retrieval, personalization, anomaly detection처럼 답변 생성이 아니라 특징 품질이 중요한 곳에서 특히 의미가 크다.

또한 SteerViT의 설계는 비교적 모듈식이다. 강한 ViT backbone이 이미 있는 환경이라면, 전면적인 모델 교체 없이 텍스트 조향 기능을 덧붙이는 방향으로 확장할 수 있다. 이는 연구적으로도 실용적으로도 매력적이다. 즉, 이 논문은 “새 멀티모달 거대 모델”보다, 기존 시각 foundation model을 조건부 표현 엔진으로 바꾸는 방법에 가깝다.

이 논문에서 핵심적인 부분은 텍스트를 후단의 랭킹 조건이나 설명 신호가 아니라 representation control variable로 해석했다는 점이다. 이 관점이 맞다면 앞으로는 검색, 추천, 로보틱스, 산업 검사, 개인 사진 관리 같은 곳에서도 “같은 이미지에 대해 여러 표현을 필요할 때마다 꺼내 쓰는 방식”이 중요해질 수 있다. SteerViT는 이 가능성을 구체적인 수치와 구조로 제시한다.

더 넓게 보면 이 논문은 vision-language 연구의 역할 분담을 다시 생각하게 만든다. 지금까지는 언어 모델이 점점 더 많은 판단을 맡고, 비전 인코더는 그 앞단에서 정보를 추출해 주는 모듈처럼 취급되는 경향이 있었다. 그런데 SteerViT는 반대로 언어를 비전 표현 속으로 밀어 넣는다. 즉, “언어가 최종 결정을 내리기 전에 시각적 세계를 어떻게 구조화할지”를 먼저 바꿔 버린다. 이 관점은 로봇이 장면을 탐색하거나, 인터랙티브 검색 시스템이 사용자의 관심을 반영하거나, 의료 영상에서 특정 병변 가설을 중심으로 특징을 다시 읽는 상황에서도 의미가 있다. 따라서 SteerViT는 단일 모델 제안을 넘어, 조건부 지각(conditioned perception)이라는 큰 주제를 실험 가능한 형태로 옮긴 논문으로 읽을 수 있다.

UMAP prompt steering

Figure 12: 서로 다른 프롬프트에 따라 UMAP 상의 군집 구조 자체가 재편되는 예시.

Figure 12는 SteerViT의 개념을 가장 아름답게 보여주는 그림 중 하나다. “animal”, “bird”, “eye”처럼 프롬프트를 바꾸면 동일한 원본 이미지 집합이 서로 다른 축을 따라 재군집화된다. 이것은 표현이 정적이지 않다는 뜻이며, 나아가 의미 계층과 속성 조합을 조건에 따라 드러내는 동적 feature geometry가 가능함을 시사한다. 이 한 장만으로도 SteerViT의 지향점이 무엇인지 분명해진다.

9. 확장 해설: 왜 이 평가들이 서로 연결되어 읽혀야 하는가

여기서부터는 논문 표와 그림을 조금 더 응용 관점으로 다시 읽어볼 필요가 있다. 표면적으로 보면 CORE는 retrieval, ADE20k는 segmentation, PODS는 personalization, MVTec AD와 VisA는 anomaly segmentation을 측정하므로 서로 다른 과제처럼 보인다. 그러나 SteerViT의 관점에서는 이 네 축이 모두 텍스트가 시각 표현의 기준 좌표계를 어디에 맞추는가라는 하나의 질문으로 묶인다. retrieval에서는 어떤 객체를 중심으로 이미지 간 거리를 다시 계산할지를 묻고, segmentation에서는 어떤 patch 집합을 하나의 의미 단위로 묶을지를 묻고, personalization에서는 같은 상위 범주 안에서 어떤 세부 속성을 차이의 축으로 세울지를 묻고, anomaly에서는 정상 구조 안에서 어느 부분을 예외로 볼지를 묻는다. 겉보기 목적 함수는 다르지만 실제로는 모두 ‘표현의 중심을 고정된 saliency에서 조건부 관심사로 옮길 수 있는가’라는 동일한 검증이다.

이 관점에서 보면 데이터셋별 평가지표의 의미도 훨씬 선명해진다. CORE의 높은 정확도는 단지 검색 성능이 좋다는 뜻이 아니라, 장면 전체가 비슷할 때도 프롬프트 대상이 feature distance를 지배할 수 있다는 뜻이다. 즉, global scene bias를 이겨내고 로컬 객체를 임베딩의 기준축으로 승격시켰다는 의미다. MOSAIC의 PR-AUC는 이 재배열이 실제 attention routing으로도 나타나는지 확인하는 장치다. 다시 말해 CORE가 결과 수준의 검증이라면 MOSAIC은 메커니즘 수준의 검증이다. ADE20k object-of-interest segmentation은 이 조향이 단순히 하나의 정답 이미지를 고르는 수준을 넘어서, patch 단위의 공간 조직에도 반영되는지 확인한다. PODS는 한 걸음 더 나아가 같은 범주 내부에서 텍스트의 구체성이 표현 해상도를 얼마나 세밀하게 바꾸는지 평가한다. 마지막으로 MVTec AD와 VisA는 이렇게 학습된 조건부 표현이 완전히 다른 도메인에서도 ‘정상에서 벗어난 부분’이라는 추상적 조건을 붙잡을 수 있는지 보여 준다. 따라서 이 논문의 실험 묶음은 산만한 과제 모음이 아니라, 조건부 표현이 전역 검색에서 국소 분할, 세밀한 구별, OOD 이상 탐지까지 얼마나 연속적으로 이어지는지를 단계별로 점검하는 구조라고 볼 수 있다.

특히 CORE와 PODS를 함께 보면 SteerViT가 단순히 객체 존재 여부만 보는 모델이 아님을 알 수 있다. CORE에서는 대개 “리모컨”, “토스터”, “표지판”처럼 비교적 명시적인 명사를 주고, 모델이 장면 속에서 그 객체가 있는 이미지를 찾는지를 본다. 반면 PODS에서는 동일한 새, 동일한 상품군처럼 훨씬 미세한 인스턴스 차이를 구분해야 하므로, 텍스트가 색, 질감, 부분 형태, 상대적 위치 같은 더 섬세한 속성을 표현 공간에 투영해야 한다. 두 데이터셋에서 동시에 강하다는 것은 SteerViT가 coarse object grounding과 fine-grained attribute discrimination을 같은 메커니즘 위에서 처리한다는 뜻이다. 이는 앞으로 조건부 표현 연구에서 중요한 포인트다. 왜냐하면 실제 서비스에서는 “고양이를 찾아라” 같은 거친 질의와 “왼쪽 귀 끝이 살짝 접힌 검은 고양이 사진만 모아라” 같은 세밀한 질의가 공존하기 때문이다. SteerViT의 결과는 텍스트 조건이 단순 class label일 때도, 속성 묘사가 풍부할 때도 표현 구조를 일관되게 재편할 수 있음을 시사한다.

segmentation과 anomaly 사이의 연결도 흥미롭다. referential segmentation으로 학습한 모델이 industrial anomaly segmentation에 전이된다는 사실은, 모델이 단지 ‘이 물체를 찾아라’라는 명령만 외운 것이 아니라 텍스트 조건에 따라 foreground와 예외 영역을 분해하는 방식 자체를 배웠다는 해석을 가능하게 한다. object-of-interest segmentation에서는 프롬프트가 가리키는 객체 범위를 foreground로 세운다. anomaly segmentation에서는 프롬프트가 정상 객체 전체가 아니라 ‘이상한 부분’이라는 비정상 하위영역을 foreground 후보로 세운다. 둘 다 patch representation이 텍스트 의미에 따라 어떤 부분을 salient subset으로 올릴지를 결정해야 한다는 점에서 구조가 같다. 그래서 SteerViT는 개념적으로 object grounding과 anomaly localization을 멀리 떨어진 과제가 아니라, 조건부 foreground selection의 두 끝점으로 이어 놓는다. 이는 향후 결함 탐지, 의료 영상 병변 탐색, 위성 영상 변화 탐지처럼 ‘어디가 예외적인가’를 묻는 과제에도 꽤 중요한 관찰이다.

데이터셋별 해석을 더 세밀하게 하면, 각 벤치마크는 모델의 다른 실패 가능성을 걸러내는 역할을 한다. CORE만 좋으면 혹시 텍스트-이미지 매칭 점수 트릭일 수 있다. MOSAIC까지 좋으면 attention이 실제로 이동했음을 보여 준다. ADE20k까지 좋으면 patch-level grouping이 유지됨을 뜻한다. PODS까지 좋으면 세부 속성 차이를 표현의 축으로 만들 수 있음을 뜻한다. MVTec AD와 VisA까지 좋으면 학습 시 보지 못한 도메인에서조차 추상적 조건을 통해 국소 예외를 찾을 수 있음을 뜻한다. 즉, 이 논문에서 여러 데이터셋을 병렬로 보는 이유는 ‘많이 평가했다’는 양적 과시에 있지 않다. 오히려 조건부 표현이 어디서 실패하는지 층층이 드러내기 위한 진단 체계에 가깝다. 이런 식의 해석은 후속 연구에도 유용하다. 어떤 새 모델이 CORE는 높지만 PODS가 약하다면 속성 수준 세분화가 부족한 것이고, MOSAIC은 강하지만 ADE20k가 약하다면 attention 재지향은 되지만 객체 범위 조직은 약한 것일 수 있다.

ablation 결과는 단순한 구성요소 비교표 이상으로 읽을 가치가 있다. 가장 중요한 설계 함의는 조건을 세게 넣는 것보다 조건을 안전하게 넣는 것이 더 중요하다는 점이다. ungated cross-attention이 CORE에서는 강하지만 FG-CLS를 크게 깎는다는 사실은, 텍스트 신호가 강할수록 무조건 좋은 것이 아니라 기존 backbone의 시각 문법을 얼마나 보존하느냐가 핵심임을 보여 준다. 이는 실무적으로 매우 중요하다. 많은 멀티모달 시스템은 새로운 조건 경로를 넣을 때 원 backbone의 범용성을 쉽게 훼손한다. SteerViT의 gate 초기화와 residual scaling은 이 위험을 줄이는 안정화 장치로 읽어야 한다. 다시 말해 gate는 단순 성능 개선 트릭이 아니라, foundation representation을 망가뜨리지 않고 조건부 적응을 누적시키는 인터페이스 설계다. 앞으로 오디오-비전, 로봇 지시 조건, 의료 텍스트 조건 등 다른 modality 결합에서도 비슷한 설계 철학이 반복될 가능성이 높다.

projector와 FFN ablation도 설계 교훈을 준다. linear projector보다 MLP projector가 낫다는 것은 모달리티 사이 정렬에 비선형 보정이 필요하다는 뜻이지만, cross-attention 뒤에 큰 FFN을 더 붙였을 때 오히려 성능과 효율이 나빠지는 결과는 또 다른 메시지를 준다. 즉, 텍스트를 비전 표현으로 번역하는 접점에는 약간의 유연성이 필요하지만, 번역된 신호를 과도하게 재가공하는 깊은 멀티모달 블록은 오히려 원 backbone의 강점을 덮어쓸 수 있다는 것이다. 이는 아주 실용적인 조언으로 바꿀 수 있다. 강한 사전학습 표현 위에 조건 모듈을 얹을 때는 ‘가벼운 but expressive alignment + 보수적 residual intervention’ 조합이 종종 가장 낫다. 거대한 멀티모달 adapter를 덕지덕지 붙이는 것이 항상 좋은 해법은 아니라는 뜻이다.

supervision ablation이 보여 주는 함의도 크다. segmentation supervision이 pointing supervision보다 압도적으로 낫다는 결과는, 표현 조향을 배우려면 모델이 단일 좌표가 아니라 객체의 범위, 경계, 부분-전체 일관성을 알아야 한다는 뜻이다. 이는 future work의 방향까지 암시한다. 예를 들어 관계 기반 프롬프트나 복합 조건을 다루려면, 단일 박스나 포인트가 아니라 더 구조적인 supervision이 필요할 가능성이 높다. “컵 옆의 숟가락”, “결함이 아닌 얼룩은 제외”, “왼쪽 개의 목줄만” 같은 질의를 제대로 feature space에 반영하려면, 객체 자체뿐 아니라 객체 간 관계와 제외 조건까지 영역 수준으로 가르치는 데이터가 필요하다. 그런 의미에서 SteerViT의 segmentation objective는 현재 성능을 설명하는 동시에, 다음 단계 연구가 어떤 형태의 annotation을 필요로 할지도 가리킨다.

조건부 표현의 응용 시나리오는 생각보다 넓다. 가장 직접적인 곳은 물론 멀티모달 검색이다. 예를 들어 전자상거래에서는 “흰색 운동화 중 뒤꿈치 로고가 검은 제품”, “손잡이가 나무 재질인 머그컵”, “유광이 아니라 무광 마감의 책상”처럼 텍스트가 세부 속성을 지정하는 경우가 많다. 기존 이미지 임베딩은 전체 상품 카테고리나 스타일을 잘 잡더라도 작은 속성 차이를 놓치기 쉽다. SteerViT류 조건부 표현은 사용자가 적어 준 설명에 따라 이미지 특징을 재산출해, 같은 카테고리 내부에서도 다른 정렬 기준을 만들 수 있다. 개인 사진 관리에서도 “빨간 우산 든 사람”, “창가 근처에 놓인 노란 가방”, “강아지 얼굴보다 목줄을 잘 보이게” 같은 질의가 가능해진다. 로보틱스에서는 ‘집게로 잡아야 할 부분’, ‘치워야 할 작은 장애물’, ‘주의해서 피해 갈 유리컵’처럼 과업 조건이 바뀔 때 같은 장면에 대해 서로 다른 표현이 필요하다. 의료 영상에서는 ‘결절처럼 보이는 부분’, ‘정상 조직과 다른 경계’, ‘혈관보다 병변 후보를 우선’ 같은 프롬프트가 초기 탐색 신호가 될 수 있다. 산업 검사에서는 정상 제품 전체를 보지 말고 ‘찌그러짐’, ‘스크래치’, ‘오염’처럼 특정 결함 형태를 우선시하는 탐색이 가능하다. 핵심은 모두 같다. 이미지 하나에 대해 하나의 영구 임베딩만 저장하는 사고에서 벗어나, 의도에 따라 여러 임베딩을 생성하는 사고로 넘어간다는 점이다.

물론 제약도 분명하다. 첫째, 조건부 표현은 프롬프트가 부정확하면 엉뚱한 방향으로도 쉽게 조향될 수 있다. SteerViT의 성능이 detailed prompt에서 크게 오르는 반면 coarse prompt에서는 이득이 제한된다는 사실은, 시스템 상위단에서 얼마나 좋은 질의를 만들 수 있는지가 전체 품질을 좌우함을 뜻한다. 둘째, 프롬프트마다 이미지 표현이 달라지므로 대규모 서비스에서 캐싱 전략이 복잡해진다. image-only embedding은 한 번 계산해 저장하면 되지만, condition-aware embedding은 인기 프롬프트 사전 계산, 프롬프트 군집별 공유 표현, gate scaling 기반 저비용 근사 등 새로운 운영 기법이 필요하다. 셋째, 복합 질의와 부정 조건은 아직 열려 있는 문제다. “컵은 보되 그림자는 무시”, “왼쪽 새의 눈만 비교”, “결함처럼 보이지만 반사는 제외” 같은 질의는 현재 단일 referring expression보다 훨씬 어렵다. 넷째, 도메인 전문 용어의 길고 정교한 설명을 RoBERTa-Large 기반 텍스트 인코더가 얼마나 안정적으로 소화하는지도 추가 검증이 필요하다. 따라서 SteerViT는 즉시 모든 실서비스를 대체하는 완제품이라기보다, 조건부 표현 엔진을 구축하기 위한 매우 유망한 기반 설계로 보는 것이 적절하다.

그럼에도 이 논문의 가치가 큰 이유는, retrieval·segmentation·personalization·anomaly를 따로 놀던 문제로 두지 않고 하나의 표현 관점으로 엮어 냈기 때문이다. 기존에는 검색은 검색 모델, 세그멘테이션은 세그멘테이션 모델, 이상 탐지는 전용 anomaly model이 해결해야 하는 별도 과제처럼 다뤄졌다. SteerViT는 그 사이에 공통 원리가 있다는 사실을 보여 준다. 즉 사용자가 무엇을 보고 싶은지, 어떤 수준의 세밀함이 필요한지, 어디를 예외로 취급할지를 자연어로 지정하면, 같은 backbone도 전혀 다른 작업 초점을 갖는 표현으로 변할 수 있다는 것이다. 이 해석이 맞다면 미래의 비전 시스템은 더 이상 단일 고정 표현을 여러 헤드가 소비하는 구조에만 머물지 않을 수 있다. 대신 조건에 따라 먼저 표현을 바꾸고, 그 다음 다운스트림 모듈이 그 표현을 읽는 구조가 더 일반적이 될 가능성이 있다. 그런 점에서 SteerViT는 성능표 이상의 의미를 지닌다. 이 논문은 사용자의 의도를 비전 모델의 입력 끝단이 아니라, 표현 형성 과정의 중간에 끼워 넣는 방법을 꽤 설득력 있게 보여 주었다.

추가로 실전 설계 관점에서 기억할 점은, 조건부 표현이 항상 ‘정확도 향상’만을 의미하지 않는다는 사실이다. 많은 운영 환경에서는 사용자가 왜 그런 결과를 받았는지 설명 가능해야 하고, 필요하면 조건의 강도를 조절할 수 있어야 한다. SteerViT의 gate scaling은 이런 요구와 꽤 잘 맞는다. 예를 들어 사진 검색 서비스에서 기본 추천은 약한 gate로 장면 전체 맥락을 유지하고, 사용자가 “아니, 나는 배경 말고 컵의 손잡이 모양을 기준으로 찾고 싶다”처럼 더 구체적인 질의를 던질 때 gate를 높여 표현의 초점을 재조정하는 식이다. 산업 검사에서도 초기 탐색 단계에서는 넓은 맥락을 유지한 채 오탐을 줄이고, 엔지니어가 특정 결함 유형을 지정하는 순간 더 공격적으로 국소 패턴을 강조하는 방식이 가능하다. 이런 연속적 제어 가능성은 단순히 성능 숫자 하나보다 더 실용적인 자산일 수 있다. 왜냐하면 현실 시스템은 하나의 고정 operating point보다, 상황에 따라 보수적 모드와 민감한 모드를 오갈 수 있는 표현을 더 자주 필요로 하기 때문이다.

결국 SteerViT를 가장 잘 요약하는 문장은 ‘텍스트를 읽는 비전 모델’이 아니라 ‘텍스트를 기준으로 시각 세계를 다시 조직하는 비전 모델’이라는 표현일 것이다. 이 차이는 작아 보이지만 실제로는 크다. 전자는 시각 입력 위에 언어 해석을 덧붙이는 사고이고, 후자는 언어를 통해 시각 표현의 형성 규칙 자체를 바꾸는 사고다. 논문의 데이터셋 해석, retrieval과 segmentation의 연결, personalization과 anomaly의 접점, 그리고 gate·projector·supervision에 관한 ablation은 모두 이 한 방향을 가리킨다. 즉, 좋은 조건부 표현은 새로운 헤드를 많이 다는 데서 오기보다 백본이 무엇을 중요한 것으로 간주할지 안전하게 재편하는 데서 온다. 그래서 이 논문은 개별 벤치마크 결과를 넘어, 앞으로 멀티모달 표현 학습이 어떤 설계 질문을 던져야 하는지 꽤 명료한 기준점을 남긴다.

10. 요약 정리

마지막으로 이 논문의 핵심만 압축하면, SteerViT는 좋은 비전 backbone의 일반성은 최대한 지키면서도 사용자의 자연어 의도를 representation 내부로 끌어들인 모델이다. 아래 bullet은 본문 전체에서 반복적으로 확인된 포인트를 블로그용으로 다시 묶은 것이다.

  • 문제 정의가 명확하다. 기존 ViT는 강한 feature를 제공하지만 query-agnostic하고, CLIP류 late fusion은 텍스트를 보더라도 이미지 표현 자체를 충분히 바꾸지 못한다. SteerViT는 바로 이 틈, 즉 강한 표현 품질과 높은 조향성의 동시 달성을 겨냥한다.
  • 핵심 설계는 early fusion이다. frozen ViT 내부 residual stream에 텍스트 토큰 기반 cross-attention을 넣어 같은 이미지라도 프롬프트에 따라 조건부 표현 f_v(X|T)이 달라지게 만든다. 이 때문에 SteerViT는 단순한 후처리형 멀티모달 랭커가 아니라 인코더 자체가 달라지는 모델로 읽어야 한다.
  • gate 초기화가 성패를 가른다. 각 레이어의 gate를 0으로 두면 학습 시작 시 모델은 사실상 원래 DINOv2처럼 동작하고, 학습이 진행되며 필요한 만큼만 텍스트 경로가 열린다. 이 장치 덕분에 조향성을 얻으면서도 FG-CLS 같은 일반 feature 품질의 손실을 제한할 수 있다.
  • referential segmentation은 단순한 구현 선택이 아니다. 이 objective는 위치만이 아니라 객체 범위, 경계, 부분-전체 관계까지 학습하게 해 준다. 그래서 SteerViT는 “어디를 볼까”를 넘어서 “무엇을 하나의 의미 단위로 묶을까”까지 프롬프트에 따라 바꾸며, 그 결과 retrieval·localization·personalization이 한 축으로 연결된다.
  • 대표 성능은 매우 설득력 있다. CORE에서 96.0 Acc@1을 기록해 DINOv2 43.7을 크게 넘고, MOSAIC에서는 50.2 PR-AUC로 attention steering을 직접 보여 준다. 즉 텍스트가 결과 해석 문구만 바꾸는 것이 아니라, 실제로 모델이 보는 위치와 특징 공간의 기준점을 바꾸고 있음을 확인할 수 있다.
  • trade-off 관리도 괜찮다. SteerViT는 조향성을 크게 올리면서도 FG-CLS를 89.0에서 87.7 수준으로만 낮춘다. 완벽한 보존은 아니지만, conditional retrieval과 personalized discrimination의 이득을 생각하면 실용적으로 납득 가능한 교환비를 보여 준다.
  • 텍스트의 구체성이 곧 표현의 해상도다. PODS에서 coarse prompt보다 detailed prompt에서 훨씬 좋은 결과가 나오는 것은, SteerViT가 텍스트를 class tag처럼만 쓰지 않고 속성·부분·질감 정보를 feature geometry 재편의 신호로 사용함을 의미한다. 이 점은 개인화 검색과 세밀한 분별 과제에서 특히 중요하다.
  • 응용 범위가 넓다. 논문은 conditional retrieval, object-of-interest segmentation, personalized discrimination, industrial anomaly segmentation까지 하나의 표현으로 연결해 보인다. 이는 SteerViT가 특정 벤치마크 특화 트릭이 아니라, 과업 초점을 바꾸는 범용 조건부 인코더일 가능성을 보여 준다.
  • 한계도 분명하다. 강한 backbone이 필요하고, 프롬프트 품질에 민감하며, synthetic benchmark 비중이 있고, 운영 환경에서는 프롬프트별 특징 캐싱 같은 새로운 시스템 설계가 요구될 수 있다. 따라서 SteerViT는 만능 해법이라기보다, 좋은 비전 모델을 더 의도 친화적으로 만드는 유망한 확장으로 보는 편이 정확하다.
  • 논문의 방향은 분명하다. 이 논문은 “좋은 표현은 하나의 고정 벡터여야 한다”는 전제를 흔들고, 같은 이미지를 두고도 사용자의 의도에 따라 다른 특징을 뽑는 conditioned perception이 가능함을 보여 준다. 그래서 SteerViT의 진짜 공헌은 점수표를 넘어, image-only representation을 image-plus-intent representation으로 바꾸는 설계 원리를 제시했다는 데 있다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.