[논문 리뷰]/[최신 논문] / [arXiv 2605.15019] GranuRAG: 장면 검색을 시각 요소 증거 검색으로 쪼개는 멀티모달 RAG.md

[arXiv 2605.15019] GranuRAG: 장면 검색을 시각 요소 증거 검색으로 쪼개는 멀티모달 RAG

2026. 5. 19. 14:33 조회

From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

Guanhua Chen, Chuyue Huang, Yutong Yao, Shudong Liu, Xueqing Song, Lidia S. Chao, Derek F. Wong | NLP2CT Lab, Department of Computer and Information Science, University of Macau | arXiv:2605.15019 | 2026년 5월

멀티모달 RAG는 이미지나 문서 페이지를 검색해 답변을 생성한다는 점에서 언어 RAG보다 더 설득력 있어 보인다. 그러나 실제 사용 장면에서는 검색된 이미지 한 장이 답변의 어느 문장을 지지하는지 설명하기가 어렵다. 사용자가 “이 건물 사진에서 보이는 바로크 양식 장식은 무엇인가”라고 묻는다면, 전체 랜드마크 설명을 가져오는 것만으로는 부족하다. 답변은 이미지 안에 실제로 보이는 창, 문장, 페디먼트, 종탑 같은 시각 요소와 연결되어야 하고, 보이지 않는 요소를 지식베이스에서 끌어와 말하면 환각이 된다.

이 논문은 그 병목을 attribution gap으로 정의한다. 기존 멀티모달 RAG는 장면, 이미지, 페이지 같은 큰 단위를 검색하지만, 사용자의 질문은 종종 이미지 내부의 작은 요소 단위에서 정답 근거를 요구한다. GranuRAG는 검색 단위를 장면 전체에서 요소 단위로 낮추고, 검출된 region과 구조화된 요소 설명을 맞춘 뒤, 그 결과로 확인된 요소 집합만 생성기에 넘긴다. 핵심은 더 큰 모델에게 “잘 봐 달라”고 맡기는 수준을 넘어, 모델이 봤다고 주장할 수 있는 증거 경계를 먼저 세우는 방식이다.

논문은 이를 위해 GranuVistaVQA라는 벤치마크도 함께 만든다. 71개 마카오 건축 유산 랜드마크, 1,422장 이미지, 221개 고유 요소, 랜드마크당 평균 20.03장 이미지를 모아, 실제 사진이 한 랜드마크의 전체 요소 중 일부만 보여 주는 partial observation challenge를 평가한다. 실험에서는 Qwen3-VL-8B, Qwen-VL-Max, GPT-4.1-Mini, GPT-4o, Claude-3.5-Sonnet 계열에서 GranuRAG가 baseline과 CoT보다 일관되게 높은 LLM 평가 점수와 attribution 지표를 보인다.

1. 서론: coarse image retrieval이 만든 attribution gap

RAG의 원래 장점은 답변을 외부 evidence에 묶어 hallucination을 줄인다는 데 있다. 텍스트 문서에서는 이 설계가 비교적 자연스럽다. 문단이나 문장 단위로 retrieval을 하고, 생성된 답변이 어느 문장에 기대는지 추적할 수 있기 때문이다. 반면 멀티모달 RAG에서는 evidence 단위가 훨씬 더 거칠어지기 쉽다. 이미지 한 장, 문서 페이지 한 장, 웹 장면 하나를 통째로 검색하면, 생성기는 그 안에서 어떤 영역을 근거로 삼았는지 명시하지 않은 채 답을 만든다.

이 논문이 겨냥하는 문제는 바로 그 불투명성이다. 이미지 전체가 관련 있어 보인다고 해서, 이미지 안의 모든 정보가 현재 질문에 보이는 것은 아니다. 관광객이 찍은 랜드마크 사진은 각도와 거리 때문에 일부 창문, 일부 장식, 일부 문장만 포함한다. 지식베이스에는 랜드마크 전체의 설명이 들어 있지만, 그중 현재 사진에서 보이는 요소만 답변에 사용해야 한다. 전체 설명을 그대로 가져오면 풍부해 보이는 문장은 만들 수 있어도, 실제 이미지 근거와의 정합성은 약해진다.

GranuRAG의 출발점은 visual element를 first-class retrieval target으로 다루자는 주장이다. 여기서 요소는 단순 객체명보다 조금 더 넓다. 건물의 twin towers, windows, pediment, Christian emblem처럼 문화유산 설명에서 의미가 있는 구조 단위이며, 각 요소에는 외형 설명과 지식 문단이 붙는다. 시스템은 먼저 이미지에서 후보 region을 찾고, 각 region이 어떤 요소와 맞는지 확인한 뒤, 확인된 요소의 설명만 생성 단계에 제공한다.

이 설계는 기존 위키에서 다룬 Evidence Utility in RAG와 직접 이어진다. CUE-R이나 MASS-RAG 계열 논문이 retrieval 이후 evidence가 실제로 어떤 일을 했는지 묻는다면, GranuRAG는 그 질문을 멀티모달 입력의 내부 구조로 더 내려보낸다. 단순히 검색 문서가 유용했는가를 묻는 데서 멈추지 않고, 이미지 내부의 어느 요소가 유효 evidence였는가를 묻는다. 또한 최근 MemEye가 caption으로 대체되지 않는 시각 증거를 평가했다면, GranuRAG는 그런 시각 증거를 답변 생성 전에 선택·정렬하는 retrieval framework로 읽을 수 있다.

Figure 1: GranuVistaVQA의 panoramic view 예시. 한 랜드마크를 멀리서 넓게 촬영한 장면이 전체 구조를 제공하지만, 세부 요소는 일부만 식별된다.

Figure 1은 GranuVistaVQA가 다루는 partial observation 문제를 직관적으로 보여 준다. panoramic view는 건물의 전체 윤곽과 좌우 대칭 구조를 잡는 데 유리하지만, 특정 조각·문장·창문 장식처럼 답변에 필요한 세부 요소는 작게 보인다. 따라서 전체 이미지 검색만으로는 어느 요소가 실제로 보였는지 분리하기 어렵고, region detection과 element matching이 별도 단계로 필요해진다.

논문의 기여는 세 가지로 압축된다. 첫째, 멀티모달 RAG의 evidence 단위를 장면 전체에서 element-level evidence로 낮춘다. 둘째, 이 문제를 평가하기 위해 실제 관광 사진에서 발생하는 viewpoint 다양성과 partial visibility를 반영한 GranuVistaVQA를 구축한다. 셋째, detector, MLLM matching, multi-granularity retrieval, attribution-constrained generation을 조합한 GranuRAG를 제안하고, 여러 MLLM 백본에서 성능·인간평가·attribution 지표 개선을 확인한다.

문제 정의: 이미지나 scene 단위 retrieval은 질문이 요구하는 세부 visual element와 답변 문장 사이의 attribution을 흐리게 만든다.
데이터셋: 71개 랜드마크, 1,422장 이미지, 221개 고유 요소를 통해 부분 관측과 다중 viewpoint를 평가한다.
방법: YOLO-World 기반 region detection, MLLM element matching, 요소별 evidence retrieval, attribution-constrained generation을 연결한다.
검증: baseline, CoT, 기존 RAG 전략, detector 교체, threshold 민감도, OOD 일반화, human evaluation을 함께 비교한다.

2. 배경 및 관련 연구: 멀티모달 RAG의 증거 단위가 왜 흔들리는가

2.1 텍스트 RAG와 멀티모달 RAG의 단위 차이

텍스트 RAG에서 retrieval 단위는 보통 문서, 섹션, 문단, 문장으로 내려간다. 물론 여기서도 chunk boundary, query coverage, rank stability 같은 문제가 생긴다. 하지만 retrieved chunk 안에서 답변을 지지하는 문자열을 찾는 작업은 비교적 명확하다. 반면 이미지 기반 RAG에서는 “검색된 이미지가 관련 있다”는 사실과 “이미지 안의 특정 영역이 답변을 지지한다”는 사실 사이에 큰 간격이 있다. 이 간격이 커질수록 생성기는 사진에 보이지 않는 지식까지 자연스럽게 섞을 수 있다.

멀티모달 RAG의 최근 흐름은 더 강한 dense retriever, 더 좋은 reranker, 더 큰 VLM generator로 이 간격을 줄이려 했다. 그러나 논문은 그런 접근이 대부분 implicit attention에 기대고 있다고 본다. 모델이 전체 이미지를 보고 관련 영역에 주의를 줄 것이라고 기대하지만, 실제로 어떤 영역이 검출됐고 어떤 요소와 매칭됐는지 명시적으로 남지 않는다. 그래서 답변이 맞았을 때도 왜 맞았는지, 틀렸을 때도 detection 실패인지 retrieval 실패인지 generation hallucination인지 나누기 어렵다.

이 논문은 retrieval 단위를 바꾸는 쪽을 택한다. 이미지 전체를 한 번에 검색하는 방식은 scene-level evidence에는 잘 맞지만, “pediment 아래 세 개의 못이 보이는가”, “중앙 창의 셔터가 어떤 형태인가” 같은 질문에는 너무 거칠다. 이런 질문은 object detection, region-level grounding, element description matching이 함께 필요하다. 특히 건축 유산 도메인은 각 요소가 문화적 의미와 시각적 외형을 동시에 갖기 때문에, 단순 class label보다 풍부한 요소 설명이 필요하다.

2.2 기존 벤치마크가 놓친 partial observation

논문은 REAL-MM-RAG, MMDocIR, M3DocRAG, MMLongBench-Doc, SPIQA 같은 관련 데이터셋과 비교한다. 이들 중 일부는 RAG를 다루고, 일부는 fine-grained alignment를 다루지만, multi-granularity, fine-grained alignment, partial entities, RAG 네 조건을 모두 만족하지는 못한다. GranuVistaVQA는 이 네 조건을 동시에 만족시키는 쪽으로 설계됐다.

Dataset	Multi-granularity	Fine-grained alignment	Partial entities	RAG
REAL-MM-RAG	아니요	예	아니요	예
MMDocIR	예	아니요	아니요	아니요
M3DocRAG	아니요	아니요	아니요	예
MMLongBench-Doc	아니요	아니요	아니요	아니요
SPIQA	아니요	예	아니요	아니요
GranuVistaVQA	예	예	예	예

이 비교에서 중요한 항목은 partial entities다. 실제 사진은 한 장소의 모든 요소를 담지 않는다. 정면 사진은 파사드와 중앙 장식을 잘 담지만, 측면 조각이나 내부 구조는 보이지 않을 수 있다. close-up은 장식 세부사항을 보여 주지만 전체 배치와 주변 맥락을 잃을 수 있다. 따라서 시스템은 랜드마크 지식 전체와 현재 사진의 visible subset을 구분해야 한다. 이 구분이 없으면 “알고 있는 요소”와 “보이는 요소”가 섞인다.

Figure 2: Close-up view 예시. 근거리 사진은 세부 장식을 크게 보여 주지만 전체 랜드마크의 다른 요소를 가린다.

Figure 2는 close-up view가 주는 양면성을 보여 준다. 가까운 사진은 조각, 창문 장식, 표면 질감처럼 element-level matching에 필요한 단서를 더 많이 제공한다. 동시에 전체 구조를 좁게 잘라내므로 후보 요소 집합 안의 다른 항목들은 보이지 않는다. 이런 입력에서는 detector가 작은 시각 단서를 잘라내는 능력과 matcher가 그 단서를 정확한 요소 설명에 붙이는 능력이 함께 필요하다. GranuRAG가 보이는 요소와 보이지 않는 요소를 분리해야 하는 이유가 이 장면에서 명확해진다.

이 배경은 기존 MASS-RAG와도 다르게 읽힌다. MASS-RAG는 retrieval된 텍스트 evidence를 summary, extraction, reasoning view로 나눠 후처리한다. GranuRAG는 그보다 앞단에서 image evidence 자체를 요소 단위로 쪼갠다. 즉 post-retrieval reasoning을 잘하는 문제와 retrieval target을 세밀하게 정의하는 문제가 서로 보완 관계에 있다. 멀티모달 RAG가 검증 가능해지려면 후처리 agent와 함께, 검색 전에 어떤 시각 단위를 evidence로 인정할지 정하는 layer가 필요하다.

3. 방법론: GranuVistaVQA와 GranuRAG의 요소 중심 설계

3.1 GranuVistaVQA: 랜드마크, 이미지, 요소, 설명의 네 묶음

GranuVistaVQA는 도시 건축 유산을 중심으로 구성된다. 논문은 이 도메인을 고른 이유를 세 가지로 설명한다. 첫째, 건축 요소는 columns, carvings, decorative motifs, towers, windows처럼 시각적으로 비교적 식별 가능한 의미 단위를 가진다. 둘째, 공식 문화유산 데이터베이스와 관광 포털에서 신뢰 가능한 설명을 확보할 수 있다. 셋째, 관광 사진은 자연스럽게 다양한 거리와 각도에서 촬영되므로 partial observation 문제가 잘 드러난다.

각 landmark는 metadata, element inventory, element description으로 구조화된다. metadata에는 이름, 요약, 건축 양식 같은 전체 맥락이 들어간다. element inventory $E=\{e_1,\ldots,e_k\}$에는 랜드마크에서 의미 있는 시각 요소가 들어간다. element description $ED:E\to Paragraphs$는 각 요소를 설명하는 전문가적 텍스트를 제공한다. 이미지 $I$마다 ground-truth visible set $E^{gt}(I)\subseteq E$가 붙으며, 평가 목표는 현재 이미지에서 실제로 보이는 요소만 근거로 설명을 생성하는 것이다.

Metric	Value	해석
#Landmark $L$	71	마카오 건축 유산 중심의 landmark 단위 평가
#Image $N$	1,422	랜드마크별 다중 viewpoint 사진 수집
Avg image / landmark	20.03	한 장소를 여러 거리·각도에서 관찰
#Unique elements $U_E$	221	시각적으로 의미 있는 요소 inventory
Avg elements / landmark	3.59	각 랜드마크 설명을 소수 핵심 요소로 구조화

이 통계는 데이터셋이 단순 이미지 설명 모음이 아님을 보여 준다. landmark 하나에 여러 사진이 있고, 각 사진은 전체 요소 inventory의 일부만 보여 준다. 그래서 모델은 landmark-level knowledge와 image-level evidence를 동시에 다뤄야 한다. 생성기가 랜드마크 전체 설명을 알고 있어도, 현재 이미지에서 보이지 않는 요소를 말하면 틀린 답이 된다. 이 점이 GranuVistaVQA를 일반 VQA보다 RAG 평가에 가깝게 만든다.

Figure 3: Partial view 예시. 사진이 전체 랜드마크의 일부만 잘라 담을 때 요소 가시성 판단이 핵심 평가 문제가 된다.

Figure 3은 partial view가 왜 hardest case인지 보여 준다. 사진은 랜드마크의 일부 구조와 장식만 포함하므로, 지식베이스에는 존재하지만 현재 화면에는 없는 요소가 많아진다. 이런 경우 생성기가 전체 설명을 그대로 요약하면 fluent하지만 grounded하지 않은 문장이 나온다. 따라서 GranuRAG는 이미지 안에서 실제로 확인된 요소 집합을 먼저 추정하고, 그 집합 바깥의 지식을 생성 단계에서 제한한다.

3.2 GranuRAG: detect, match, retrieve, generate

GranuRAG의 pipeline은 세 단계로 정리된다. 첫째, visual region detection and filtering 단계에서 open-vocabulary detector인 YOLO-World를 사용해 architectural primitives와 관련된 candidate region을 찾는다. 둘째, knowledge-guided element matching 단계에서 각 crop과 element appearance description을 MLLM이 비교해 해당 region이 어떤 요소와 맞는지 판정한다. 셋째, evidence-grounded generation 단계에서 global description과 선택된 element descriptions를 함께 사용하되, attribution boundary를 유지하도록 답변을 만든다.

첫 단계에서 중요한 세부사항은 overlap filtering이다. detector는 같은 장식을 여러 크기의 bounding box로 잡을 수 있다. 논문은 두 box가 80% 이상 겹치면 더 작은 box를 유지해 fine-grained detail을 보존한다. 이 결정은 큰 box가 전체 영역을 포괄하더라도, 실제 요소 식별에는 작은 조각이 더 유용할 수 있다는 판단에 기반한다. Appendix의 sensitivity analysis도 80% threshold가 주요 지표에서 가장 좋은 균형을 보였다고 보고한다.

두 번째 단계에서는 단순 object class label보다 appearance description이 중요하다. “window”라는 class만으로는 아치형 lintel, relief decoration, shuttered opening처럼 답변에 필요한 차이를 잡기 어렵다. GranuRAG는 crop과 후보 요소 설명을 함께 MLLM에 넣어 어떤 요소가 보이는지 결정한다. matching 결과가 없으면 $\varnothing$로 버리고, 최종 visible set $\hat{E}(I)=\{e_k\mid e_k\ne\varnothing\}$만 남긴다.

Figure 4: GranuRAG 전체 framework. 이미지에서 후보 region을 검출하고, 요소 설명과 매칭한 뒤, 확인된 요소별 evidence로 grounded generation을 수행한다.

Figure 4는 GranuRAG의 핵심을 가장 잘 요약한다. 시스템은 이미지 전체를 generator에 바로 맡기지 않고, region detection과 element matching을 거쳐 현재 사진에서 보이는 요소 집합을 만든다. 그 다음 요소별 설명과 global context를 조합해 답변을 만든다. 이 구조 덕분에 실패가 생겼을 때 detector 문제, element matching 문제, evidence selection 문제, generation 문제를 더 분리해서 볼 수 있다.

3.3 Attribution-constrained generation의 의미

생성 단계에서 GranuRAG가 하는 일은 단순 context pruning보다 좁고 강하다. full candidate set $E_{all}$을 넣으면 생성기는 보이지 않는 요소까지 설명할 수 있다. 반대로 선택된 $\hat{E}(I)$만 넣으면 답변이 현재 이미지의 관찰 결과에 더 묶인다. 논문은 이 차이를 attribution-constrained generation으로 본다. 답변은 랜드마크 전체 지식의 일반적 사실을 활용할 수 있지만, 특정 시각 요소를 설명할 때는 선택된 evidence 집합 안에 근거가 있어야 한다.

이 점은 실무형 멀티모달 RAG에서 특히 중요하다. 의료 이미지, 위성 사진, 문화재 사진, 제품 카탈로그 이미지처럼 한 장면 안에 많은 객체와 설명이 있는 경우, 답변의 품질은 관련 이미지를 찾는 데서 끝나지 않는다. 사용자가 실제로 물어본 부분과 답변 문장 사이의 연결고리를 남겨야 한다. GranuRAG는 그 연결고리를 region과 element description의 매칭 결과로 명시하려는 시도다.

3.4 데이터 구축과 품질 관리: 정답 요소를 만드는 일이 절반이다

GranuVistaVQA에서 가장 시간이 많이 드는 부분은 모델 구조보다 데이터 구조화에 가깝다. 논문은 authoritative descriptions에서 element phrase를 추출하고, 같은 의미를 가진 표현을 landmark 사이에서 정규화하며, LLM-assisted description generation 이후 사람 검수를 붙인다. 예를 들어 “bell tower”, “campanile”, “tower-like belfry”처럼 표면 표현은 달라도 시각적으로 같은 계열의 요소를 하나의 inventory 항목으로 묶어야 한다. 이 정규화가 없으면 detector와 matcher가 같은 구조를 서로 다른 후보로 나누어 보거나, 반대로 다른 구조를 하나로 합쳐 답변 근거를 흐릴 수 있다.

이 과정은 평가 데이터셋 설계의 중요한 전제를 드러낸다. 멀티모달 RAG에서 ground truth는 단순 정답 문장이 아니다. 어떤 요소가 이미지에 보였는지, 그 요소가 어떤 description과 연결되는지, 그 description이 생성 답변의 어느 문장을 지지하는지가 함께 필요하다. GranuVistaVQA는 각 이미지의 $E^{gt}(I)$를 붙임으로써 detection과 retrieval을 따로 평가할 수 있는 길을 만든다. 기존 VQA처럼 최종 answer만 있으면 모델이 맞은 이유와 틀린 이유를 분해하기 어렵다.

이미지 수집도 단순히 많은 사진을 긁는 문제가 아니다. 논문은 panoramic, close-up, oblique partial view처럼 서로 다른 관찰 거리와 각도를 확보한다. 같은 랜드마크라도 정면 전체 사진과 장식 일부 사진은 다른 질문을 만든다. 정면 사진은 전체 구성과 대칭성을 묻는 데 유리하고, close-up은 세부 장식의 문양과 재료를 묻는 데 유리하다. partial view는 보이지 않는 요소를 말하지 않는 능력을 평가한다. 따라서 데이터 구성은 모델이 풍부하게 설명하도록 유도하는 동시에, 보이지 않는 정보를 과잉 생성하지 못하게 만드는 균형을 요구한다.

품질 관리에서는 개인정보와 이미지 결함도 제거된다. 논문은 watermark, visible human faces, personally identifiable information을 제거하고, 해상도 512px 이상과 artifact 없는 이미지를 유지한다고 설명한다. 이 기준은 단순 미관 문제가 아니다. 워터마크나 사람 얼굴은 모델이 잘못된 attention을 주거나, 문화유산 설명과 관계없는 단서를 답변에 섞는 원인이 된다. 낮은 해상도 이미지는 element-level matching에서 crop 품질을 떨어뜨려 detector와 matcher의 오류를 모두 증가시킬 수 있다.

이런 데이터 설계는 실제 서비스 운영에도 그대로 이어진다. 제품형 멀티모달 RAG를 만들 때도 먼저 domain ontology, element inventory, description normalization, image quality gate가 필요하다. 좋은 retriever와 generator를 붙이기 전에, 무엇을 evidence 단위로 인정할지 정하지 않으면 답변 검증이 어려워진다. GranuRAG의 가장 실무적인 교훈은 pipeline 성능의 절반이 모델 호출 전에 만들어지는 지식 구조와 annotation schema에서 결정된다는 점이다.

4. 실험 설정: 벤치마크, 모델, 베이스라인

4.1 데이터셋 및 평가 지표

실험은 GranuVistaVQA에서 진행된다. 입력은 query image와 해당 landmark의 candidate element set이며, 출력은 현재 이미지에 실제로 보이는 건축 요소를 중심으로 한 설명이다. 평가는 ROUGE-L, BERT-F1, LLM-as-a-judge score를 함께 사용한다. ROUGE-L은 reference와의 lexical overlap을 보고, BERT-F1은 의미적 유사성을 더 넓게 반영하며, LLM score는 답변의 내용 충실도와 groundedness를 더 직접적으로 평가하는 역할을 한다.

논문은 자동 지표만으로 충분하지 않다고 보고 human evaluation도 수행한다. GPT-4o와 Qwen-VL-Max에 대해 각각 20개 질문을 샘플링해 총 40개 pairwise comparison을 만들고, 컴퓨터과학 전공 대학원생 3명이 relevant scenic elements의 coverage, factual detail accuracy, fluency, tourist guidance로서의 acceptability를 기준으로 더 나은 답을 고른다. Fleiss’ Kappa는 $\kappa=0.712$로 보고되어, 세 평가자 사이에 substantial agreement가 있었다고 설명한다.

4.2 구현 세부사항

generator backbone은 Qwen3-VL-8B, Qwen-VL-Max, GPT-4o, GPT-4.1-Mini, Claude-3.5-Sonnet이 포함된다. element detector는 YOLO-World-XL을 사용하며 fixed confidence threshold를 둔다. detector output은 overlap filtering을 거쳐 crop 후보로 정리되고, MLLM이 crop과 요소 appearance description을 비교해 visible set을 추정한다. 논문은 Qwen3-VL-8B를 대상으로 fine-tuning variant도 실험하며, pipeline reasoning trace가 직접 fine-tuning이나 self-generated CoT보다 더 좋은 supervision signal이 될 수 있음을 보인다.

중요한 점은 GranuRAG가 특정 모델 하나에만 묶인 방법으로 제시되지 않는다는 것이다. 같은 pipeline을 여러 generator에 적용하고, model capacity와 별개로 element-level grounding의 효과를 비교한다. 이 배치는 “큰 모델이 알아서 관련 요소를 찾는다”는 가설과 “검출·매칭으로 evidence를 먼저 좁히는 것이 유리하다”는 가설을 비교하는 실험 설계에 가깝다.

4.3 베이스라인

주요 비교는 세 설정으로 나뉜다. Setting A는 baseline으로, generator가 query image와 noisy full candidate set $E_{all}$을 본다. Setting B는 같은 정보에 CoT prompting을 더해 구조화된 reasoning을 유도한다. Setting C는 GranuRAG로, detector와 matching을 통해 얻은 grounded subset $\hat{E}(I)$를 사용한다. 따라서 A와 C의 차이는 모델이 스스로 후보를 걸러내는가, 아니면 pipeline이 visible evidence를 먼저 걸러 주는가에 있다.

추가 비교로 Embedding Retrieval, RAVQA(PreFLMR), VisRAG도 포함된다. 이들은 이미지나 region과 텍스트 evidence를 연결하는 다른 RAG 전략을 대표한다. 또한 detector ablation에서는 LLM-only extraction, Grounding DINO, YOLO-World를 비교한다. 이런 설정 덕분에 GranuRAG의 성능 향상이 단순히 더 많은 context를 넣어서 생긴 결과인지, element detection과 semantic matching이 실제로 기여한 결과인지 분리해서 읽을 수 있다.

Figure 5: GranuVistaVQA에서 여러 MLLM을 평가한 결과. baseline, CoT, GranuRAG 설정 간 성능 차이를 모델별로 비교한다.

Figure 5는 GranuRAG가 특정 백본 하나의 우연한 이득에 머물지 않는다는 점을 보여 준다. 여러 모델에서 Setting C가 baseline과 CoT보다 높은 성능을 보이며, 특히 noisy full candidate set을 모델에게 그대로 맡기는 방식의 한계가 드러난다. CoT prompting은 일부 개선을 만들지만, 보이는 요소를 먼저 좁힌 evidence subset만큼 안정적으로 지표를 끌어올리지는 못한다.

4.4 지표 해석: overlap metric과 groundedness metric을 같이 봐야 한다

ROUGE-L과 BERT-F1은 reference text와의 유사성을 보여 주지만, 멀티모달 RAG의 핵심인 “보이는 요소만 말했는가”를 충분히 설명하지 못한다. 어떤 답변은 reference와 단어가 많이 겹치지만 이미지에 없는 요소를 함께 말할 수 있고, 반대로 실제 이미지에 충실한 답변이 reference 표현과 다른 어휘를 써서 낮은 overlap을 받을 수 있다. 그래서 논문이 LLM-as-a-judge와 attribution metric을 함께 둔 점이 중요하다. 이 조합은 답변 품질과 evidence consistency를 동시에 읽기 위한 최소 장치에 가깝다.

Attribution Precision은 모델이 근거로 든 claim 중 실제 evidence로 지지되는 비율을 본다. Attribution Recall은 참조해야 할 evidence를 얼마나 빠짐없이 반영했는지에 가깝다. Unsupported Claim Rate는 지식베이스나 이미지 근거 없이 답변에 끼어든 주장 비율을 낮추려는 지표다. GranuRAG가 AP와 AR을 높이고 UCR을 낮춘다는 결과는, 단순히 더 예쁜 설명을 만든 효과를 넘어 답변의 근거 연결이 개선됐다는 해석을 가능하게 한다.

이 지표 묶음은 query coverage 개념과도 맞닿아 있다. 텍스트 검색에서는 질문의 엔티티와 조건을 retrieved context가 얼마나 채웠는지 본다. GranuRAG에서는 그 coverage가 이미지 내부 요소로 내려간다. 질문이 요구하는 visual element가 $\hat{E}(I)$ 안에 들어왔는지, 들어온 요소 설명이 답변에 반영됐는지, 반대로 $\hat{E}(I)$ 바깥 요소가 답변에 섞이지 않았는지가 함께 중요하다. 따라서 retrieval metric과 generation metric은 독립된 숫자로 분리해 보기보다 하나의 evidence chain을 따라 읽어야 한다.

Fine-tuned Qwen3-VL-8B 결과도 이 관점에서 흥미롭다. 논문은 pipeline reasoning trace로 fine-tuned한 모델이 direct fine-tuning이나 self-generated CoT보다 좋은 성능을 낸다고 설명한다. 이는 training signal이 단순 정답 문장보다, 어떤 요소를 감지하고 어떤 evidence를 선택했는지까지 포함할 때 더 유용하다는 뜻이다. 모델이 답변 문장을 외우는 대신, 답변을 만들기 전 evidence boundary를 좁히는 절차를 배운다는 해석이 가능하다.

다만 LLM-as-a-judge와 attribution metric 역시 완전한 해답은 아니다. Judge model이 건축 지식과 이미지 근거를 얼마나 정확히 판정하는지, unsupported claim을 어디까지 엄격하게 볼지에 따라 결과가 달라질 수 있다. 그래서 논문의 human evaluation이 보조 근거로 들어간다. 자동 지표가 일관된 경향을 보이고, 사람이 coverage와 factual detail 측면에서 같은 방향의 선호를 보일 때, GranuRAG의 개선이 metric artifact일 가능성이 줄어든다.

5. 주요 실험 결과: element-level grounding이 만드는 성능 차이

5.1 여러 MLLM에서 GranuRAG가 baseline과 CoT를 앞선다

Table 3의 main result는 논문의 가장 직접적인 claim을 뒷받침한다. Qwen3-VL-8B는 baseline LLM score 52.90에서 CoT 61.17로 올라가지만, GranuRAG는 65.00까지 올라간다. fine-tuned Qwen3-VL-8B는 GranuRAG에서 70.24를 기록한다. Qwen-VL-Max는 baseline 54.70, CoT 74.10, GranuRAG 83.90으로 차이가 더 크다. GPT-4.1-Mini와 GPT-4o도 GranuRAG가 각각 75.10, 75.40으로 CoT보다 높다. Claude-3.5-Sonnet은 ROUGE-L에서는 CoT가 약간 높지만, LLM score에서는 GranuRAG가 80.20으로 가장 높다.

Model / Setting	ROUGE-L	BERT-F1	LLM score
Qwen3-VL-8B (A) Baseline	10.88	40.04	52.90
Qwen3-VL-8B (B) CoT	12.23	44.46	61.17
Qwen3-VL-8B (C) GranuRAG	18.82	46.49	65.00
Qwen3-VL-8B† (A)	28.61	45.38	56.90
Qwen3-VL-8B† (B)	31.96	46.05	63.20
Qwen3-VL-8B† (C)	35.74	46.96	70.24
Qwen-VL-Max (A)	23.34	40.53	54.70
Qwen-VL-Max (B)	30.29	48.39	74.10
Qwen-VL-Max (C)	32.01	51.60	83.90
GPT-4.1-Mini (A/B/C)	18.81 / 19.55 / 22.72	40.94 / 42.79 / 44.04	56.30 / 68.90 / 75.10
GPT-4o (A/B/C)	12.83 / 18.41 / 19.16	39.95 / 42.09 / 43.43	52.70 / 63.97 / 75.40
Claude-3.5-Sonnet (A/B/C)	15.11 / 16.39 / 16.36	37.26 / 39.54 / 41.27	54.50 / 66.70 / 80.20

이 결과를 해석할 때는 CoT와 GranuRAG의 차이가 중요하다. CoT는 모델에게 더 구조적으로 생각하라고 요청하지만, 입력 evidence 자체는 여전히 noisy full candidate set이다. 따라서 reasoning trace가 좋아져도 보이지 않는 요소를 완전히 제거하기 어렵다. GranuRAG는 generation 전에 evidence subset을 바꾸므로, 모델이 reasoning을 시작하는 출발점 자체가 더 좁고 검증 가능해진다. 이 차이가 LLM score에서 특히 크게 나타난다.

5.2 요소 필터링이 이미지 입력의 노이즈를 줄인다

Ablation 결과는 element filtering의 효과를 더 분명하게 보여 준다. Text Only with gold elements는 ROUGE-L 32.05, BERT-F1 46.32, LLM score 72.10을 기록한다. Image + All $E_{all}$은 ROUGE-L 29.47, BERT-F1 45.57, LLM score 68.50으로 오히려 낮다. 이미지가 추가됐는데도 full candidate set이 noisy하면 모델이 더 혼란스러워질 수 있다는 뜻이다. Image + Chosen $\hat{E}(I)$는 BERT-F1 48.60, LLM score 74.60으로 가장 좋은 수준을 보인다.

Variant	ROUGE-L	BERT-F1	LLM score	해석
Text Only (Gold $E_{gold}$)	32.05	46.32	72.10	oracle 요소가 주어지면 텍스트만으로도 강한 상한선을 제공
Image + All $E_{all}$	29.47	45.57	68.50	이미지와 전체 후보를 함께 넣으면 관련 없는 요소가 generation을 방해
Image + Chosen $\hat{E}(I)$	31.01	48.60	74.60	보이는 요소 subset이 멀티모달 통합의 노이즈를 줄임

이 ablation은 “이미지를 더 넣으면 항상 좋아진다”는 직관을 깨뜨린다. 이미지 자체보다 중요한 것은 어떤 지식과 연결하느냐다. full candidate set이 들어오면 생성기는 이미지에서 실제로 보이지 않는 요소 설명까지 참고할 수 있다. 반면 $\hat{E}(I)$는 detector와 matcher를 거친 subset이므로, 생성기의 탐색 공간을 실제 시각 증거에 더 가깝게 제한한다. 멀티모달 RAG에서 retrieval quality는 이미지 검색 점수만으로 설명되지 않고, 이미지 내부 요소와 텍스트 지식의 정렬 품질에 의해 결정된다.

Figure 6: Visual presentation과 element filtering ablation. Full candidate set과 grounded subset, raw image와 box-annotated image 설정을 비교한다.

Figure 6은 box annotation 자체보다 element filtering이 더 큰 축임을 보여 준다. T1과 T2는 full candidate set을 쓰기 때문에 visual presentation을 바꿔도 한계가 남는다. 반면 T3와 T4는 grounded subset을 사용해 irrelevant element noise를 줄인다. 특히 box-annotated image와 선택된 요소를 함께 쓰는 T4가 가장 좋은 LLM score를 보이며, 검출된 region을 사람이 읽을 수 있는 evidence 단위로 표시하는 효과를 시사한다.

5.3 Detector 선택과 detect-then-match paradigm

Detector ablation에서는 YOLO-World가 가장 좋지만, Grounding DINO도 baseline과 LLM-only보다 크게 앞선다. No detector (LLM-only)는 ROUGE-L 11.11, BERT-F1 38.13, LLM score 57.65에 머문다. Grounding DINO는 27.56, 41.83, 72.15로 올라가고, YOLO-World는 32.01, 51.60, 83.90으로 가장 높다. 이는 핵심이 특정 detector 이름에만 묶이지 않고, 먼저 region을 찾아 시각 evidence 후보를 만든 뒤 matching하는 구조에 있음을 보여 준다.

Detector / Variant	ROUGE-L	BERT-F1	LLM score
Baseline	23.34	40.53	54.70
No detector (LLM-only)	11.11	38.13	57.65
Grounding DINO	27.56	41.83	72.15
YOLO-World (Ours)	32.01	51.60	83.90

이 결과는 멀티모달 RAG에서 open-vocabulary detection이 어떤 역할을 하는지 잘 보여 준다. LLM에게 이미지와 후보 설명을 한꺼번에 주고 “관련 요소를 골라라”라고 맡기면, 모델은 전체 장면과 텍스트 후보 사이의 세밀한 매칭을 안정적으로 수행하지 못한다. Detector는 시각 장면을 작은 region 후보로 쪼개고, MLLM matching은 그 region을 요소 설명과 비교한다. 두 단계가 분리되기 때문에 오류 분석도 더 쉬워진다.

5.4 모델별 결과를 읽는 법: capacity보다 evidence boundary가 먼저다

모델별 결과에서 눈에 띄는 점은 GranuRAG의 이득이 약한 모델에서만 나타나지 않는다는 것이다. Qwen3-VL-8B처럼 상대적으로 작은 백본에서도 개선이 있고, Qwen-VL-Max나 GPT-4o처럼 강한 상용 모델에서도 개선이 유지된다. 이는 큰 모델이 이미지 안의 관련 요소를 자동으로 잘 찾는다는 가정에 제한이 있음을 보여 준다. capacity가 높아도 full candidate set이 noisy하면, 모델은 보이는 요소와 알고 있는 요소를 섞어 설명할 수 있다.

Qwen-VL-Max 결과는 특히 선명하다. Baseline에서 LLM score 54.70이었던 모델이 CoT로 74.10까지 올라가고, GranuRAG로 83.90까지 더 올라간다. CoT가 큰 개선을 만든다는 사실은 모델이 구조화된 reasoning을 활용할 수 있음을 뜻한다. 그러나 CoT만으로는 element selection 문제를 완전히 해결하지 못한다. GranuRAG의 추가 이득은 reasoning strategy보다 evidence construction이 별도 성능 축이라는 점을 보여 준다.

Claude-3.5-Sonnet의 ROUGE-L에서는 CoT가 16.39, GranuRAG가 16.36으로 거의 같거나 CoT가 약간 앞선다. 하지만 BERT-F1과 LLM score에서는 GranuRAG가 높다. 이 차이는 overlap 기반 metric과 의미·근거 기반 metric이 서로 다른 부분을 본다는 좋은 예다. CoT 답변은 reference와 비슷한 단어를 더 쓸 수 있지만, GranuRAG 답변은 보이는 요소 중심으로 더 근거 있는 문장을 만들 수 있다.

Fine-tuned Qwen3-VL-8B†는 ROUGE-L이 크게 올라간다. Baseline도 28.61로 zero-shot보다 높고, GranuRAG는 35.74까지 오른다. 이는 task-specific data가 lexical structure를 맞추는 데 강하게 작용한다는 뜻이다. 그러나 fine-tuning 이후에도 Setting C가 가장 높다는 점이 중요하다. 학습된 모델조차 full candidate noise를 완전히 무시하지 못하며, element-level evidence subset이 여전히 도움을 준다.

이 결과를 모델 선택 관점으로 보면, GranuRAG는 “어떤 VLM을 쓸 것인가”와 별개로 붙일 수 있는 evidence adapter에 가깝다. 더 강한 generator를 쓰면 absolute score는 올라갈 수 있지만, 그 generator에 들어가는 evidence를 정리하는 구조가 없으면 hallucination과 attribution gap은 남는다. 따라서 멀티모달 RAG 시스템의 개선은 generator 교체, retriever 개선, element grounding layer 추가라는 세 축으로 나누어 봐야 한다.

6. 추가 분석 및 Ablation Study: 노이즈 제거, 검출기, 일반화

6.1 기존 RAG 전략과의 비교

논문은 generator를 Qwen-VL-Max로 고정하고 다른 evidence construction 전략과 GranuRAG를 비교한다. global baseline은 전체 candidate set 설명을 generator에 제공한다. Embedding Retrieval은 CLIP 기반 dense retrieval로 detected region과 가장 비슷한 요소를 찾는다. RAVQA(PreFLMR)와 VisRAG는 기존 multimodal RAG 전략을 대표한다. 결과적으로 GranuRAG는 ROUGE-L 32.27, BERT-F1 52.19, LLM score 79.30으로 가장 높다. 특히 LLM score에서 Embedding Retrieval보다 15.85점 높다는 점이 강조된다.

Method	ROUGE-L	BERT-F1	LLM score	의미
Baseline	23.79	40.83	56.40	전체 후보 설명을 그대로 사용해 irrelevant element noise가 큼
Embedding Retrieval	29.47	45.57	63.45	CLIP similarity는 개선을 만들지만 fine-grained semantic matching 한계
RAVQA(PreFLMR)	21.27	42.60	69.24	retrieval model은 강하지만 이 task의 element attribution에는 부족
VisRAG	24.06	43.35	68.06	시각 RAG 전략이 element-level visible subset을 충분히 분리하지 못함
GranuRAG (Ours)	32.27	52.19	79.30	detector와 MLLM matching으로 세밀한 evidence를 구성

이 비교에서 핵심은 embedding similarity의 한계다. 이미지 crop과 텍스트 설명을 embedding 공간에서 맞추면 전체적으로 비슷한 요소를 찾을 수 있지만, 건축 요소처럼 시각적으로 비슷한 후보가 많고 설명이 길 때는 미세한 차이를 놓치기 쉽다. GranuRAG는 MLLM을 matching 단계에 사용해 crop의 관찰 특징과 요소 appearance description을 더 직접적으로 비교한다. 결과적으로 retrieval stage가 generator stage의 부담을 줄인다.

6.2 In-domain과 OOD 일반화

일반화 분석에서는 in-domain과 out-of-domain 데이터를 나눠 본다. in-domain sample은 training에 등장한 landmark의 다른 viewpoint이고, OOD sample은 training에서 보지 못한 landmark에 해당한다. 당연히 ID score가 OOD보다 높지만, 논문은 GranuRAG의 절대 개선폭이 OOD에서도 유지되거나 일부 metric에서는 더 크게 나타난다고 보고한다. 이는 pipeline이 특정 landmark 이름 암기에만 의존하지 않고, 요소 검출과 설명 매칭이라는 절차를 통해 unseen landmark에서도 어느 정도 작동한다는 근거다.

Figure 7: In-domain과 OOD 데이터에서 baseline, CoT, GranuRAG를 비교한 결과.

Figure 7은 GranuRAG의 이득이 training distribution 내부에만 갇히지 않는다는 점을 보여 준다. OOD landmark에서는 전체 점수가 낮아질 수 있지만, baseline과 CoT 대비 개선폭은 유지된다. 이는 요소 검출과 matching 절차가 특정 landmark 설명을 외운 효과만으로 작동하지 않는다는 해석을 가능하게 한다. 실무적으로는 새로운 장소나 제품군에 GranuRAG류 pipeline을 적용할 때, 요소 inventory와 description 품질이 확보되면 일정 수준의 전이가 가능함을 시사한다.

6.3 Error analysis와 human evaluation

논문은 두 가지 error analysis를 수행한다. 첫째, 두 방법이 모두 올바른 요소를 추출한 경우에도 GranuRAG의 답변 품질이 baseline보다 나은지 본다. Figure 6 계열 결과에서 GranuRAG는 GPT-4o 기준 94.4%, Qwen-VL-Max 기준 90.2%의 경우에서 더 좋은 답변을 만든다고 보고된다. 이는 요소 추출 성공 이후에도, 요소별 구조화 표현이 generation quality를 높인다는 뜻이다.

둘째, 한 방법만 correct element를 식별한 경우를 분석한다. GranuRAG가 baseline이 실패한 사례에서 성공하는 비율이 반대보다 훨씬 높으며, 이미지에 요소가 적을수록 차이가 더 크다. 요소 수가 많아지면 fine-grained reasoning 난도가 올라가면서 차이가 줄어든다. 이 결과는 GranuRAG의 장점과 한계를 동시에 보여 준다. element-level grounding은 sparse scene에서는 매우 강하지만, 복잡한 장면에서는 detector와 matching 단계가 더 많은 ambiguity를 떠안게 된다.

Figure 8: GPT-4o 기준 error analysis. GranuRAG와 baseline이 답변 품질 및 요소 추출에서 어느 쪽이 우세한지 비교한다.

Figure 8은 GranuRAG의 이득이 단순 metric 평균을 넘어 case-level win rate에서도 관찰된다는 점을 보여 준다. 특히 둘 다 correct elements를 잡은 경우에도 GranuRAG가 더 좋은 답변을 내는 비율이 높다. 이는 element subset 자체와 더불어, 요소를 중심으로 evidence를 재구성하는 prompt와 representation이 generation 단계에 긍정적 영향을 준다는 뜻이다.

Human evaluation 대상	GranuRAG win	Baseline win	해석
GPT-4o	82.22%	17.78%	인간 평가자가 coverage와 factual detail에서 GranuRAG를 더 선호
Qwen-VL-Max	91.11%	8.89%	강한 상용 VLM에서도 grounded subset이 답변 품질을 높임
평가자 일치도	$\kappa=0.712$	p < 0.001	세 평가자 사이에 substantial agreement

Human evaluation은 자동 지표의 해석을 보강한다. 관광 안내나 문화유산 설명에서는 단순히 reference와 비슷한 단어를 쓰는 것보다, 실제 사진에 보이는 요소를 빠짐없이 설명하고 사실을 정확히 유지하는 것이 중요하다. GranuRAG가 두 모델 모두에서 높은 win rate를 얻은 것은 element-level evidence가 사용자 체감 품질과도 연결됨을 보여 준다. 다만 human evaluation 규모는 40 pairwise comparison으로 크지 않으므로, 다른 도메인에서 같은 강도의 선호가 유지되는지는 별도 검증이 필요하다.

6.4 Attribution evaluation과 threshold 민감도

Attribution evaluation은 GranuRAG의 이름값을 확인하는 부분이다. 논문은 Attribution Precision(AP), Attribution Recall(AR), Unsupported Claim Rate(UCR)를 보고한다. 여러 모델에서 Setting C는 AP와 AR을 높이고 UCR을 낮춘다. 예를 들어 GPT-4o는 Setting C에서 AP 0.9865, AR 0.6620, UCR 0.6184로 보고된다. Qwen-VL-Max도 Setting C에서 AP 0.9730, AR 0.6194, UCR 0.5293을 보인다.

Model / Setting	AP ↑	AR ↑	UCR ↓
Qwen3-VL-8B (A)	0.6997	0.2244	0.9417
Qwen3-VL-8B (C)	0.9242	0.4467	0.6753
Qwen-VL-Max (A)	0.7675	0.3573	0.7779
Qwen-VL-Max (C)	0.9730	0.6194	0.5293
GPT-4.1-Mini (A)	0.6791	0.3339	0.8104
GPT-4.1-Mini (C)	0.9865	0.6144	0.6482
GPT-4o (A)	0.6990	0.3562	0.8490
GPT-4o (C)	0.9865	0.6620	0.6184

Threshold sensitivity에서는 overlap filtering 기준 80%가 가장 좋다. 70%는 LLM score 68.00, 75%는 75.35, 80%는 83.90, 85%는 79.30, 90%는 76.58, 100%는 65.20이다. 이 패턴은 box filtering이 너무 엄격하거나 너무 느슨해도 성능이 떨어진다는 뜻이다. 너무 낮은 threshold는 중복 box를 과하게 제거해 필요한 detail을 잃을 수 있고, 너무 높은 threshold는 redundant region이 많이 남아 matching noise를 키울 수 있다.

Overlap threshold	ROUGE-L	BERT-F1	LLM score
70%	23.69	39.35	68.00
75%	29.83	47.72	75.35
80%	32.01	51.60	83.90
85%	31.67	50.02	79.30
90%	29.84	48.69	76.58
100%	26.45	43.67	65.20

이 민감도 결과는 GranuRAG가 단순 prompt 방법을 넘어 실제 vision pipeline을 포함한다는 점을 다시 드러낸다. region 후보가 어떻게 만들어지는지가 이후 retrieval과 generation에 직접 영향을 준다. 따라서 운영 환경에서 GranuRAG류 시스템을 쓰려면 detector confidence, overlap filtering, crop size, element description 품질을 함께 tuning해야 한다. prompt만 바꿔서는 이 계층의 오류를 충분히 복구하기 어렵다.

6.5 Case study와 attention visualization: 무엇을 보게 만들었는가

논문 후반의 visualization은 GranuRAG가 답변을 바꾸는 동시에 모델의 시각 초점도 바꿀 수 있음을 보여 준다. 저자들은 Qwen3-VL-8B에 Base, CoT, GranuRAG 세 adapter를 fine-tune하고, 같은 sample에서 생성 token 전체의 attention을 평균해 pixel-level difference를 시각화한다. GranuRAG adapter에서 attention이 증가한 영역은 red marker로, 감소한 영역은 blue marker로 표시된다. 저자들은 red marker가 semantically relevant scenic elements에 더 집중한다고 설명한다.

Figure 9: GranuRAG fine-tuned adapter의 attention visualization 사례. 관련 시각 요소에 attention이 더 집중되는지를 보여 준다.

Figure 9는 GranuRAG가 단순히 텍스트 evidence를 줄이는 방법에 그치지 않고, fine-tuned model의 시각 focus에도 영향을 줄 수 있음을 보여 준다. 붉은 표식이 관련 건축 요소 주변에 모이면, 모델이 생성 중 어떤 시각 위치를 더 많이 참조했는지 해석할 수 있다. 물론 attention은 완전한 causal explanation이 아니지만, element-level supervision이 모델 내부의 관찰 패턴을 바꾸는지 확인하는 보조 신호로는 유용하다.

Case study에서도 같은 메시지가 반복된다. baseline은 church facade의 폭, pediment, emblem 같은 일부 요소를 맞히지만, 때때로 보이지 않는 twin towers나 glazed tile roofs 같은 정보를 섞을 수 있다. CoT는 구조화된 설명을 만들지만, reasoning 문장이 길어지는 만큼 불필요한 지식이 들어올 여지도 생긴다. GranuRAG는 annotated image와 selected element descriptions를 사용해 현재 visible evidence 중심으로 답변을 구성한다. 이 차이는 관광 안내처럼 사실성과 설명성이 동시에 필요한 작업에서 중요하다.

흥미로운 점은 GranuRAG가 답변의 양을 무조건 줄이는 방식으로 신뢰성을 얻지 않는다는 것이다. 선택된 요소에 대해 충분한 설명을 제공하되, 선택되지 않은 요소를 말하지 않는 방향으로 답변을 조절한다. 이는 보수적인 abstention과 풍부한 grounded description 사이의 균형 문제다. 지나치게 짧은 답변은 unsupported claim을 줄일 수 있지만 사용자에게 필요한 정보를 주지 못한다. GranuRAG의 목표는 설명을 포기하지 않으면서 설명 범위를 evidence boundary 안에 두는 데 있다.

이 visualization과 case study는 실무 디버깅에도 쓸 수 있다. 답변이 틀렸을 때 $\hat{E}(I)$에 정답 요소가 없으면 detector 또는 matcher를 확인해야 한다. 정답 요소가 있는데 답변이 빠뜨리면 generator prompt나 evidence packaging을 확인해야 한다. 정답 요소도 있고 문장도 생성됐지만 근거가 잘못 연결되면 attribution checker를 강화해야 한다. 이런 error decomposition이 가능하다는 점이 coarse image retrieval과 GranuRAG의 가장 큰 운영상 차이다.

7. 한계점 및 향후 연구 방향: 건축 유산 도메인 밖의 과제

7.1 운영 적용 시 필요한 시스템 설계

GranuRAG를 실제 제품에 붙이려면 offline preprocessing과 online inference를 나눠야 한다. Landmark별 element inventory와 descriptions는 미리 구축하고, 각 요소의 appearance text, global metadata, source provenance를 index에 넣어 둘 수 있다. Online 단계에서는 query image가 들어오면 detector가 region을 만들고, matcher가 후보 요소를 좁힌 뒤, generator가 selected evidence로 답한다. 이 구조는 latency를 줄이기 위해 element descriptions embedding cache, detector result cache, crop-level matching cache가 필요하다.

또한 fallback policy가 중요하다. Detector가 충분한 region을 찾지 못하거나 matcher confidence가 낮을 때, 시스템은 full candidate set을 그대로 generator에 넘기기보다 “현재 이미지에서 확인 가능한 요소가 제한적이다”라는 답변 모드로 내려갈 수 있어야 한다. 멀티모달 RAG의 신뢰성은 항상 풍부한 답변을 내는 능력보다, evidence가 부족할 때 답변 범위를 줄이는 능력에서 더 잘 드러난다. GranuRAG는 이 fallback을 설계하기 쉬운 중간 산출물 $\hat{E}(I)$를 제공한다.

서비스 로그 관점에서도 GranuRAG는 장점이 있다. 각 답변에 detector boxes, matched element IDs, retrieved descriptions, generated sentences를 남기면 나중에 사용자 신고나 품질 점검이 들어왔을 때 어디서 문제가 생겼는지 추적할 수 있다. 단일 VLM 호출 로그만 남긴 경우에는 모델이 왜 특정 요소를 언급했는지 복구하기 어렵다. 반면 element-level pipeline은 audit trail을 자연스럽게 만든다. 이는 의료, 문화재, 법적 문서, 산업 점검처럼 근거 추적이 중요한 영역에서 특히 가치가 있다.

다만 이 장점은 운영 복잡도를 함께 가져온다. Detector 모델 버전이 바뀌면 region 후보 분포가 바뀌고, element description이 갱신되면 matching 결과가 달라질 수 있다. 따라서 GranuRAG류 시스템은 prompt version과 함께 detector version, inventory version, description source version을 관리해야 한다. 답변 품질이 흔들렸을 때 어떤 층의 변경이 원인이었는지 추적하지 못하면, element-level 구조의 장점이 사라진다.

논문도 한계를 비교적 분명하게 적는다. 첫째, GranuVistaVQA는 landmark image에 집중한다. 건축 유산은 요소 inventory를 만들기 좋고, 공식 설명이 존재하며, viewpoint 다양성도 자연스럽게 확보된다. 그러나 abstract diagram, everyday indoor scene, 의료 영상, 산업 설비 사진, 위성 이미지처럼 요소 정의가 더 모호하거나 전문가 annotation 비용이 큰 도메인에서는 같은 pipeline을 그대로 적용하기 어렵다.

둘째, 효율성 문제가 있다. 논문은 GranuRAG가 sample당 약 3.5초를 쓰는 반면 baseline은 약 2초라고 보고한다. detector, crop filtering, element matching, hierarchical evidence retrieval이 추가되기 때문이다. 문화유산 설명이나 오프라인 분석처럼 latency 여유가 있는 작업에서는 감당 가능하지만, 실시간 모바일 안내, interactive UI agent, 대량 이미지 모니터링에서는 비용이 더 중요한 병목이 될 수 있다.

셋째, element inventory와 description quality에 의존한다. GranuRAG는 보이는 요소를 잘 고르기 위해 후보 요소의 appearance description을 사용한다. 이 설명이 부정확하거나 너무 일반적이면, crop과 요소 사이의 matching이 흔들린다. 반대로 inventory가 지나치게 세밀하면 detector가 충분한 region을 만들지 못하거나, 비슷한 후보 사이에서 MLLM이 혼동할 수 있다. 결국 GranuRAG의 성능은 vision detector와 language description의 공동 품질에 달려 있다.

넷째, 현재 benchmark의 언어와 문화권 편향도 고려해야 한다. 논문은 마카오 heritage site를 중심으로 하고 설명 내용은 중국어 기반이라고 밝힌다. 이는 도메인 지식을 안정적으로 확보하는 데 유리하지만, 다른 언어권·문화권에서 요소 명칭과 설명 체계를 맞추는 과정은 별도 작업이 필요하다. 다국어 멀티모달 RAG로 확장하려면 element taxonomy normalization, local terminology mapping, cross-lingual description alignment가 중요해진다.

도메인 확장: 건축 유산 외의 의료, 위성, 제품, UI, 과학 도표에서 element inventory를 어떻게 정의할지 검증해야 한다.
효율화: detector와 MLLM matching 비용을 줄이기 위해 cache, lightweight matcher, batch crop processing이 필요하다.
자동 inventory 구축: 사람 검수 없이 안정적인 element description을 만들 수 있는지, hallucinated inventory를 어떻게 걸러낼지 확인해야 한다.
평가 확장: AP/AR/UCR와 human preference 외에도 region-level citation, answer sentence attribution, contradiction detection을 결합할 수 있다.

7.2 다른 도메인으로 옮길 때의 평가 설계

의료 영상으로 옮기면 요소 단위는 장기, 병변, 조직 패턴, 계측값처럼 전문가가 정의해야 하는 구조가 된다. 위성 사진에서는 건물, 도로, 수역, 피해 구역, 그림자처럼 spatial object와 상황 단서가 섞인다. 웹 UI에서는 버튼, 입력창, 카드, 경고 배너, 선택 상태가 요소가 된다. 이처럼 도메인이 바뀌면 detector class와 element description의 언어가 함께 바뀐다. GranuRAG의 원리는 유지될 수 있지만, benchmark는 도메인별로 새로 설계해야 한다.

특히 의료나 위성 도메인에서는 false positive와 false negative의 비용이 다르다. 문화유산 설명에서 보이지 않는 장식을 한 문장 덧붙이는 오류와, 의료 영상에서 보이지 않는 이상 징후를 언급하는 오류는 위험 수준이 다르다. 따라서 Unsupported Claim Rate 같은 지표는 도메인별 cost weight를 가져야 한다. 어떤 claim은 작은 오류로 처리하고, 어떤 claim은 high-risk hallucination으로 따로 기록해야 한다. GranuVistaVQA가 보여 준 AP, AR, UCR 구조는 이런 비용 가중 평가의 출발점으로 쓸 수 있다.

또한 element-level citation을 사용자에게 어떻게 보여 줄지도 문제다. 연구용 평가에서는 crop ID와 element ID를 표로 남기면 충분하지만, 제품 UI에서는 사용자가 이미지 위의 highlighted region을 볼 수 있어야 한다. 답변 문장을 클릭하면 해당 region과 description source가 같이 떠야 한다. 이렇게 해야 사용자는 모델이 어떤 부분을 보고 말했는지 직접 확인할 수 있다. GranuRAG가 제공하는 중간 산출물은 이런 interactive verification UI와 잘 맞는다.

마지막으로 benchmark는 static test set에 머물기보다 update 시나리오를 포함해야 한다. 같은 장소의 사진이 계절, 공사, 조명, 보수 상태에 따라 달라지면 element visibility도 바뀐다. 제품 사진도 신모델 출시나 디자인 변경으로 요소가 달라진다. 따라서 future benchmark는 같은 entity의 시간 변화와 old description drift를 포함해야 한다. 이 방향은 MemEye의 evolving visual state tracking과 GranuRAG의 element-level grounding을 결합하는 자연스러운 후속 과제다.

8.1 이전 리뷰들과의 연결을 더 좁혀 보기

MASS-RAG와 GranuRAG를 나란히 두면 retrieval 이후와 이전의 분업이 보인다. MASS-RAG는 이미 들어온 evidence를 summary, extraction, reasoning으로 재배열해 answer stage의 coverage를 높인다. GranuRAG는 answer stage에 들어가기 전, 어떤 visual element가 evidence로 들어갈 자격이 있는지 판정한다. 두 접근을 결합하면 먼저 image 내부 요소를 grounding하고, 그 다음 요소별 evidence를 여러 reasoning view로 재조립하는 multi-layer RAG가 가능하다.

MemEye와의 연결은 더 시각적이다. MemEye는 caption-only로 풀리는 질문을 걸러 원본 visual evidence의 필요성을 평가했다. GranuRAG는 원본 이미지가 필요한 상황에서 그 이미지를 어떤 요소 단위로 쪼갤지 제안한다. 하나는 평가 gate이고, 다른 하나는 system design이다. 만약 MemEye류 장기 메모리 시스템에 GranuRAG식 element extraction을 붙이면, 에이전트가 기억해야 할 대상도 전체 이미지 caption에서 region-level visual evidence record로 바뀔 수 있다.

Query coverage 관점에서는 GranuRAG가 coverage의 표면을 텍스트 chunk에서 이미지 요소로 옮겼다고 볼 수 있다. 텍스트 RAG에서 missing entity가 문제라면, 멀티모달 RAG에서는 missing visible element가 문제다. 검색 결과가 질문을 완성했는지 보려면, 질문에 필요한 시각 요소가 $\hat{E}(I)$ 안에 들어왔는지 먼저 봐야 한다. 이 관점은 retrieval debug log를 설계할 때도 유용하다.

결국 이 논문은 최근 위키에 쌓인 RAG·메모리·시각 증거 평가 흐름을 하나로 잇는다. Evidence utility는 개별 근거의 기여를 묻고, query coverage는 질문 조건의 충족도를 묻고, caption-proof visual evidence는 원본 이미지의 대체 불가능성을 묻는다. GranuRAG는 이 세 질문을 시스템 구조 안으로 가져와, region detection과 element matching이라는 실행 단위로 구현한다.

8. 내 해석: coarse retrieval의 약점과 다음 확장

나는 이 논문을 멀티모달 RAG의 “검색 단위”를 다시 묻는 작업으로 읽는다. 기존 RAG 논의는 retriever가 좋은 문서나 이미지를 top-k 안에 넣었는지에 많이 집중했다. 그런데 실제 사용자가 원하는 답변은 이미지 전체 요약보다, 이미지 안의 특정 요소와 문장 사이의 연결이다. 이 점에서 GranuRAG는 이전에 리뷰한 MASS-RAG와 흥미롭게 이어진다. MASS-RAG가 retrieved evidence를 여러 agent view로 재구성했다면, GranuRAG는 그보다 앞에서 visual evidence를 요소 단위로 잘라 retrieval target 자체를 바꾼다. 두 흐름을 합치면 “어떤 evidence를 가져올 것인가”와 “가져온 evidence를 어떻게 재구성할 것인가”가 분리된 계층으로 보인다.

약점으로는 benchmark 도메인과 요소 정의가 너무 정돈되어 있다는 점이 걸린다. 건축 유산은 요소 이름과 설명을 만들기 좋고, 정답 visible set도 비교적 안정적으로 붙일 수 있다. 하지만 실제 제품 사진, 의료 이미지, 웹 UI 화면에서는 요소 경계가 더 흐릿하다. 예를 들어 쇼핑 사진에서 “사용자가 궁금해한 부분”은 재질, 크기, 착용감, 브랜드 로고, 주변 물체와의 관계처럼 하나의 detector class로 떨어지지 않을 수 있다. 그러면 GranuRAG의 detect-then-match 구조가 여전히 유효한지, 아니면 region proposal보다 task-conditioned segmentation이나 interactive clarification이 필요한지 다시 봐야 한다.

내가 이걸 확장한다면 먼저 dynamic element inventory를 붙여볼 것 같다. 현재 논문은 랜드마크별 후보 요소와 설명이 준비되어 있다는 전제를 둔다. 실전 멀티모달 RAG에서는 사용자가 올린 새 이미지가 어떤 inventory에 속하는지부터 불명확할 수 있다. 그래서 coarse scene retrieval로 후보 inventory를 좁히고, 그 안에서 GranuRAG식 element matching을 수행하며, matching confidence가 낮은 region은 임시 요소로 승격해 사람 검수나 후속 질의에 넘기는 구조가 필요하다. 이렇게 하면 고정 inventory가 있는 벤치마크를 넘어, 실제 지식베이스가 계속 갱신되는 환경에 더 가까워진다.

또 하나의 후속 제안은 attribution을 answer sentence 단위로 더 강하게 묶는 것이다. 논문은 AP, AR, UCR을 통해 unsupported claim을 본다. 여기에 각 문장마다 어떤 region crop, 어떤 element description, 어떤 global metadata가 근거였는지 citation span을 붙이면 검증 가능성이 더 올라간다. 특히 MemEye가 보여 준 caption-proof visual evidence 관점과 결합하면, “이 문장은 원본 이미지 crop 없이는 검증 불가능하다”, “이 문장은 element description만으로 충분하다”처럼 evidence type을 구분할 수 있다. 그런 구조가 생기면 멀티모달 RAG의 답변은 더 투명해지고, 실패했을 때 고칠 위치도 더 빨리 좁혀진다.

하나 더 짚을 부분은 negative evidence다. GranuRAG는 보이는 요소를 고르는 데 초점을 두지만, 실제 검증에서는 보이지 않는 요소를 왜 제외했는지도 중요해진다. 예를 들어 전체 지식베이스에는 twin towers가 있고 사진은 중앙 파사드만 담고 있다면, 시스템은 twin towers를 언급하지 않는 것에 더해 제외 근거를 기록할 수 있어야 한다. detector가 해당 region을 찾지 못했는지, matcher가 appearance description과 불일치한다고 봤는지, crop 품질이 낮아 confidence가 부족했는지에 따라 후속 조치가 달라진다.

이 negative evidence log는 사용자 신뢰에도 도움이 된다. 사용자가 “왜 종탑 설명이 빠졌나”라고 물었을 때, 시스템이 “현재 이미지에서는 종탑 영역이 검출되지 않았고, 선택된 visible element에는 중앙 창과 문장만 포함됐다”고 답할 수 있으면 설명 누락이 단순 실패인지 보수적 판단인지 구분된다. 멀티모달 RAG가 검증 가능한 시스템이 되려면 답변에 들어간 근거와 답변에서 빠진 근거 후보를 함께 추적해야 한다.

따라서 다음 단계의 GranuRAG는 positive citation과 negative citation을 함께 관리하는 방향으로 발전할 수 있다. Positive citation은 문장별로 어떤 region과 element description을 사용했는지 보여 주고, negative citation은 후보였지만 제외된 요소와 제외 사유를 남긴다. 이런 구조가 있으면 evaluator는 unsupported claim만 찾는 데서 멈추지 않고, 필요한 요소를 과도하게 빼는 under-answering도 함께 잡을 수 있다.

9. 결론: verifiable multimodal RAG의 단위를 다시 정한다

From Scenes to Elements는 멀티모달 RAG에서 검색 단위를 이미지 전체로 두는 설계가 왜 검증 가능성을 떨어뜨리는지 보여 준다. 사용자가 요구하는 답은 종종 scene-level summary보다 element-level evidence에 기대기 때문이다. GranuRAG는 detector로 region을 만들고, MLLM으로 element description과 맞춘 뒤, 선택된 visible subset만 생성기에 넘긴다. 이 단순한 구조 변화가 여러 MLLM에서 baseline과 CoT보다 안정적인 향상을 만든다.

논문의 가장 유용한 메시지는 큰 모델이 모든 것을 implicit attention으로 해결하리라 기대하지 말라는 데 있다. CoT prompting은 reasoning을 길게 만들 수 있지만, 보이지 않는 요소가 후보에 남아 있으면 여전히 환각을 유도할 수 있다. GranuRAG는 reasoning 이전의 evidence boundary를 좁힌다. 이 점에서 멀티모달 RAG의 다음 과제는 모델 크기 경쟁을 넘어, 시각 증거를 어떤 단위로 구조화하고 어떤 단위로 citation할 것인가에 있다.

물론 GranuRAG가 모든 도메인에 그대로 적용되는 답은 아니다. 요소 inventory가 명확하고 설명 자료가 안정적인 문화유산 도메인에서는 설득력이 높지만, 열린 세계 이미지나 실시간 UI에서는 자동 요소 정의와 효율화가 필요하다. 그럼에도 이 논문은 멀티모달 RAG 평가와 시스템 설계에서 중요한 기준을 제시한다. 이미지를 검색했다는 사실만으로는 grounded answer가 보장되지 않으며, 답변 문장을 지지하는 시각 요소를 명시적으로 찾고 남기는 절차가 필요하다.

10. 요약 정리

GranuRAG는 멀티모달 RAG의 evidence 단위를 이미지나 scene 전체에서 visual element 단위로 낮추는 framework다.
GranuVistaVQA는 71개 랜드마크, 1,422장 이미지, 221개 고유 요소로 partial observation과 element-level grounding을 평가한다.
Pipeline은 YOLO-World 기반 region detection, MLLM element matching, multi-granularity evidence retrieval, attribution-constrained generation으로 구성된다.
Qwen-VL-Max 기준 LLM score는 baseline 54.70, CoT 74.10, GranuRAG 83.90으로 보고되어 evidence filtering의 효과가 크다.
Image + All candidate 설정은 noisy knowledge 때문에 성능이 낮아지고, Image + Chosen $\hat{E}(I)$ 설정은 BERT-F1과 LLM score를 가장 높인다.
Detector ablation에서는 YOLO-World가 최고지만 Grounding DINO도 baseline을 크게 앞서, detect-then-match 구조 자체의 유효성을 보여 준다.
Human evaluation에서도 GranuRAG는 GPT-4o 82.22%, Qwen-VL-Max 91.11% win rate로 baseline보다 선호된다.
한계는 건축 유산 중심 도메인, sample당 약 3.5초의 추가 비용, element inventory와 description 품질 의존성이다.
이 논문은 이전 MASS-RAG의 post-retrieval evidence organization과 MemEye의 caption-proof visual evidence 평가 사이를 잇는 멀티모달 RAG 설계 사례로 볼 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글

[arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선 (0)	2026.05.19
[arXiv 2605.15155] SDAR: 자기증류 에이전트 강화학습으로 토큰 신호를 거르기 (0)	2026.05.19
[arXiv 2605.10913] Shepherd: 메타 에이전트를 실행 추적으로 다루는 런타임 기판 (0)	2026.05.15
[arXiv 2605.15128] MemEye: 멀티모달 에이전트 메모리의 시각 증거 평가 (0)	2026.05.15
[arXiv 2605.11633] DORA: 재난 대응 에이전트를 위한 이종 지리공간 추론 벤치마크 (0)	2026.05.15