MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation
https://arxiv.org/abs/2604.18509
Xingchen Xiao, Heyan Huang, Runheng Liu, Jincheng Xie | Beijing Institute of Technology, Tsinghua University | arXiv:2604.18509 | 2026년 4월
검색 증강 생성(RAG)은 외부 문서를 끌어와 답을 보강하는 구조이지만, 실전에서 가장 자주 부딪히는 문제는 검색을 했는데도 답이 쉽게 정리되지 않는다는 점이다. 질의와 관련된 문서가 top-k 안에 들어왔더라도, 정답 단서가 여러 문서에 흩어져 있거나, 직접적인 근거와 간접적인 근거가 뒤섞여 있거나, 일부 문서는 정답과 관계없는 설명을 길게 늘어놓는 경우가 많다. 이때 단일 LLM이 검색 결과 전체를 한 번에 읽고 바로 답을 만들도록 두면, 어떤 증거를 압축해야 하는지, 어떤 문장을 그대로 뽑아야 하는지, 어떤 부분은 문서 간 연결을 통해 추론해야 하는지가 한 단계에 모두 얽힌다. MASS-RAG는 바로 이 병목을 겨냥해, 검색 이후의 근거 정제 과정을 여러 역할로 분해하고 마지막에 다시 합성하는 구조를 제안한다.
논문이 흥미로운 이유는 멀티에이전트라는 단어를 전면에 내세우면서도, 실제 초점은 에이전트 수를 늘리는 데 있지 않기 때문이다. 저자들은 서로 다른 에이전트가 동일한 검색 결과를 요약형, 추출형, 추론형이라는 상이한 중간 표현으로 바꾸면, 최종 답변 모델이 단일 컨텍스트에서 놓쳤던 단서를 더 안정적으로 비교할 수 있다고 본다. 다시 말해 MASS-RAG의 핵심은 agent 자체보다 evidence view를 분리해 노출하는 설계에 있다. 이 관점은 기존 RAG가 retrieval quality와 answer quality만 비교하던 프레임을 한 단계 더 세분화한다.
이 리뷰에서는 먼저 기존 RAG가 왜 noisy, incomplete, heterogeneous context에서 흔들리는지 짚고, 이어서 MASS-RAG의 에이전트 구성과 합성 메커니즘을 수식 수준으로 정리한다. 그다음 네 개 벤치마크에서 보고된 주요 수치를 표로 재구성하고, retrieval depth 변화, Answer Agent의 유무, 개별 필터 에이전트의 상보성, 그리고 case study가 실제로 무엇을 보여 주는지까지 차례로 살펴본다. 마지막에는 이전에 다룬 CUE-R, Corpus2Skill, CW-GRPO와 어떤 축에서 연결되는지까지 묶어, 이 논문이 RAG 연구 지형에서 어디에 놓이는지 정리해 보겠다.
1. 서론: 검색은 되었는데 답은 왜 여전히 흔들리는가
RAG 파이프라인의 표면적 구조는 단순하다. 질문을 받고, retriever가 관련 문서를 가져오고, generator가 그 문서를 읽어 답을 만든다. 하지만 실제 오류 양상은 생각보다 복잡하다. 어떤 질문은 정답 문장 하나가 명시적으로 문서 안에 있어 extractive한 처리가 잘 맞고, 어떤 질문은 핵심 정보가 두 문서에 나뉘어 있어 cross-document reasoning이 필요하며, 또 어떤 질문은 관련 문서가 너무 많아 먼저 compression을 해야 한다. 단일 generation 단계는 이 세 문제를 한 번에 해결해야 하므로, 어느 한 축에 맞춘 해법이 다른 축의 손실로 돌아오기 쉽다.
논문은 특히 retrieval context가 noisy, incomplete, heterogeneous할 때 단일 생성이 약해진다고 본다. noisy하다는 것은 관련 없는 문장과 핵심 문장이 같은 문맥 안에 뒤섞여 있다는 뜻이고, incomplete하다는 것은 정답 단서가 한 문서 안에서 끝나지 않는다는 뜻이며, heterogeneous하다는 것은 동일 질문에 대해 문서마다 서술 방식과 정보 밀도가 달라 answer synthesis가 어려워진다는 뜻이다. 결국 retrieval이 완전히 실패하지 않았더라도, 검색된 증거를 어떤 형태로 다시 정리하느냐가 성능을 크게 좌우한다.
이 지점에서 MASS-RAG는 기존 RAG 연구의 초점을 약간 옆으로 이동시킨다. retriever를 더 강하게 만들거나, generator를 더 큰 모델로 바꾸는 대신, retrieval 이후의 evidence processing layer를 독립 문제로 떼어내 본다. 그리고 그 처리를 하나의 judge나 filter에 맡기는 대신, 서로 다른 역할의 에이전트가 각자 본인의 편향을 가진 중간 표현을 만들도록 한다. 저자들의 가정은 명확하다. 질문마다 필요한 evidence operation이 다르다면, 그 연산을 여러 agent view로 분리하는 편이 단일 view보다 안정적이다.
Figure 1: 기존 single-filter 방식과 MASS-RAG의 multi-agent evidence filtering + synthesis 개념 비교
Figure 1은 이 논문의 문제의식을 가장 압축적으로 보여 준다. 기존 방식이 검색 결과를 하나의 filtering 관점으로 정리한 뒤 곧바로 답변으로 넘어갔다면, MASS-RAG는 Summarizer, Extractor, Reasoner가 서로 다른 중간 evidence view를 만든 뒤, 마지막에 이를 Synthesis 단계에서 다시 조립한다. 즉 이 논문에서 멀티에이전트는 역할 연쇄를 늘리는 장식이 아니라, retrieval 결과를 서로 다른 렌즈로 재해석해 answer generation 앞단에 더 풍부한 비교 재료를 제공하는 장치다.
이 구조는 최근 RAG 연구에서 자주 보이는 두 흐름과도 잘 맞닿아 있다. 하나는 evidence item 하나가 실제로 답에 얼마나 기여했는지를 묻는 evidence utility 관점이고, 다른 하나는 retrieval hit 여부보다 상위 결과가 질문을 얼마나 완성했는지를 보는 query coverage 관점이다. MASS-RAG는 이 두 문제를 직접 평가하는 논문은 아니지만, 서로 다른 에이전트가 evidence를 나눠 잡도록 함으로써 결과적으로 어떤 view가 실제로 답을 움직였는지 더 잘 드러나는 구조를 만든다. 따라서 이 논문은 retrieval 이후의 사고 과정을 더 해부 가능한 형태로 재배치한 설계로 읽는 편이 정확하다.
2. 배경 및 관련 연구: RAG의 증거 정제 병목을 어디서 풀 것인가
2.1 단일 생성 기반 RAG의 한계와 evidence utility 문제
기본적인 RAG는 질문 $q$에 대해 retriever가 문서 집합 $D = \{d_1, \dots, d_k\}$를 반환하고, generator가 $q$와 $D$를 함께 읽어 답을 생성한다. 이 구조는 간단하지만, 정답 생성의 책임이 지나치게 큰 한 단계에 몰려 있다는 약점이 있다. 질문과 관련된 단서가 여러 문서에 분산되어 있을 때는 요약과 추론이 동시에 필요하고, 일부 문서가 강한 distractor로 작동할 때는 먼저 불필요한 evidence를 정리해야 한다. 단일 generator는 이 모든 결정을 내부 상태 안에서 처리하므로, 사용자는 어떤 근거가 중요한 역할을 했는지 알기 어렵고, 모델은 어느 단계에서 실수했는지도 분리하기 어렵다.
이 문제는 최근 evidence 자체의 효용을 더 세밀하게 측정하려는 흐름으로 이어진다. 예컨대 이전에 다룬 CUE-R는 retrieval item 하나씩을 remove, replace, duplicate해 보면서 개별 evidence가 correctness와 grounding에 실제로 얼마나 기여했는지 평가했다. MASS-RAG는 평가 프레임을 제안하는 대신, 그 문제의식을 시스템 설계 안으로 끌어들인다. 즉 어떤 evidence가 실제로 중요한지 사후 분석만 하지 말고, 아예 요약형, 추출형, 추론형 중간 표현을 병렬로 만들게 해서 evidence의 역할 차이를 더 잘 드러내자는 접근이다.
또 다른 관련 축은 retrieval quality를 단순 top-k 적중 여부가 아니라 질문 완성도 관점에서 보는 흐름이다. 질문의 일부 엔티티만 커버하는 partial hit와, 질문의 핵심 관계까지 채워 주는 full hit는 실제 answerability에 큰 차이를 만든다. MASS-RAG는 retriever를 바꾸지 않으면서도, retrieved context 안에 이미 들어온 부분적 증거들을 서로 다른 에이전트가 다른 방식으로 재가공하게 함으로써, query coverage 부족이 answer 단계에서 어떻게 완화될 수 있는지를 보여 준다. retrieval miss는 해결하지 못해도, scattered evidence 문제에는 분명한 개선 여지가 있다는 것이다.
2.2 evidence refinement와 multi-agent RAG의 선행 방향
관련 연구를 크게 나누면 하나는 evidence refinement 계열이고, 다른 하나는 multi-agent RAG 계열이다. 전자는 문서를 요약하거나 정리해 모델이 읽기 쉬운 입력으로 바꾸는 접근이다. 이 방향은 retrieval 결과를 있는 그대로 넣을 때의 noise를 줄이는 데는 효과적이지만, 요약 과정에서 정답에 결정적인 스팬이 사라질 수 있다는 문제가 있다. 반대로 extractor 스타일 접근은 근거 문장을 보존하는 데 강하지만, 질문이 여러 문서를 넘나드는 조합 추론을 요구할 때는 충분하지 않다.
multi-agent RAG는 이 문제를 역할 분담으로 풀려 한다. 서로 다른 agent를 순차 혹은 병렬로 배치해 검색, 평가, 정리, 답변 생성을 나누는 방식이다. 하지만 논문은 기존 방식들이 여전히 실질적으로는 하나의 filter 혹은 judge 관점에 크게 의존한다고 본다. 즉 agent 수는 늘었지만, evidence representation의 다양성이 충분히 보장되지 않았다는 주장이다. MASS-RAG가 제안하는 세 agent는 이름만 다른 모듈이 아니라, 각각 압축, 발췌, 연결이라는 서로 다른 정보 처리 연산을 담당하도록 명확히 정의된다.
이 점은 최근 다른 RAG 논문들과의 대비에서도 드러난다. 예를 들어 Corpus2Skill은 retrieval 그 자체보다 corpus navigation 구조를 바꾸어 질문 완성도를 높이려 했고, CUE-R는 retrieval evidence의 기여도를 사후에 더 세밀하게 측정하려 했다. 반면 MASS-RAG는 retrieval은 유지한 채, 검색 결과 이후를 evidence view의 조합 문제로 다시 정의한다. 같은 RAG 문제를 보고 있지만, 하나는 index와 navigation, 하나는 evaluation, 하나는 post-retrieval synthesis 층을 주로 겨냥한다는 차이가 있다.
저자들이 제시한 related work 섹션을 그대로 따라가면, MASS-RAG의 기여는 세 갈래로 요약된다. 첫째, 서로 다른 agent가 동일한 검색 결과를 각기 다른 방식으로 가공하도록 해 evidence의 상보성을 확보한다. 둘째, 필요시 Answer Agent를 두어 evidence-to-answer 변환을 한 번 더 거친 뒤 synthesis하게 한다. 셋째, 이 전체 파이프라인을 training-free로 구성해, 별도 파인튜닝 없이 서로 다른 backbone LLM에 바로 얹을 수 있게 만든다. 이 세 특징이 합쳐지면서 논문은 RAG를 단일 answer generation 문제가 아니라, answer generation 이전의 representation engineering 문제로 다시 읽게 만든다.
- 기본 RAG는 retrieval 이후의 정제 연산이 generator 내부에 숨겨져 있어 오류 분석이 어렵다.
- 요약형 refinement는 noise를 줄이지만, extractive evidence 손실 위험이 있다.
- extractor 중심 접근은 명시적 근거 확보에는 강하지만 cross-document reasoning에 약할 수 있다.
- MASS-RAG는 서로 다른 중간 evidence view를 병렬 생성해 이 trade-off를 분산시키려 한다.
- 핵심은 multi-agent라는 외형보다, 요약·추출·추론을 분리한 representation design이다.
3. 방법론: MASS-RAG의 evidence view 분해와 synthesis 설계
3.1 검색 결과를 세 가지 중간 표현으로 나누는 기본 구조
MASS-RAG의 입력은 질문 $q$와 retrieval 결과 $D = \{d_1, \dots, d_k\}$다. 여기서 핵심은 $D$를 곧바로 generator에게 넘기지 않는다는 점이다. 대신 세 종류의 필터 에이전트가 각각 별도의 중간 표현을 만든다. 논문의 파이프라인을 표기하면 다음처럼 요약할 수 있다.
$$R^{(s)} = f_s(q, D), \qquad R^{(e)} = f_e(q, D), \qquad R^{(r)} = f_r(q, D)$$
여기서 $R^{(s)}$는 Summarizer Agent가 만든 요약형 evidence, $R^{(e)}$는 Extractor Agent가 만든 추출형 evidence, $R^{(r)}$는 Reasoner Agent가 만든 추론형 evidence를 뜻한다. 이 세 표현은 동일한 문서 집합을 바탕으로 하지만, 각 agent가 무엇을 남기고 무엇을 버릴지에 대한 정책이 다르기 때문에 자연스럽게 서로 다른 정보 밀도와 오류 양상을 갖는다. 논문이 기대하는 상보성도 바로 여기서 나온다.
이후 파이프라인은 두 가지 방식으로 작동한다. 첫 번째는 Answer Agent를 켜는 경우다. 이때는 각 evidence view에서 답 후보를 한 번 더 생성한다.
$$A^{(m)} = h(q, R^{(m)}), \qquad m \in \{s,e,r\}$$
그리고 최종 답은 후보답들의 합성으로 정의된다.
$$\hat{y} = g\big(q, A^{(s)}, A^{(e)}, A^{(r)}\big)$$
두 번째는 Answer Agent를 끄는 경우다. 이때는 synthesis 단계가 후보답이 아니라 각 evidence view를 직접 받아 최종 답을 만든다. ARC-Challenge처럼 선택지형 문제에서는 정답 후보를 여러 개 따로 생성하는 것이 큰 도움을 주지 않기 때문에, 논문은 이 단계를 비활성화한 구성도 함께 사용한다. 즉 MASS-RAG는 고정된 5-agent 파이프라인이라기보다, 태스크 성격에 따라 answer generation을 어디까지 분리할지 조절하는 구조다.
Figure 2: Retriever, 세 개의 Filter Agent, 선택적 Answer Agent, 그리고 Synthesis Agent로 구성된 MASS-RAG 전체 파이프라인
Figure 2는 MASS-RAG가 retrieval 이후를 어떻게 다시 층화하는지를 보여 준다. 왼쪽의 Document Retrieval 블록이 검색 문서를 가져오면, 가운데의 Summarizer, Extractor, Reasoner가 이를 서로 다른 관점의 filtered evidence로 바꾼다. 그다음 노란색 영역의 Answer Agent는 각 evidence view에서 별도의 candidate answer를 만들 수 있고, 마지막 Synthesis Agent가 이들을 비교해 최종 답을 낸다. 따라서 이 구조의 본질은 검색을 여러 번 하는 것이 아니라, 검색 결과를 해석하는 경로를 여러 갈래로 나누는 것에 있다.
3.2 Summarizer, Extractor, Reasoner가 각각 담당하는 연산
Summarizer Agent는 retrieval 결과를 길게 늘어놓지 않고, 질문과 직접 연결되는 정보만 더 짧은 형태로 압축한다. 이 agent가 강한 상황은 문서 안에 관련 정보가 충분히 있지만, 주변 설명과 잡음이 많아 generator가 핵심 문장을 붙잡기 어려운 경우다. 논문의 case study에서도 제목이 유사한 작품과 인물 정보가 뒤섞인 질문에서 요약형 evidence가 오히려 가장 안정적으로 정답 단서를 남기는 장면이 관찰된다. 즉 Summarizer는 단순 축약기가 아니라, 질문 조건을 기준으로 evidence density를 높이는 압축기로 이해하는 편이 맞다.
Extractor Agent는 반대로 원문에 있는 표현을 가능한 한 직접 보존하는 쪽에 가깝다. 따라서 이 agent는 정답을 지지하는 explicit span이 retrieval 결과 안에 이미 들어와 있을 때 가장 강하다. 추출형 evidence는 hallucination을 줄이고 grounding을 높이는 장점이 있지만, 여러 문서에서 정보를 조합해야 하는 문제에서는 단일 span 보존만으로 충분하지 않다. 그래서 MASS-RAG는 extractor를 단독 해법으로 쓰지 않고, 요약형과 추론형 뷰 사이의 한 축으로 둔다.
Reasoner Agent는 retrieval 결과 속 문장들 사이의 관계를 다시 묶는 역할을 맡는다. 예컨대 문서 A에는 인물 관계가, 문서 B에는 작품 제목이, 문서 C에는 연대 정보가 있을 때, 정답이 직접적으로 한 문장 안에 쓰여 있지 않아도 이 관계를 연결해 최종 answer hypothesis를 만들 수 있어야 한다. 논문은 바로 이 지점을 Reasoner의 강점으로 설명한다. 이는 RAG에서 흔한 multi-hop 상황과 맞닿아 있으며, evidence가 명시적이라기보다 암묵적으로 정답을 떠받치는 경우에 중요하다.
세 agent를 나란히 두는 이유는 단순한 앙상블 효과가 아니다. 저자들이 기대하는 것은 각 agent가 다른 질문군에서 다른 방식으로 실패하고 성공하도록 만드는 것이다. Summarizer는 compression bias를 갖고, Extractor는 verbatim grounding bias를 갖고, Reasoner는 inference bias를 갖는다. 이 세 편향은 단일 agent 안에서 모두 최적화하기 어렵지만, 병렬로 노출하면 synthesis 단계가 어느 view를 더 신뢰할지 선택할 여지가 생긴다. 따라서 MASS-RAG는 최종 답을 하나 더 똑똑하게 만드는 구조라기보다, 최종 답이 참고할 evidence 후보군을 더 구조화하는 구조다.
| 에이전트 | 입력 | 산출물 | 강점 | 약점 |
|---|---|---|---|---|
| Summarizer | 질문 + 검색 문서 | 압축된 핵심 evidence | noise가 많은 문맥에서 핵심 정보 밀도를 높임 | 중요 스팬이 요약 과정에서 사라질 수 있음 |
| Extractor | 질문 + 검색 문서 | 원문 기반의 직접 근거 | 명시적 정답 스팬과 grounding 확보에 유리 | 문서 간 조합 추론이 필요한 문제에 약할 수 있음 |
| Reasoner | 질문 + 검색 문서 | 관계 연결형 evidence | 다문서 조합과 암묵적 추론에 강함 | 잘못된 연결을 만들면 오히려 오류를 증폭시킬 수 있음 |
| Answer Agent | 질문 + 각 evidence view | candidate answer | 팩토이드 QA에서 증거별 답 후보를 비교하기 쉬움 | 장문 QA에서는 오히려 표현 폭을 줄일 수 있음 |
| Synthesis Agent | 후보답 또는 evidence views | 최종 답변 $\hat{y}$ | 상보적 근거를 하나의 출력으로 통합 | 통합 능력이 약하면 best single-agent보다 낮아질 수 있음 |
표로 보면 MASS-RAG의 역할 분해는 상당히 직관적이지만, 중요한 것은 이 분업이 곧바로 성능을 보장하지는 않는다는 점이다. Summarizer, Extractor, Reasoner는 각각 다른 오류 유형을 줄여 주지만, 마지막 Synthesis가 이를 제대로 정리하지 못하면 오히려 정보 충돌을 그대로 안고 갈 수 있다. 실제로 후반 분석에서 보게 되듯, 일부 벤치마크에서는 individual filter response가 synthesis보다 더 높은 정확도를 보이기도 한다. 이 사실은 MASS-RAG의 강점이 단순 앙상블이 아니라, 더 좋은 evidence candidate를 만들 가능성에 있고, 최종 품질은 여전히 backbone과 synthesis 품질에 크게 좌우된다는 점을 시사한다.
3.3 Answer Agent와 Synthesis Agent가 만드는 마지막 병목
논문에서 특히 흥미로운 부분은 Answer Agent를 항상 필수 요소로 두지 않는다는 점이다. 요약형, 추출형, 추론형 evidence를 모두 후보답으로 변환한 뒤 비교하는 방식은 factoid QA에서 유리할 수 있다. 왜냐하면 답 후보들을 텍스트 단위로 직접 비교하면, synthesis가 evidence 원문을 다시 읽는 부담을 줄일 수 있기 때문이다. 하지만 장문 QA처럼 하나의 완성된 답변 안에서 여러 근거를 엮어야 하는 경우에는, 후보답으로 먼저 수렴시키는 과정이 오히려 표현 폭을 제한할 수 있다.
이 때문에 저자들은 ARC-Challenge에서는 Answer Agent를 끄고, synthesis가 evidence view를 직접 받아 최종 선택지를 정리하도록 구성한다. 이는 MASS-RAG가 단순히 더 많은 agent 호출을 추가한 구조가 아니라, 어디까지 intermediate representation을 만들 것인가를 태스크별로 조절하는 설계라는 뜻이다. 즉 retrieval 이후의 전처리 깊이를 질문 유형에 맞춰 바꾸는 것이고, 이는 향후 query-adaptive routing으로 확장될 여지가 큰 부분이기도 하다.
Synthesis Agent는 결국 MASS-RAG의 마지막 병목이다. 앞선 agent들이 서로 다른 view를 잘 만들었다 해도, synthesis가 어떤 evidence가 더 신뢰할 만한지, 어떤 후보답이 질문 조건을 더 정확히 만족하는지, 그리고 서로 충돌하는 단서 중 무엇을 버려야 하는지를 제대로 처리하지 못하면 최종 답이 흔들린다. 논문의 후반 실험이 보여 주는 핵심도 여기에 있다. multi-agent filtering은 분명 상보적이지만, 최종 answer quality는 그 상보성을 얼마나 잘 통합하느냐에 달려 있다.
3.4 왜 이 구조가 query coverage와 evidence utility를 동시에 건드리는가
MASS-RAG를 더 깊게 이해하려면 이 구조를 단순한 agent ensemble로 보지 말고, query coverage 보정기와 evidence utility 노출기가 한 몸으로 묶인 시스템으로 읽는 편이 좋다. retrieval 결과 안에 질문의 핵심 조건이 전부 균등하게 담겨 있는 경우는 드물다. 어떤 문서는 인물 정보를 주고, 어떤 문서는 시기나 관계를 주고, 또 어떤 문서는 직접적인 answer span을 준다. 단일 generator는 이 조각들을 한 번에 읽으며 어떤 문장이 실제로 중요한지 내부적으로만 처리하지만, MASS-RAG는 그 조각들을 각기 다른 processing policy 아래에서 다시 정리해 외부로 드러낸다. 이 때문에 retrieval hit 이후에도 질문 완성도가 낮은 상황을 조금 더 버틸 수 있다.
이 점은 evidence utility 측면에서도 의미가 있다. 어떤 질문에서는 요약된 관점만이 정답을 선명하게 만들고, 어떤 질문에서는 원문 스팬 보존이 더 중요하며, 또 어떤 질문에서는 관계 재구성이 핵심이 된다. MASS-RAG는 이 차이를 사후 분석에만 맡기지 않고, agent 역할 정의 안에 미리 심어 둔다. 덕분에 최종 answer가 틀리더라도 사용자는 어느 evidence view가 상대적으로 더 유망했는지, 혹은 어떤 view에서 정보 손실이 발생했는지 더 분리해 볼 수 있다. 이는 운영형 RAG에서 매우 중요하다. 시스템이 틀렸을 때 retriever를 의심해야 하는지, summarization을 의심해야 하는지, reasoning 연결을 의심해야 하는지를 더 빠르게 좁힐 수 있기 때문이다.
이 구조는 최근 에이전트 메모리나 context compression 논의와도 결이 닿아 있다. 모든 검색 결과를 통째로 주입하기보다, 먼저 더 작은 intermediate package로 바꾼 뒤 뒤단 모델이 이를 소비하게 하는 방식이기 때문이다. 다만 MASS-RAG는 메모리 시스템처럼 세션 간 축적을 다루는 것은 아니고, 단일 QA 시점에서 retrieval context를 어떻게 포장할지를 다룬다. 그래서 이 논문은 agent memory 논문은 아니지만, 무엇을 읽게 할지보다 읽힌 것을 어떤 형태로 다시 감싸 줄지를 정면으로 다룬다는 점에서 context engineering 논문으로도 읽힌다.
4. 실험 설정: 네 개 벤치마크에서 무엇을 어떻게 비교했는가
4.1 데이터셋 및 벤치마크: factoid, ambiguous long-form, multiple-choice를 함께 본다
MASS-RAG는 특정 QA 유형 하나에만 맞춘 구조가 아니라는 점을 보이기 위해 네 개의 서로 다른 태스크를 사용한다. TriviaQA-unfiltered와 PopQA long-tail subset은 open-domain factoid QA에 가깝고, ALCE-ASQA는 모호한 장문 질문에 여러 근거를 조합해야 하는 long-form QA이며, ARC-Challenge는 선택지 기반의 closed-set QA다. 이 구성이 중요한 이유는 MASS-RAG의 가치가 단순히 factoid hit-rate 향상에만 있는지, 아니면 evidence aggregation이 더 필요한 장문/다문서 문제에서도 유지되는지를 동시에 볼 수 있기 때문이다.
특히 ASQA는 MASS-RAG를 평가하기에 적절한 시험장이다. 이 태스크는 단일 정답 문자열 하나를 맞히는 문제가 아니라, 애매한 질문에 대해 여러 relevant aspect를 담은 긴 답을 만들어야 한다. 따라서 retrieval 문서의 일부만 뽑아서는 안 되고, 질문 해석 자체도 흔들릴 수 있으며, 여러 evidence를 모아 정합적인 응답으로 정리해야 한다. 저자들이 ASQA에서 str-em, ROUGE, MAUVE를 함께 보고, 단순 정확도 하나로 결론을 내리지 않은 이유도 이 때문이다.
| 벤치마크 | 문제 유형 | 규모 | 주요 평가 지표 | MASS-RAG에서의 의미 |
|---|---|---|---|---|
| TriviaQA-unfiltered | Open-domain QA | 기존 Self-RAG 기준 split 사용 | accuracy | single fact를 얼마나 안정적으로 복원하는지 확인 |
| PopQA long-tail subset | 희귀 엔티티 중심 ODQA | 1,399개 | accuracy | 롱테일 엔티티에서 evidence view 분해가 얼마나 버티는지 측정 |
| ALCE-ASQA | 장문/모호 질문 QA | 948개 | str-em, ROUGE, MAUVE | 상보적 evidence를 긴 답으로 통합하는 능력 평가 |
| ARC-Challenge | 선택지형 과학 QA | 1,172개 | accuracy | 답 후보 생성 없이 evidence synthesis가 얼마나 잘 작동하는지 확인 |
이 구성에서 눈에 띄는 점은 저자들이 retrieval result를 완전히 새로 설계하지 않고, 기존 Self-RAG가 공개한 retrieval을 그대로 재사용했다는 것이다. 이는 MASS-RAG의 성능 향상이 retriever 개선이 아니라 post-retrieval processing의 효과에 가깝다는 점을 더 분명히 보여 준다. 즉 이 논문은 retriever와 generator를 동시에 바꾸는 end-to-end 개선이 아니라, 동일한 검색 결과를 더 잘 읽는 구조를 제안한다.
4.2 구현 세부사항: training-free 설정과 retrieval depth
실험은 일관되게 training-free, zero-shot / in-context 설정으로 진행된다. 디코딩은 greedy, temperature는 0, top-p는 1.0으로 고정된다. 이 선택은 평가의 초점을 generation stochasticity가 아니라 구조적 차이에 두기 위한 것이다. 만약 sampling variance가 크면 Summarizer, Extractor, Reasoner, Synthesis의 역할 차이를 분리해 보기 어려워지기 때문이다. 저자들은 retrieval 결과를 동일하게 둔 채, evidence processing layer의 변화만으로 성능이 얼마나 달라지는지 보려 한다.
문서 수는 Llama2-7B 실험에서는 top-5, 나머지 모델에서는 top-10을 기본 설정으로 사용한다. 논문이 별도 ablation을 둔 이유도 분명하다. retrieval depth가 늘어나면 유효 evidence가 더 많이 포함될 수 있지만, 동시에 noise도 커진다. MASS-RAG가 정말로 가치가 있으려면 top-k가 달라져도 구조적 이점을 유지해야 한다. 후반 결과를 보면 MASS-RAG는 top-5에서도 이미 강하고, top-10에서도 개선 폭을 유지하는 경향을 보인다.
또 하나 중요한 점은 Answer Agent가 태스크별로 선택적으로 켜진다는 것이다. ARC-Challenge에서는 중간 후보답보다 evidence synthesis가 더 중요하다고 보고 이를 비활성화한다. 반대로 factoid QA에서는 candidate answer를 명시적으로 만들고 비교하는 것이 도움이 될 수 있기 때문에 활성화한다. 이 설계는 결국 MASS-RAG가 단일한 하나의 파이프라인이라기보다, 질문 유형에 따라 evidence-to-answer 변환 단계를 조정하는 패밀리 구조라는 뜻이다.
| 항목 | 설정 | 의도 |
|---|---|---|
| 학습 방식 | training-free | 파인튜닝 없이 구조적 효과만 분리해 보기 위함 |
| 디코딩 | greedy, temperature 0, top-p 1.0 | sampling variance를 줄이고 구조 비교에 집중 |
| retrieval 문서 수 | Llama2-7B는 top-5, 그 외는 top-10 | 모델별 문맥 부담을 조절하면서 비교 |
| retriever | Self-RAG 공개 retrieval, Contriever(MS MARCO) | retriever 변경이 아닌 post-retrieval 개선을 측정 |
| Answer Agent | 태스크별 선택적 활성화 | candidate answer 단계의 실효성을 별도 확인 |
4.3 베이스라인과 계산 비용: 무엇과 공정하게 비교했는가
베이스라인은 크게 retrieval이 없는 모델, retrieval이 있는 비학습 방식, retrieval과 학습을 함께 사용하는 방식으로 나뉜다. 논문에서 특히 의미 있는 비교는 두 가지다. 하나는 Self-RAG와의 비교인데, 이는 같은 retrieval 기반 QA에서 학습된 retrieval-aware generator가 얼마나 강한 기준선인지 보여 준다. 다른 하나는 MAIN-RAG와의 비교인데, MASS-RAG가 동일하게 multi-agent 계열이지만 서로 다른 evidence organization을 가진 구조와 비교해 어느 정도 이득이 있는지 확인할 수 있다.
계산 자원은 NVIDIA RTX 4090 4장, 각 24GB 메모리 환경이며, 부록 설명상 7B/8B급 모델은 단일 24GB GPU에서도 실행 가능하고 13B를 넘으면 두 장 이상이 보통 필요하다고 정리한다. 연산 정밀도는 bfloat16이다. 이 정보는 단순한 실험 환경 보고에 그치지 않는다. MASS-RAG가 training-free라고 해도 agent 수가 늘면 호출 비용과 latency가 커지기 때문에, 실제 운영에서는 runtime overhead가 중요하다.
| 구분 | 내용 | 리뷰 포인트 |
|---|---|---|
| 비교군 | 무검색 LLM, Self-RAG, 일반 RAG, MAIN-RAG 등 | MASS-RAG가 retrieval 여부와 agent 설계를 모두 가로질러 비교됨 |
| 장비 | RTX 4090 4장, 각 24GB | 소형~중형 모델 중심의 현실적 GPU 세팅 |
| 정밀도 | bfloat16 | 추론 안정성과 메모리 절충을 감안한 선택 |
| 런타임 비용 | Answer Agent 포함 8x, 미포함 4x | training-free의 장점이 곧 low-cost를 뜻하지는 않음을 보여 줌 |
이 비용표는 나중에 한계점 논의에서 중요한 의미를 갖는다. MASS-RAG는 retriever를 재학습하지 않고 즉시 얹을 수 있다는 장점이 있지만, production cost 관점에서 보면 호출 수가 늘어난다. 따라서 이 논문의 질문은 “파인튜닝 없이 성능이 오르는가”에서 멈추지 않고, “그 성능 향상이 몇 배의 inference budget을 정당화하는가”까지 이어져야 한다. 특히 factoid QA와 long-form QA에서 Answer Agent의 효용이 다르다면, 실무에서는 태스크별로 agent 구성을 다르게 가져갈 가능성이 높다.
5. 주요 실험 결과: 성능은 얼마나 오르고, 어디서 가장 크게 벌어지는가
5.1 메인 결과: 네 벤치마크 전반에서의 상승과 지표별 trade-off
메인 결과에서 가장 먼저 볼 부분은 같은 backbone끼리 비교했을 때 MASS-RAG가 얼마나 이득을 가져오는지다. Llama3-8B 기준으로 보면, MASS-RAG는 TriviaQA 76.7, PopQA 64.2, ARC-Challenge 78.7, ASQA str-em 47.0을 기록한다. 동일 backbone의 MAIN-RAG는 각각 74.1, 64.0, 61.9, 39.2이므로, TriviaQA와 PopQA에서는 소폭, ARC-C와 ASQA에서는 큰 폭의 개선이 발생한다. 특히 ARC-C에서의 격차는 MASS-RAG가 선택지형 문제에서도 evidence reorganization 이점을 가질 수 있음을 보여 준다.
Llama2-7B 기반의 Self-RAG와 비교해도 패턴은 비슷하다. Self-RAG는 TriviaQA 66.4, PopQA 54.9, ARC-C 67.3, ASQA str-em 30.0이지만, MASS-RAG는 같은 계열 비교에서 68.6, 57.8, 72.2, 36.2를 기록한다. 즉 더 강한 backbone이 아니더라도 evidence를 다중 관점으로 분해하는 구조 자체가 의미 있는 이득을 준다. 이는 MASS-RAG의 기여가 단순히 Llama3-8B 같은 강한 모델에서만 살아나는 정교한 prompt trick이 아니라, retrieval 이후의 representation 설계라는 점을 지지한다.
다만 ASQA의 ROUGE와 MAUVE를 같이 보면 이야기는 더 복합적이다. MASS-RAG-Llama3-8B의 ASQA str-em은 47.0으로 MAIN-RAG-Llama3-8B의 39.2보다 높지만, ROUGE와 MAUVE는 각각 35.2, 55.2로 MAIN-RAG의 42.0, 70.6보다 낮다. 즉 MASS-RAG는 장문 QA에서 더 자주 정답 핵심을 맞히지만, 생성된 장문 텍스트의 표현 다양성이나 레퍼런스 유사도 측면에서는 더 좋다고 말하기 어렵다. 이 점은 MASS-RAG가 evidence aggregation에는 강하지만, long-form generation quality 전체를 압도한다고 보긴 어렵다는 중요한 제한을 드러낸다.
| 모델 / 방법 | TriviaQA | PopQA | ARC-C | ASQA str-em | ASQA ROUGE | ASQA MAUVE |
|---|---|---|---|---|---|---|
| Self-RAG (Llama2-7B) | 66.4 | 54.9 | 67.3 | 30.0 | 35.7 | 74.3 |
| MASS-RAG (Llama2-7B) | 68.6 | 57.8 | 72.2 | 36.2 | - | - |
| MAIN-RAG (Llama3-8B) | 74.1 | 64.0 | 61.9 | 39.2 | 42.0 | 70.6 |
| MASS-RAG (Llama3-8B) | 76.7 | 64.2 | 78.7 | 47.0 | 35.2 | 55.2 |
Figure 3: Self-RAG 및 MAIN-RAG와 비교한 MASS-RAG의 주요 벤치마크 성능
Figure 3은 MASS-RAG의 개선 폭이 어디에서 큰지 시각적으로 보여 준다. 좌측 패널에서 Self-RAG 대비 개선은 TriviaQA와 PopQA에서는 중간 수준이지만, ARC-C와 ASQA에서는 훨씬 크다. 우측 패널에서 MAIN-RAG와의 비교를 보면 PopQA는 거의 비슷한 반면 ARC-C와 ASQA에서 차이가 두드러진다. 즉 MASS-RAG의 장점은 모든 factoid QA를 일괄적으로 끌어올리는 데 있다기보다, 여러 evidence view의 비교가 실제로 필요한 문제군에서 더 선명하게 나타난다고 해석할 수 있다.
이 결과를 한 문장으로 요약하면, MASS-RAG는 retrieval이 이미 어느 정도 맞았을 때 그 결과를 더 잘 정리해 정답으로 연결하는 능력에서 강점을 보인다. 반면 장문 생성의 표현 품질 전체를 끌어올리는 것은 별개의 문제다. 따라서 논문의 메인 성과는 “RAG 전체를 더 잘한다”보다, retrieved evidence를 정답 친화적으로 재구성하는 데 특히 강하다로 읽는 편이 정확하다.
메인 표에서 짧게 언급만 된 Qwen3-8B 결과도 흥미롭다. 논문은 MASS-RAG-Qwen3-8B가 ARC-C 87.3, ASQA str-em 47.51, ROUGE 37.4 등 일부 지표에서 매우 강하다고 적는다. 즉 MASS-RAG의 효과는 특정 backbone 하나에만 묶여 있지 않으며, 더 강한 reasoning-capable backbone과 결합할수록 evidence view를 조합하는 능력이 더 커질 수 있음을 암시한다. 이 지점은 synthesis bottleneck을 다시 읽는 데도 중요하다. 결국 MASS-RAG의 상한선은 filter agent만이 아니라, 그 결과를 받아 최종 판정을 내리는 backbone의 품질에 같이 달려 있기 때문이다.
또 하나 짚어 둘 부분은 지표 해석의 층위다. TriviaQA와 PopQA의 accuracy는 정답 문자열을 얼마나 잘 복원했는지를 보여 주고, ARC-C의 accuracy는 선택지 판단에서 evidence integration이 얼마나 안정적인지를 보여 준다. 반면 ASQA의 str-em, ROUGE, MAUVE는 각각 서로 다른 의미를 가진다. str-em은 핵심 factual aspect를 담았는지를, ROUGE는 reference와의 lexical overlap을, MAUVE는 장문 출력의 분포적 자연스러움을 더 강하게 반영한다. MASS-RAG는 이 셋 가운데 첫 번째에는 강했지만 뒤의 둘에서는 우위가 약했다. 다시 말해 이 논문은 정답 핵심 회수에는 성공했지만, 그 사실들을 자연스러운 장문 서술로 풀어내는 문제까지 동시에 풀었다고 보기는 어렵다.
5.2 retrieval depth 변화: top-k가 달라져도 구조적 이득이 유지되는가
저자들은 retrieval 문서 수를 바꿨을 때 MASS-RAG가 얼마나 견고한지 별도 ablation으로 점검한다. top-5 설정에서 MASS-RAG-Llama3-8B는 TriviaQA 75.8, PopQA 61.5, ARC-C 79.9, ASQA em 45.2를 기록한다. 같은 top-5 조건의 Self-RAG는 66.4, 54.9, 67.3, 30.0이므로 격차가 상당하다. 이는 MASS-RAG가 단순히 더 많은 문서를 읽어서 이기는 구조가 아니라는 점을 시사한다. 문서 수가 적어도 evidence view를 분해하는 효과가 유지된다는 뜻이다.
top-10으로 늘렸을 때 MASS-RAG-Llama3-8B는 76.7, 64.2, 78.7, 47.0을 기록한다. 여기서 흥미로운 점은 모든 태스크가 문서 수 증가에 따라 동일한 방향으로 반응하지는 않는다는 것이다. TriviaQA와 PopQA는 완만한 상승을 보이지만, ARC-C는 오히려 top-5에서 79.9였다가 top-10에서는 78.7로 약간 떨어진다. 이는 retrieval depth 증가가 언제나 좋은 것이 아니라, task에 따라 noise와 useful evidence의 균형점이 다르다는 사실을 보여 준다. MASS-RAG는 그 균형점을 더 잘 버티지만, noise가 완전히 사라지는 것은 아니다.
| 설정 | TriviaQA | PopQA | ARC-C | ASQA em |
|---|---|---|---|---|
| Self-RAG top-5 | 66.4 | 54.9 | 67.3 | 30.0 |
| MASS-RAG top-5 (Llama3-8B) | 75.8 | 61.5 | 79.9 | 45.2 |
| MASS-RAG top-10 (Llama3-8B) | 76.7 | 64.2 | 78.7 | 47.0 |
이 결과는 retrieval depth 자체보다 retrieved evidence를 어떤 형태로 재배치하느냐가 더 중요할 수 있음을 보여 준다. 이는 이전에 정리한 query coverage 관점과도 연결된다. 질문 완성도가 이미 어느 정도 확보된 상황에서는 top-k를 조금 더 늘리는 것보다, 그 안에 들어온 단서들을 서로 다른 연산으로 읽게 만드는 편이 더 큰 효과를 낼 수 있다. MASS-RAG는 precisely 이 지점에서 이득을 보인다.
5.3 Answer Agent의 효과: factoid QA에는 도움, long-form QA에는 오히려 제약
Answer Agent는 MASS-RAG의 가장 실무적인 선택지다. 각 evidence view에서 한 번 더 답 후보를 만들어 synthesis에 넘기면, 최종 단계는 evidence 원문이 아니라 정리된 candidate answer를 비교하면 된다. 직관적으로는 항상 도움이 될 것 같지만, 논문은 그렇지 않다는 점을 분명히 보여 준다. TriviaQA에서는 Mistral 7B가 77.5 대 76.0, Llama3 8B가 79.9 대 79.3으로, Answer Agent를 켠 쪽이 낫다. factoid QA처럼 최종 답이 짧고 비교 기준이 분명한 문제에서는 중간 후보답의 생성이 효과적이라는 뜻이다.
하지만 PopQA에서는 모델별로 결과가 갈린다. Mistral 7B는 60.9 대 61.9로 오히려 악화되고, Llama3 8B는 64.2 대 62.6으로 좋아진다. 이는 candidate answer 단계가 단지 구조적 이점이 아니라 backbone의 통합 능력과도 강하게 상호작용함을 시사한다. 더 강한 모델은 각 view에서 만들어진 답 후보의 차이를 더 잘 활용할 수 있지만, 상대적으로 약한 모델은 후보답 단계에서 information loss를 겪을 수 있다.
ASQA에서는 패턴이 더 명확하다. Mistral 7B는 41.6 대 43.9, Llama3 8B는 47.0 대 48.0으로, 오히려 Answer Agent를 끈 쪽이 좋다. 장문/모호 질문에서는 evidence view를 바로 synthesis하는 편이 더 넓은 정보를 유지할 수 있기 때문이다. 후보답으로 먼저 수렴하면 근거의 표현 폭이 줄고, 여러 aspect를 동시에 보존해야 하는 long-form QA에서 불리해질 수 있다. 이 결과는 MASS-RAG가 사실상 question-type-aware pipeline depth를 요구하는 구조임을 잘 보여 준다.
| 태스크 | Mistral 7B (w/ Answer) | Mistral 7B (w/o Answer) | Llama3 8B (w/ Answer) | Llama3 8B (w/o Answer) |
|---|---|---|---|---|
| TriviaQA | 77.5 | 76.0 | 79.9 | 79.3 |
| PopQA | 60.9 | 61.9 | 64.2 | 62.6 |
| ASQA | 41.6 | 43.9 | 47.0 | 48.0 |
결국 Answer Agent는 MASS-RAG의 보편 해법이 아니라, 태스크와 backbone이 허락할 때 쓰는 선택적 가속기다. 이 점은 production 측면에서도 중요하다. Answer Agent를 넣으면 호출 수가 더 늘어나므로 비용이 커진다. 따라서 factoid QA에서 accuracy가 조금 더 오르는 상황과, long-form QA에서 오히려 떨어지는 상황을 함께 고려해야 한다. 논문이 이 결과를 솔직하게 보여 준 것은 장점이다. MASS-RAG를 하나의 만능 파이프라인이 아니라, task-aware assembly recipe로 이해해야 하는 이유가 여기에 있다.
5.4 왜 ARC-C와 ASQA에서 특히 차이가 크게 나는가
메인 결과에서 가장 눈에 띄는 것은 ARC-Challenge와 ASQA에서의 큰 개선 폭이다. 이 두 태스크는 표면적으로는 매우 다르다. ARC-C는 다지선다 과학 문제이고, ASQA는 장문 모호 질문이다. 그런데 둘 다 공통적으로 단일 evidence view 하나만으로는 안정적으로 답하기 어렵다는 특징을 갖는다. ARC-C는 선택지 간 미세한 차이를 가려야 해서 문맥 안의 직접 근거와 간접 추론이 동시에 필요하고, ASQA는 하나의 측면만 맞히는 것으로는 충분하지 않아 여러 relevant aspect를 함께 조직해야 한다. 바로 이 지점이 MASS-RAG의 다중 evidence view 설계와 맞물린다.
ARC-C에서 MAIN-RAG 대비 큰 차이가 난 것은 특히 의미가 있다. 선택지형 문제에서는 흔히 reasoning 능력만 강조되지만, 실제로는 선택지를 지지하는 근거 스팬 보존과, 그 스팬을 선택지 의미와 다시 맞물리게 하는 관계 재정리가 함께 필요하다. MASS-RAG는 Extractor가 직접 evidence를 보존하고, Reasoner가 문서 간 연결을 보강하며, 필요시 Summarizer가 주변 잡음을 줄여 주기 때문에 선택지형 QA에서 생기는 문맥 과부하를 덜 수 있다. 따라서 ARC-C의 상승폭은 “과학 문제를 더 잘 푼다”라기보다, 선택지 판단에 필요한 evidence packaging을 더 잘한다는 신호로 읽는 편이 타당하다.
ASQA에서 str-em이 크게 오른 것도 같은 맥락에서 이해할 수 있다. ASQA는 long-form generation 태스크지만, 그 본질은 긴 글쓰기 자체보다도 여러 relevant aspect를 빠뜨리지 않고 담는 것에 있다. MASS-RAG는 각 agent가 서로 다른 측면의 근거를 끌어올릴 수 있기 때문에, 장문 답변 안에 포함되어야 할 factual aspect를 더 잘 확보한다. 다만 앞서 본 것처럼 ROUGE와 MAUVE는 함께 오르지 않았다. 즉 MASS-RAG는 answer content selection에는 강하지만, selected content를 얼마나 자연스럽게 긴 답변으로 엮을지는 별개의 문제다. 이 구분을 해 두면 왜 str-em과 장문 품질 지표가 엇갈리는지 훨씬 이해하기 쉽다.
- ARC-C는 선택지 판단 전에 evidence를 어떻게 잘 정리하느냐가 중요하다.
- ASQA는 다양한 aspect를 빠짐없이 포함하는 content selection이 특히 중요하다.
- MASS-RAG는 두 태스크 모두에서 single-view answer generation보다 multi-view assembly가 유리한 문제라는 점을 보여 준다.
- 반면 long-form surface quality 자체는 아직 별도 개선 과제로 남아 있다.
6. 추가 분석 및 Ablation Study: 상보성은 어떻게 확인되고, 어디서 병목이 드러나는가
6.1 Uniquely Attributable Subset과 ECR: 세 agent는 정말 다른 evidence를 잡는가
저자들이 MASS-RAG를 설득력 있게 만드는 지점은 단순히 메인 리더보드가 아니다. 오히려 더 중요한 부분은 세 filter agent가 실제로 서로 다른 질문에서 상보적으로 작동한다는 것을 보여 주는 분석이다. 이를 위해 저자들은 Uniquely Attributable Subset이라는 별도 집합을 구성한다. 이는 정답 근거가 세 agent 중 정확히 하나의 filter response에서만 포착되는 질문들을 모아 둔 집합이다. 만약 이런 subset이 충분히 크고, 각 agent에 걸쳐 고르게 분포한다면, MASS-RAG의 분업은 단순 중복이 아니라 기능적 다양성을 갖는다고 볼 수 있다.
논문이 보고한 subset 크기는 Llama3 기준 TriviaQA 609, PopQA 108, Mistral 기준 TriviaQA 559, PopQA 85다. 이 수치는 결코 작지 않다. 즉 상당수 질문에서 Summarizer, Extractor, Reasoner 중 하나만이 결정적인 evidence를 잡아낸다는 뜻이다. retrieval 결과가 동일한데도 이런 차이가 난다는 점은, 단순 prompt variation이 아니라 evidence processing의 관점 차이가 실제 효과를 낸다는 간접 증거다.
Figure 4: Uniquely Attributable Subset에서 각 filter response의 Evidence Coverage Rate(ECR) 비교
Figure 4는 이 상보성을 좀 더 직접적으로 보여 준다. 그림은 Llama3 8B와 Mistral 7B 각각에 대해 TriviaQA와 PopQA의 uniquely attributable subset에서 각 filter response의 ECR을 비교한다. 핵심은 세 agent가 동일한 질문 집합에서 똑같은 강약 패턴을 보이지 않는다는 점이다. 어떤 subset에서는 Summarizer가, 다른 subset에서는 Extractor나 Reasoner가 더 높은 coverage를 보이며, 이는 MASS-RAG가 단순히 동일 evidence를 세 번 복제하는 구조가 아니라는 사실을 시각적으로 뒷받침한다.
이 분석은 CUE-R 같은 evidence utility 평가와 자연스럽게 연결된다. CUE-R가 개별 evidence item을 사후 개입으로 평가했다면, MASS-RAG는 어떤 evidence view가 실제로 답을 떠받치고 있는지 시스템 안에서 더 노출 가능한 상태로 만든다. 즉 evidence utility를 평가에서 설계로 한 단계 옮겨 온 셈이다. 또한 retrieval 품질을 query coverage 관점에서 보던 흐름과도 닿는다. retrieval 결과 안에 부분적 단서들이 이미 들어와 있을 때, 그 단서들을 각기 다른 view로 분해하면 coverage 부족이 완화될 수 있기 때문이다.
6.2 개별 filter agent와 synthesis의 관계: best single-agent를 항상 넘어서지는 못한다
논문은 RQ3에서 개별 filter response와 최종 synthesis의 정확도를 직접 비교한다. 이 표가 중요한 이유는, MASS-RAG의 성능 이득이 과연 “여러 agent가 있으니 무조건 더 좋다” 수준인지, 아니면 실제로 마지막 통합 단계가 좋은 evidence view를 잘 회수하는지 검증할 수 있기 때문이다. 결과는 절반의 성공에 가깝다. Llama3-8B에서는 TriviaQA에서 synthesis가 76.7로 Summarizer 73.7, Extractor 68.1, Reasoner 72.8보다 높다. 하지만 PopQA에서는 Summarizer가 65.7인데 synthesis는 64.2다. 즉 최종 통합이 항상 최고 단일 view를 넘어서는 것은 아니다.
Mistral 7B에서는 이 병목이 더 분명하다. Summarizer 73.8 / 61.2, Extractor 66.9 / 57.8, Reasoner 71.9 / 62.4에 비해 synthesis는 73.6 / 60.9다. TriviaQA에서는 Summarizer보다 약간 낮고, PopQA에서는 Reasoner보다도 낮다. 이는 filter stage가 꽤 좋은 intermediate representation을 만들더라도, backbone이 이를 하나의 최종 답으로 모으는 과정에서 손실이 발생할 수 있음을 보여 준다. 저자들이 stronger backbone일수록 upper bound에 더 가깝게 간다고 해석한 이유도 여기에 있다.
| 모델 / 응답 유형 | TriviaQA | PopQA |
|---|---|---|
| Llama3-8B Summarizer | 73.7 | 65.7 |
| Llama3-8B Extractor | 68.1 | 61.5 |
| Llama3-8B Reasoner | 72.8 | 63.0 |
| Llama3-8B Synthesis | 76.7 | 64.2 |
| Mistral-7B Summarizer | 73.8 | 61.2 |
| Mistral-7B Extractor | 66.9 | 57.8 |
| Mistral-7B Reasoner | 71.9 | 62.4 |
| Mistral-7B Synthesis | 73.6 | 60.9 |
이 결과는 MASS-RAG를 과대해석하지 않게 해 준다. 멀티에이전트 filtering은 분명 의미가 있지만, 마지막 synthesis가 이를 항상 잘 회수하는 것은 아니다. 다시 말해 MASS-RAG의 진짜 성과는 “최종 답변 품질이 무조건 최고”라기보다, 더 좋은 intermediate evidence candidate를 만들어 낸다는 데 있다. 이후 연구가 해야 할 일은 그 candidate들을 더 잘 판정하고 조합하는 방법을 설계하는 것이다. 이 지점이 바로 MASS-RAG의 다음 확장 방향으로 읽힌다.
6.3 케이스 스터디: 어떤 질문에서 어느 agent가 실제로 일을 하는가
논문의 case study는 MASS-RAG의 직관을 가장 쉽게 보여 주는 부분이다. 예컨대 PopQA에서 “Overture in G major의 작곡가”를 묻는 질문에서는 Summarizer가 Luigi Cherubini라는 정답을 잡아내지만, Extractor와 Reasoner는 정답을 확정하지 못한다. 이는 retrieval 결과 안에 비슷한 제목과 다른 조성의 작품 정보가 섞여 있을 때, 압축형 evidence가 오히려 혼선을 정리하는 데 유리할 수 있음을 보여 준다.
Figure 5: PopQA 사례에서 Summarizer, Extractor, Reasoner, Synthesis가 서로 다른 방식으로 정답을 다루는 장면
Figure 5의 사례는 요약형 evidence가 왜 필요한지 잘 보여 준다. 원문 스팬만 좇는 Extractor는 정답을 확정하기 어렵고, Reasoner는 비슷한 작품 제목과 주변 정보를 연결하려다 오히려 명확한 결론을 내리지 못한다. 반면 Summarizer는 질문 기준으로 불필요한 설명을 걷어내고 핵심 엔티티를 남기면서 정답 후보를 더 선명하게 만든다. 이 예시는 MASS-RAG가 단순히 reasoning을 더 세게 거는 구조가 아니라, 어떤 질문은 compression이 더 중요한 문제라는 점을 제도화했다는 사실을 보여 준다.
반대로 TriviaQA 사례에서는 추출형 또는 추론형 evidence가 더 중요해진다. Joey Richardson과 Vanessa Redgrave의 관계를 묻는 질문처럼 표기 혼동이 있는 경우, Extractor와 Summarizer가 함께 근거를 보강해 synthesis가 정답으로 수렴한다. 또 “first British team”과 “first English team”을 구분해야 하는 사례에서는 단순한 발췌보다 문서 간 관계를 재정리하는 Reasoner의 기여가 더 두드러진다. 즉 case study 전체를 읽어 보면 MASS-RAG의 분업은 임의적이 아니라, 질문 구조에 따라 정말 다른 연산이 필요하다는 주장에 맞춰 설계되어 있다.
Figure 6: TriviaQA 사례에서 에이전트별 evidence view가 어떻게 서로 보완되는지 보여 주는 예시
Figure 6은 TriviaQA 유형에서 상보성이 어떻게 작동하는지를 보여 준다. 이 유형의 질문은 표면적으로는 짧은 factoid QA처럼 보이지만, 실제로는 이름 표기 차이, 관계 서술의 간접성, 문장 간 연결 때문에 단일 extraction만으로 안정적이지 않을 때가 많다. MASS-RAG는 이런 문제에서 Summarizer와 Extractor가 명시적 단서를 정리하고, 필요시 Reasoner가 관계를 보강하도록 설계되어 있다. 결국 synthesis는 세 view 중 하나를 맹목적으로 고르는 것이 아니라, 질문이 요구한 비교 축을 가장 잘 채운 evidence 조합을 선택하는 단계가 된다.
- 어떤 질문은 Summarizer가 잡음을 줄여 주는 순간 정답이 선명해진다.
- 어떤 질문은 Extractor가 정확한 span을 보존해야 grounding이 무너지지 않는다.
- 또 다른 질문은 Reasoner가 문서 간 관계를 연결해야만 정답 후보가 성립한다.
- MASS-RAG의 핵심은 이 세 역할을 한 agent 안에서 동시에 최적화하려 하지 않는 데 있다.
- 실제 성능 차이는 결국 synthesis가 이런 상보적 evidence를 얼마나 잘 수렴시키는지에 달려 있다.
6.4 비용 대비 품질 해석: training-free의 장점과 inference-time 부담을 함께 봐야 한다
MASS-RAG를 practical system 관점에서 보면 가장 먼저 부딪히는 질문은 비용이다. 파인튜닝이 필요 없다는 말은 분명 매력적이다. 이미 운영 중인 retrieval + LLM 파이프라인 위에 agent 역할과 prompt만 추가해 곧바로 실험할 수 있기 때문이다. 하지만 이 장점은 학습 비용을 줄인 것이지, 실행 비용까지 낮춘 것을 뜻하지는 않는다. 오히려 agent 수가 늘어날수록 한 질문에 대해 호출되는 LLM 횟수는 명확히 증가한다.
논문이 보고한 runtime cost는 이 점을 수치로 확인해 준다. Answer Agent를 포함한 완전한 MASS-RAG는 baseline 대비 8x, Answer Agent를 뺀 구성도 4x 수준의 비용을 요구한다. 이 값은 단지 API 청구 금액만이 아니라, end-to-end latency, queueing delay, 동시성 제한, 그리고 production에서 감당 가능한 tail latency에도 직접 연결된다. 특히 factoid QA처럼 원래 짧고 빠르게 끝나던 작업에서는 이 비용이 더 크게 체감될 가능성이 높다.
반면 장점도 분명하다. retriever나 backbone을 다시 학습하지 않고도 성능을 끌어올릴 수 있고, intermediate evidence view를 남기기 때문에 실패 분석이 쉬워진다. 이 특성은 정확도 몇 점 이상의 의미를 갖는다. 운영 환경에서 사용자는 “틀렸다”는 사실보다 “왜 틀렸는지”를 더 빨리 알고 싶어할 때가 많기 때문이다. MASS-RAG는 그 이유를 Summarizer 단계의 압축 실패인지, Extractor의 grounding 실패인지, Reasoner의 관계 연결 실패인지로 더 세밀하게 좁혀 볼 수 있게 해 준다. 따라서 비용을 감수할 만한 상황은 단순 FAQ보다, 오류 분석과 설명 가능성이 중요한 고부가가치 QA 흐름일 가능성이 크다.
| 구성 | 상대 비용 | 기대 장점 | 실무적 해석 |
|---|---|---|---|
| MASS-RAG w/o Answer Agent | 4x | evidence view 분해 + 직접 synthesis | 장문 QA나 선택지형 QA에서 상대적으로 현실적인 기본형 |
| MASS-RAG w/ Answer Agent | 8x | candidate answer 비교로 factoid QA 강화 | 정답 문자열이 짧고 판정 기준이 명확한 질의에서만 선택적으로 쓰는 편이 낫다 |
이 표를 보면 자연스러운 다음 질문은 “모든 질문에 같은 비용을 쓸 필요가 있는가”다. 논문은 아직 이 부분을 다루지 않지만, 실제 확장 방향은 매우 선명하다. retrieval 결과의 길이, 엔티티 충돌 정도, 증거 간 모순 가능성, long-form 필요 여부를 먼저 판정한 뒤, 그때그때 Summarizer만 쓸지, Extractor와 Reasoner를 함께 돌릴지, Answer Agent까지 켤지를 결정하는 query-adaptive routing이 훨씬 합리적이다. MASS-RAG는 그 자체로 종결된 구조라기보다, 이런 동적 조합기로 발전할 수 있는 기반 설계에 가깝다.
7. 한계점 및 향후 연구 방향: retrieval 이후를 잘 풀지만, 끝까지 다 푼 것은 아니다
첫 번째 한계는 retriever upper bound에 여전히 묶여 있다는 점이다. MASS-RAG는 noisy, incomplete, heterogeneous context를 더 잘 다루지만, 정답에 필요한 핵심 evidence가 top-k 안에 아예 들어오지 않으면 복구할 수 없다. 저자들도 retrieval ranking의 한계 때문에 relevant evidence가 상위 결과에 없을 수 있다고 인정한다. 즉 MASS-RAG는 retrieval miss 자체를 해결하는 논문이 아니라, retrieval hit 이후의 scattered evidence 문제를 더 잘 다루는 논문이다.
두 번째 한계는 synthesis bottleneck이다. 개별 filter response가 synthesis보다 더 높은 정확도를 보이는 경우가 있다는 사실은, MASS-RAG가 intermediate evidence generation에서는 강하지만 final fusion에서는 아직 완성되지 않았다는 뜻이다. 특히 weaker backbone에서 이 문제가 더 크게 드러나는 것은, multi-agent filtering만으로는 충분하지 않고 최종 판정기의 품질도 별도의 연구 대상이라는 점을 보여 준다. 향후 연구는 evidence view를 더 잘 만드는 것 못지않게, 이 view들을 더 안정적으로 조합하는 confidence-aware synthesis로 향할 가능성이 높다.
세 번째 한계는 장문 QA에서의 품질 trade-off다. ASQA의 str-em이 오르는 것은 분명 좋은 결과지만, ROUGE와 MAUVE가 MAIN-RAG보다 낮다는 점은 장문 출력의 질적 측면이 여전히 과제로 남아 있음을 뜻한다. MASS-RAG는 사실적 aspect coverage를 늘리는 데 성공했을지 몰라도, 다양한 관점을 자연스럽게 풀어내는 long-form generation style까지 함께 개선했다고 보긴 어렵다. 실무에서 장문 보고서를 생성하는 RAG 시스템이라면 이 차이는 매우 중요하다.
마지막으로 연산 비용 문제도 무시하기 어렵다. 논문이 training-free를 장점으로 내세우지만, 추론 호출 수는 분명히 증가한다. Answer Agent를 포함하면 8x, 제외해도 4x의 runtime cost가 보고된다. 따라서 실제 서비스에서는 질문 난이도와 기대 품질에 따라 agent 구성을 동적으로 켜고 끄는 방향이 자연스럽다. 즉 MASS-RAG의 다음 단계는 더 많은 agent를 추가하는 것이 아니라, 필요한 순간에 필요한 agent만 호출하는 routing으로 갈 가능성이 높다.
| 한계 | 왜 중요한가 | 가능한 후속 방향 |
|---|---|---|
| retriever ceiling | 핵심 evidence가 top-k 밖이면 MASS-RAG도 복구 불가 | retrieval-aware routing, better recall modeling |
| synthesis bottleneck | best single-agent보다 낮은 최종 답이 발생 | confidence calibration, verifier-augmented fusion |
| long-form trade-off | str-em 상승이 곧 ROUGE/MAUVE 상승을 뜻하진 않음 | aspect coverage와 fluency를 분리한 synthesis 설계 |
| runtime overhead | training-free라도 inference budget은 커짐 | query-adaptive agent selection |
향후 연구 방향을 조금 더 구체화하면, 첫 번째 축은 agent selection을 learnable routing 문제로 바꾸는 일이다. 지금 논문은 Summarizer, Extractor, Reasoner를 거의 고정적으로 호출하고, 태스크 수준에서만 Answer Agent의 on/off를 결정한다. 하지만 실제 질의는 훨씬 다양하다. 인물 관계 질문, 긴 설명형 질문, 모순된 증거가 많은 질문, 정답 span이 명확한 질문은 서로 다른 evidence pipeline을 필요로 한다. 따라서 retrieval 결과의 엔티티 분산도, 문서 간 lexical overlap, 질문 길이, ambiguity score 같은 신호를 먼저 읽고, 어떤 agent 조합을 실행할지 결정하는 메타 정책이 붙는 순간 MASS-RAG의 비용 문제와 성능 문제를 동시에 다룰 수 있다.
두 번째 축은 verification-aware synthesis다. 현재 synthesis는 여러 evidence view 혹은 candidate answer를 받아 최종 답을 정리하지만, view들 사이의 상충 정도나 출처 일치도를 별도 변수로 다루지는 않는다. 만약 각 agent 출력에 대해 provenance consistency, source overlap, contradiction score를 같이 계산한다면, synthesis는 단순한 내용 병합이 아니라 evidence arbitration 단계가 될 수 있다. 이 방향은 long-form QA에서 particularly 중요하다. 장문 답변은 한 aspect만 맞아도 정답처럼 보일 수 있지만, 실제로는 여러 하위 주장 간 정합성이 더 중요하기 때문이다.
세 번째 축은 평가의 확장이다. 논문은 TriviaQA, PopQA, ASQA, ARC-C라는 네 개의 잘 알려진 벤치마크에서 설득력 있는 결과를 보였지만, 실사용 환경의 RAG는 더 긴 문서 체인, 더 높은 출처 충돌, 더 다양한 task format을 갖는다. 특히 웹 검색형 agent나 enterprise RAG에서는 retrieval 단계와 post-retrieval synthesis가 시간에 따라 반복되기 때문에, 한 번의 static QA보다 agent loop 전체의 안정성이 중요하다. MASS-RAG의 아이디어가 이런 setting에서도 유지되는지, 혹은 multi-turn search와 결합할 때 다른 failure mode가 생기는지를 보는 후속 검증이 필요하다.
여기서 중요한 함의는 MASS-RAG가 RAG를 더 modular하게 만들었다는 점이다. retriever, filter agents, answer generation, synthesis를 서로 다른 단위로 분리하면, 향후 연구는 각 층을 개별적으로 개선하거나 교체할 수 있다. 예를 들어 enterprise QA에서는 Extractor를 더 보수적인 출처 중심 모드로 바꾸고, consumer-facing long-form assistant에서는 Summarizer와 Synthesis를 더 풍부한 서술형 모드로 바꿀 수 있다. 이처럼 MASS-RAG는 하나의 고정 recipe이면서 동시에, 각 agent를 서로 다른 운영 요구에 맞춰 바꿔 끼울 수 있는 RAG orchestration template라는 의미도 가진다.
또한 이 논문은 retrieval quality와 answer quality 사이에 하나의 중간 층, 즉 evidence organization quality가 존재한다는 사실을 더 또렷하게 드러낸다. 지금까지 많은 RAG 논의는 retriever 성능과 최종 정답률만을 바로 연결해 왔지만, MASS-RAG는 그 사이에 evidence packaging, evidence arbitration, answer assembly라는 독립적인 최적화 대상이 있음을 보여 준다. 이 관점은 앞으로 RAG 시스템을 설계할 때도 유용하다. retriever를 조금 더 좋게 만드는 것과, 이미 들어온 evidence를 더 잘 정리하는 것 중 어디에 자원을 써야 하는지 판단하는 기준이 생기기 때문이다.
8. 내 해석: 증거를 더 잘 보이게 만드는 데는 성공했지만, 아직 잘 판정하는 단계가 약하다
나는 이 논문을 읽으면서 MASS-RAG를 retrieval 개선 논문이라기보다 post-retrieval evidence assembly를 다시 설계한 논문으로 보게 됐다. 이전에 다룬 CUE-R가 “어떤 evidence item이 실제로 일을 했는가”를 평가 프레임으로 물었다면, MASS-RAG는 그 질문을 시스템 구조 안으로 끌어온다. 또 Corpus2Skill이 retrieval 자체보다 corpus navigation을 바꾸는 방향이었다면, MASS-RAG는 retrieval은 둔 채 evidence packaging과 synthesis를 바꾼다. 그래서 이 논문의 가장 큰 장점은 검색이 끝난 다음 단계를 더 해부 가능한 단위로 나눴다는 데 있다. 다만 그만큼 약점도 선명하다. 개별 filter response가 synthesis보다 더 잘 나오는 장면을 보면, 지금 구조는 “좋은 intermediate view를 만드는 것”까지는 설득력이 있지만, “그 view들을 끝까지 가장 좋은 답으로 판정한다”는 단계는 아직 덜 단단하다.
내가 특히 걸리는 지점은 retriever upper bound와 synthesis upper bound가 동시에 남아 있다는 점이다. retrieval miss는 여전히 그대로고, retrieval hit가 되었더라도 최종 합성기가 best single-agent를 항상 넘어서지 못한다. 즉 MASS-RAG는 중간 표현의 다양성은 확보했지만, 그 다양성을 어디서 믿고 어디서 버릴지에 대한 판정 레이어가 아직 약하다. 이 때문에 논문이 보여 주는 성능 상승은 분명 유효하지만, 실제 서비스에 바로 넣으려면 질문 유형과 비용 한도를 고려한 훨씬 더 촘촘한 routing이 필요해 보인다.
내가 이 구조를 후속으로 확장한다면, 가장 먼저 붙여 볼 것은 query-adaptive agent routing + verifier-aware synthesis다. 질문이 명시적 fact lookup인지, 여러 문서를 가로지르는 composition인지, 아니면 장문 aspect coverage가 중요한지 먼저 진단한 다음 Summarizer, Extractor, Reasoner, Answer Agent의 호출 조합을 다르게 가져가고 싶다. 그리고 synthesis 직전에는 각 evidence view에 대해 출처 일치도, 상호 충돌 정도, 답 후보 간 합의 정도를 점수화해 verifier처럼 걸러낼 것이다. 그렇게 해야 MASS-RAG가 이미 잘 만든 intermediate evidence를 실제 final answer 품질로 더 안정적으로 회수할 수 있을 것 같다.
9. 결론: MASS-RAG는 RAG의 병목을 retrieval이 아니라 evidence assembly에서 다시 본다
MASS-RAG의 핵심 기여는 검색 결과를 더 많이 읽거나, 더 큰 generator를 쓰거나, retriever를 다시 학습시키는 데 있지 않다. 이 논문은 retrieval 이후의 evidence processing을 요약·추출·추론이라는 세 개의 중간 view로 나누고, 이를 다시 synthesis하는 구조를 통해 RAG의 취약한 지점을 정면으로 겨냥한다. 메인 결과에서 TriviaQA, PopQA, ARC-Challenge, ASQA 전반에 걸쳐 의미 있는 향상을 보였고, 특히 evidence가 흩어진 질문과 long-form ambiguous QA에서 구조적 이점을 드러냈다.
동시에 이 논문은 스스로의 한계도 분명히 보여 준다. ASQA에서 str-em은 올랐지만 ROUGE와 MAUVE는 더 높지 않았고, 개별 filter response가 synthesis를 이기는 경우도 있었다. 이 사실은 MASS-RAG를 더 흥미롭게 만든다. 이미 중요한 문제를 정확히 짚었지만, 아직 마지막 판정 레이어가 충분히 강하지 않기 때문이다. 그래서 MASS-RAG는 완성형 종착점이라기보다, evidence utility를 시스템 구조 안에서 더 직접적으로 다루기 시작한 출발점으로 읽는 편이 좋다.
RAG 연구를 retrieval, re-ranking, generation 세 축으로만 나눠 보는 관점에서는 MASS-RAG의 위치가 다소 애매해 보일 수 있다. 하지만 retrieval 이후를 세부 evidence operation으로 분해해 보면, 이 논문은 분명한 좌표를 갖는다. 검색 결과를 하나의 문맥으로만 다루지 말고, 서로 다른 evidence view를 통해 다시 조직하자는 제안이다. 이후 연구가 이 구조에 routing, verification, calibration을 더 얹는다면, MASS-RAG는 단순한 멀티에이전트 실험을 넘어 실전형 answer assembly engine으로 진화할 여지가 충분하다.
조금 더 넓게 보면 MASS-RAG는 최근 RAG 연구가 어디로 이동하고 있는지를 보여 주는 사례이기도 하다. 예전에는 retriever를 바꾸거나 LLM 크기를 키우는 것이 주된 해법처럼 보였지만, 이제는 같은 retrieval 결과를 두고도 중간 evidence representation을 어떻게 설계하느냐가 독립적인 연구 주제가 되고 있다. 이 흐름이 이어진다면 향후 RAG 시스템은 “retrieve once, generate once”보다 “retrieve, reorganize, verify, assemble”에 가까운 모듈형 구조로 갈 가능성이 높다. MASS-RAG는 그 전환을 꽤 선명하게 보여 준 논문이다.
따라서 이 논문의 가치는 단순히 benchmark 숫자 몇 줄에 있지 않다. 검색이 끝난 뒤에도 시스템이 해야 할 일이 많다는 사실, 그리고 그 일을 한 번에 묶지 말고 근거를 압축하고, 발췌하고, 연결하고, 다시 판정하는 단계로 나누어 보는 것이 유의미하다는 사실을 실험으로 보여 준 데 있다. 앞으로 RAG를 설계할 때 retriever와 generator만 볼 것이 아니라, 그 사이의 evidence organization layer를 독립 모듈로 상정하게 만든다는 점에서 MASS-RAG는 꽤 오래 남을 아이디어를 던진다.
실제로 이 논문을 읽고 나면 RAG 파이프라인을 보는 시선이 달라진다. 검색 결과를 받은 뒤 모델이 바로 답을 써 주길 기대하는 대신, 먼저 어떤 evidence view가 필요한지 묻고, 그 view들 사이의 충돌과 보완 관계를 따져 보는 쪽이 더 자연스럽다. 이 관점 변화 자체가 이미 큰 기여다. MASS-RAG는 retrieval 이후를 더 세밀한 설계 대상으로 끌어올렸고, 그 덕분에 후속 연구가 붙을 수 있는 문제 정의를 더 분명하게 남겼다.
같은 맥락에서 MASS-RAG는 RAG 연구의 평가 문법도 바꾸라고 요구한다. 앞으로는 정답률만이 아니라, 어느 evidence view가 실제 기여했는지, 최종 synthesis가 intermediate upper bound를 얼마나 회수했는지, 비용이 얼마나 추가되었는지까지 함께 읽어야 한다. 이런 다층적 판독 없이는 multi-agent RAG의 장점과 약점을 동시에 보기가 어렵다. MASS-RAG는 성능 향상과 함께 그 판독 틀의 필요성도 같이 남긴 논문이라고 할 수 있다.
이 점에서 MASS-RAG는 단지 새로운 agent 조합 하나를 제안한 논문이 아니라, RAG를 더 세분화된 공정으로 다루게 만드는 문제 제기이기도 하다. 검색이 끝나면 바로 generation으로 넘어간다는 오래된 관성을 흔들고, 그 사이에 어떤 evidence layer를 둘 수 있는지 생각하게 만든다는 점이 특히 크다. 이런 문제 제기는 이후의 routing, verification, calibration 연구가 붙을 자리를 미리 만들어 준다. 그래서 후속 작업의 발판이 된다. 의미가 크다. 분명하다. 충분하다.
10. 요약 정리
- MASS-RAG는 retrieval 이후 단계를 Summarizer, Extractor, Reasoner, 선택적 Answer Agent, 그리고 Synthesis Agent로 분해한 training-free RAG 구조다.
- 핵심 문제의식은 noisy, incomplete, heterogeneous retrieved context를 단일 generation 단계가 한 번에 처리하기 어렵다는 데 있다.
- 논문이 강조하는 차별점은 에이전트 수 자체보다 서로 다른 evidence view를 병렬 생성한다는 representation design에 있다.
- Llama3-8B 기준 MASS-RAG는 TriviaQA 76.7, PopQA 64.2, ARC-C 78.7, ASQA str-em 47.0으로 MAIN-RAG 대비 전반적 향상을 보였다.
- 다만 ASQA에서 ROUGE 35.2, MAUVE 55.2는 MAIN-RAG보다 낮아, long-form generation quality 전체를 개선했다고 보긴 어렵다.
- retrieval depth ablation에서는 top-5에서도 강한 결과를 보여, 단순히 더 많은 문서를 읽어서 이기는 구조가 아님을 시사한다.
- Answer Agent는 factoid QA에는 대체로 도움을 주지만, ASQA 같은 장문 QA에서는 오히려 성능을 낮출 수 있어 태스크별 선택이 필요하다.
- 개별 filter response가 synthesis를 이기는 경우가 있어, MASS-RAG의 다음 과제는 better synthesis, confidence calibration, query-adaptive routing으로 정리된다.