[논문 리뷰]/[최신 논문] / [arXiv 2501.06713] MiniRAG: 소형 언어 모델을 위한 극도로 간결한 RAG 시스템.md

[arXiv 2501.06713] MiniRAG: 소형 언어 모델을 위한 극도로 간결한 RAG 시스템

2026. 2. 16. 20:13 조회

MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation

https://arxiv.org/abs/2501.06713 | HTML | GitHub

Tianyu Fan, Jingyuan Wang, Xubin Ren, Chao Huang | University of Hong Kong | arXiv:2501.06713 | 2025년 1월

1. 서론: 경량 RAG의 필요성과 소형 언어 모델의 도전

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 최근 자연어 처리 분야에서 가장 주목받는 패러다임 중 하나로 자리잡았다. RAG 시스템은 대규모 언어 모델(LLM)이 외부 지식 소스에서 관련 문서를 검색하여 응답 생성에 활용하는 구조를 따르며, 이를 통해 모델의 파라메트릭 지식만으로는 답하기 어려운 사실적 질문에 대해서도 외부 근거에 기반한 정확하고 신뢰할 수 있는 답변을 가능하게 한다. 질의응답, 문서 합성, 정보 추출 등 다양한 응용 분야에서 RAG 시스템은 인상적인 성능을 보여주었으며, 이러한 성공의 핵심에는 정교한 검색 메커니즘과 강력한 언어 모델의 결합이 자리하고 있다.

그러나 현재의 RAG 프레임워크는 파이프라인 전반에 걸쳐 대규모 언어 모델에 과도하게 의존하고 있다는 근본적인 문제를 안고 있다. 인덱스 구축에서부터 지식 검색, 최종 응답 생성에 이르기까지, LLM에 대한 광범위한 의존은 상당한 연산 오버헤드와 자원 요구사항을 수반한다. 이는 다음과 같은 자원 제한 환경에서의 배포에 심각한 장벽을 형성한다:

엣지 디바이스: 스마트폰, 태블릿, IoT 기기 등 연산 자원이 제한된 환경에서의 실행
프라이버시 민감 애플리케이션: 사용자의 개인 데이터를 외부 서버로 전송하지 않고 로컬에서 처리해야 하는 요구사항
오프라인/실시간 시스템: 네트워크 연결이 불안정하거나 존재하지 않는 환경, 또는 빠른 응답이 필요한 상황

이러한 맥락에서 소형 언어 모델(Small Language Model, SLM)을 활용한 RAG 시스템 구축은 자연스러운 해결 방향으로 떠오르고 있다. SLM은 연산 효율성과 배포 유연성 측면에서 상당한 이점을 제공하지만, 기존의 RAG 아키텍처를 SLM에 그대로 적용할 경우 심각한 문제가 발생한다는 점이 본 논문의 핵심 출발점이다. 논문은 LightRAG와 GraphRAG 같은 현재의 RAG 아키텍처가 본래 LLM의 정교한 역량을 활용하도록 설계되었기 때문에, 정교한 질의 해석, 다단계 추론, 질의와 문서 간의 의미론적 매칭, 미묘한 정보 합성 등 여러 핵심 기능에서 SLM의 본질적 제약을 수용하지 못한다고 지적한다. 이러한 아키텍처적 불일치는 두 가지 중대한 형태로 나타난다:

심각한 성능 저하: LightRAG의 경우 LLM에서 SLM으로 전환 시 정확도가 56.90%에서 35.42%로 급락
완전한 시스템 장애: GraphRAG는 고품질 콘텐츠를 생성할 수 없어 SLM 환경에서 아예 시스템이 작동하지 않는 완전한 실패를 경험

이러한 근본적인 도전을 해결하기 위해, 홍콩대학교(University of Hong Kong) 연구팀의 Tianyu Fan, Jingyuan Wang, Xubin Ren, Chao Huang은 MiniRAG라는 새로운 RAG 시스템을 제안한다. MiniRAG는 극단적인 단순성과 연산 효율성에 초점을 맞추어 정보 검색 및 생성 파이프라인을 근본적으로 재구상한 시스템이다. 논문은 MiniRAG의 설계가 소형 언어 모델에 대한 세 가지 근본적 관찰에 의해 동기 부여되었다고 서술한다:

SLM은 정교한 의미론적 이해에는 어려움을 겪지만, 패턴 매칭과 지역화된 텍스트 처리에서는 뛰어난 성능을 보인다.
명시적인 구조적 정보가 제한된 의미론적 역량을 효과적으로 보상할 수 있다.
복잡한 RAG 작업을 더 단순하고 잘 정의된 단계로 분해하면, 고급 추론 역량 없이도 시스템의 견고성을 유지할 수 있다.

이러한 통찰을 바탕으로 MiniRAG는 두 가지 핵심 기술 혁신을 도입한다. 첫 번째는 텍스트 청크와 명명된 개체(named entity)를 통합 구조에서 체계적으로 결합하여 복잡한 의미론적 이해에 대한 의존도를 줄이는 의미 인식 이질적 그래프 인덱싱(semantic-aware heterogeneous graph indexing) 메커니즘이다. 두 번째는 고급 언어 역량 없이도 효율적인 지식 발견을 위해 그래프 구조와 휴리스틱 검색 패턴을 활용하는 경량 토폴로지 강화 검색(topology-enhanced retrieval) 접근법이다. 광범위한 실험을 통해, MiniRAG는 기존 경량 RAG 시스템 대비 1.3배에서 2.5배 높은 효과성을 달성하면서도 저장 공간은 25%만 사용하는 것으로 나타났다. LLM에서 SLM으로의 전환 시에도 정확도 감소가 0.8%에서 20% 범위에 머물며 놀라운 견고성을 유지한다.

2. 배경: 소형 언어 모델과 검색 증강 생성의 현황

2.1 소형 언어 모델(SLM)의 등장과 발전

소형 언어 모델(SLM)의 등장은 엣지 디바이스에서 작동할 수 있는 경량화되고 효율적이며 프라이버시를 보존하는 AI 솔루션에 대한 증가하는 수요에 의해 추진되었다. 대규모 언어 모델이 연산 자원과 배포 비용 측면에서 가지는 한계를 해결하기 위한 방향으로서, 최근의 발전은 다수의 주목할 만한 모델들을 탄생시켰다:

MiniCPM3-4B: 4B 파라미터로 인상적인 범용 성능을 보이는 경량 모델
Phi-3.5-mini: Microsoft의 3.8B 파라미터 모델로, 추론 속도와 정확도의 균형이 우수
Llama-3.2-3B: Meta의 3B 파라미터 모델로, 다양한 태스크에서 강력한 성능 입증
Qwen2.5-1.5B, Gemma-2-2B, SmolLM-1.7B, MobiLlama-1B: 1~2B 규모의 초경량 모델들

이들 모델은 상당히 적은 파라미터 수를 유지하면서도 인상적인 성능을 입증하였으며, 특히 추론 속도, 배포 유연성, 프라이버시 보존에서 탁월하여 자원이 제한된 환경에 특히 적합하다. 스마트폰, 태블릿, IoT 기기 등 다양한 엣지 디바이스에서 직접 실행될 수 있어, 클라우드 서버에 대한 의존 없이도 지능형 기능을 제공할 수 있다는 점에서 중요한 의미를 가진다.

나아가, 자원이 제한된 환경에서의 시각-언어 이해를 촉진하기 위해, 연구자들은 단일 모달 SLM에 시각적 역량을 효율적으로 확장하여 다중 모달 SLM을 개발해왔다. MiniCPM-V 2.0, Qwen2-VL, Phi-3-vision, InternVL2-2B 등이 대표적인 사례로, 이러한 다중 모달 SLM은 소형 모델의 연산 효율성 이점을 유지하면서도 시각적 이해와 텍스트 이해를 결합하는 놀라운 역량을 보여주었다. 그러나 SLM이 언어 이해와 다중 모달 태스크에서 인상적인 역량을 입증했음에도, 효율적인 모델을 RAG 태스크에 활용하는 잠재력은 대부분 미개척 상태로 남아 있었다. 논문은 이 연구 간극을 SLM이 연산 효율성과 배포 유연성이라는 본질적 이점을 온전히 유지하면서도 RAG 태스크를 효과적으로 수행할 수 있게 하는 새로운 프레임워크를 도입함으로써 체계적으로 메운다고 서술한다.

2.2 검색 증강 생성(RAG)의 기존 접근법

검색 증강 생성(RAG) 시스템은 외부 데이터베이스에서 관련 지식을 검색하여 언어 모델의 응답을 향상시키는 패러다임이다. 이 과정은 인덱싱(indexing), 검색(retrieval), 생성(generation)의 세 가지 주요 구성 요소로 이루어진다. 원시 텍스트 집합이 주어지면, 시스템은 먼저 이를 데이터베이스로 처리하고, 사용자 질의에 기반하여 관련 정보를 검색한 후, 최종적으로 답변을 생성한다. 데이터베이스 구축에는 크게 두 가지 주요 접근법이 등장하였다:

청크 기반(chunks-based) 방법은 텍스트를 검색 가능한 단위로 분할하는 접근법이다. 대표적인 NaiveRAG는 문서를 청크로 분할하여 벡터 데이터베이스에 저장하고, 질의와 청크 임베딩 간의 직접적인 유사도 매칭을 통해 검색을 수행한다. ChunkRAG와 RQ-RAG는 텍스트 분할 및 청크 검색 전략을 최적화하는 데 초점을 맞추고 있다. 이 방법은 LLM에 대한 의존도가 낮아 SLM과의 호환성이 비교적 양호하지만, 청크 간의 관계나 문서 전체의 구조적 정보를 활용하지 못한다는 한계가 있다.

그래프 기반(graph-based) 방법은 정보를 지식 그래프로 구조화하는 접근법이다. GraphRAG는 언어 모델과 Leiden 알고리즘을 통한 개체 클러스터링을 활용하여 그래프 기반 인덱싱을 수행하며, 커뮤니티 보고서를 생성하고 지역-전역 정보 접근을 통합 검색 메커니즘으로 결합한다. LightRAG는 지식 그래프를 활용한 이중 수준 검색 아키텍처를 구현하여, 질의를 계층적 구성 요소(저수준 세부사항과 고수준 개념)로 분해함으로써 더 정밀한 문서 검색을 가능하게 한다. 그러나 기존의 대부분의 그래프 기반 방법은 큰 컨텍스트 윈도우나 강력한 의미론적 이해 역량을 필요로 하며, 이는 소형 경량 언어 모델에서의 적용 가능성을 제한한다.

특히 그래프 기반 접근법들은 개체 추출, 관계 설명 생성, 커뮤니티 요약 등의 과정에서 LLM의 정교한 텍스트 생성 능력에 크게 의존하고 있다. SLM은 이러한 복잡한 텍스트 생성 태스크에서 현저히 낮은 품질의 출력을 생산하며, 이는 인덱스 자체의 품질 저하로 이어져 전체 시스템의 성능을 심각하게 훼손한다. 이러한 격차가 자원이 제한된 시나리오에 적합한 더 효율적인 RAG 시스템의 개발을 동기 부여하며, 이것이 바로 MiniRAG가 해결하고자 하는 핵심 과제이다.

3. MiniRAG 프레임워크의 전체 구조

MiniRAG의 전체 아키텍처는 크게 두 가지 핵심 구성 요소로 이루어져 있다. 첫 번째는 의미 인식 지식 표현을 생성하는 이질적 그래프 인덱싱(heterogeneous graph indexing)이고, 두 번째는 효율적이고 정확한 정보 검색을 가능하게 하는 경량 그래프 기반 지식 검색(lightweight graph-based knowledge retrieval)이다. 이 두 구성 요소는 온디바이스 RAG 시스템이 직면하는 고유한 도전을 해결하기 위해 설계되었으며, 효율성과 효과성 모두를 최적화하는 것을 목표로 한다.

Figure 1: MiniRAG의 전체 워크플로우 개요. 이질적 그래프 인덱싱(왼쪽)과 경량 그래프 기반 지식 검색(오른쪽)이라는 두 가지 핵심 구성 요소 위에 구축된 간소화된 워크플로우를 보여준다. 이 아키텍처는 온디바이스 RAG 시스템이 직면하는 고유한 도전을 해결하며, 효율성과 효과성 모두를 최적화한다.

Figure 1은 MiniRAG의 전체 워크플로우를 시각적으로 보여준다. 왼쪽 부분은 인덱싱 단계로서, 원시 텍스트로부터 텍스트 청크 노드와 개체 노드를 추출하여 이질적 그래프를 구축하는 과정을 나타낸다. 오른쪽 부분은 검색 및 생성 단계로서, 사용자의 질의가 입력되면 그래프 구조를 활용하여 관련 정보를 탐색하고, 최종적으로 SLM을 통해 응답을 생성하는 과정을 보여준다. 특히 주목할 점은 텍스트 청크 노드(파란색)와 개체 노드(주황색)가 하나의 통합된 그래프 구조 내에서 공존하며, 이들 사이의 연결이 의미론적 관계를 인코딩한다는 것이다.

전통적인 RAG 시스템이 LLM의 강력한 언어 이해 능력에 의존하여 인덱스를 구축하고 검색을 수행하는 것과 달리, MiniRAG는 구조적 정보를 적극 활용하여 SLM의 제한된 의미론적 역량을 보완하는 접근법을 취한다. MiniRAG의 설계 철학에서 핵심적인 것은 SLM의 강점을 활용하면서 약점을 보완하는 것이다. SLM은 복잡한 추론이나 장문의 텍스트 요약에는 취약하지만, 개체명 인식(Named Entity Recognition)과 같은 상대적으로 단순하고 잘 정의된 태스크에서는 양호한 성능을 보인다. 따라서 MiniRAG는 인덱싱 과정에서 SLM에게 복잡한 관계 설명이나 커뮤니티 요약을 요구하는 대신, 개체 추출이라는 비교적 간단한 태스크를 할당한다. 이러한 설계는 전체 시스템이 각 구성 요소의 단순함에도 불구하고 시너지적으로 높은 성능을 달성할 수 있게 하며, 이것이 MiniRAG가 "극단적으로 단순한(extremely simple)" RAG를 지향한다는 논문 제목의 의미이기도 하다.

4. 이질적 그래프 인덱싱: 소형 언어 모델의 한계를 구조로 극복하다

4.1 소형 언어 모델의 두 가지 핵심 한계

자원이 제한된 RAG 시스템에서 SLM은 효과성에 영향을 미치는 상당한 운영적 제약을 도입한다. 논문은 이러한 한계가 주로 두 가지 핵심 영역에서 나타난다고 서술한다:

한계 1 — 개체 관계 추출 능력의 감소: 원시 텍스트 말뭉치에서 복잡한 개체 관계와 미묘한 맥락적 연결을 추출하고 이해하는 능력이 LLM에 비해 현저히 떨어진다. LLM은 텍스트의 전체적인 맥락을 파악하고 개체 간의 암시적 관계까지 포착하여 풍부한 설명을 생성할 수 있지만, SLM은 이러한 깊이 있는 이해에 한계를 보인다.
한계 2 — 대량 텍스트 처리 능력의 저하: 대량의 텍스트를 효과적으로 요약하고, 노이즈와 무관한 내용을 포함하는 검색된 정보를 처리하는 능력이 떨어진다. SLM은 긴 컨텍스트 내에서 질의와 관련된 핵심 정보를 정확히 식별하고 추출하는 데 어려움을 겪으며, 무관한 내용에 의해 쉽게 산만해지는 경향이 있다.

Figure 2: LLM과 SLM의 비교. 왼쪽: SLM은 LLM에 비해 현저히 낮은 품질의 개체 설명을 생성한다(한계 1). 오른쪽: 동일한 입력을 처리할 때, SLM은 대규모 컨텍스트에서 관련 정보를 찾는 데 어려움을 겪는 반면, LLM은 이 태스크를 효과적으로 수행한다(한계 2).

Figure 2는 SLM(Phi-3.5-mini)과 LLM(gpt-4o-mini)의 비교를 통해 이러한 한계를 실제로 보여준다. 논문은 두 모델 모두 "HOUSE RULES"라는 개체를 식별하지만, SLM의 설명은 구체적인 세부사항이 부족하며 원문 텍스트에 존재하는 규칙과 목적을 포착하지 못한다고 서술한다. 기존의 대표적인 그래프 기반 RAG 시스템인 LightRAG나 GraphRAG에서는 이러한 개체에 대한 텍스트 설명이 전체 인덱스의 품질을 결정짓는 가장 핵심적인 요소이기 때문에, SLM으로 생성된 저품질 설명은 전체 시스템의 검색 정확도를 심각하게 훼손한다.

이러한 실증적 분석은 MiniRAG의 설계 방향에 중요한 시사점을 제공한다. 인덱싱 메커니즘은 소형 모델의 감소된 개체 이해 및 요약 능력에도 불구하고 데이터 내의 핵심 관계와 맥락적 연결을 추출해야 하며, 동시에 검색된 내용을 질의와 가장 관련 있는 요소로 압축하여 소형 모델의 혼란을 최소화해야 한다. MiniRAG의 이질적 그래프 인덱싱은 바로 이 두 가지 목표를 동시에 달성하기 위해 설계되었다.

4.2 의미 인식 이질적 그래프의 구조와 설계 원리

앞서 분석한 도전을 해결하기 위해, MiniRAG는 의미 인식 이질적 그래프(Semantic-Aware Heterogeneous Graph)를 생성하는 데이터 인덱싱 메커니즘을 제안한다. 이 그래프 구조는 원시 텍스트에서 추출된 텍스트 청크와 명명된 개체 모두를 체계적으로 통합하여, 정밀한 정보 검색을 촉진하는 풍부한 의미론적 네트워크를 형성한다. 기존의 그래프 기반 RAG 시스템인 GraphRAG나 LightRAG가 개체 노드와 그들 간의 관계만으로 그래프를 구성하는 것과 달리, MiniRAG의 이질적 그래프는 텍스트 청크 자체를 노드로 직접 포함시킨다는 점에서 근본적인 차이를 보인다.

구축된 이질적 그래프에서 노드는 두 가지 주요 유형으로 구성된다:

텍스트 청크 노드(Text Chunk Node, $\mathcal{V}_c$): 원본 텍스트의 일관된 세그먼트로서 맥락적 완전성을 보존하는 역할을 한다. 각 청크는 단독으로도 충분히 의미 있는 정보 단위를 형성하며, 검색 단계에서 원본 텍스트에 직접 접근할 수 있는 통로를 제공한다.
개체 노드(Entity Node, $\mathcal{V}_e$): 청크에서 추출된 핵심 의미론적 요소를 나타낸다. 이벤트, 위치, 시간적 참조, 도메인 특화 개념 등이 포함되며, 의미론적 이해를 정박(anchor)하는 역할을 수행한다.

이 이중 노드 설계는 데이터 청크가 검색 단계에 직접 참여할 수 있게 하여, 가장 맥락적으로 관련 있는 내용의 식별을 보장한다. 이 접근법은 소형 언어 모델의 제한된 요약 능력에서 발생할 수 있는 정보 왜곡을 효과적으로 완화한다. 기존의 그래프 기반 RAG에서는 개체와 관계 설명만으로 인덱스를 구성하기 때문에 검색 결과가 원본 텍스트의 맥락을 충분히 반영하지 못할 수 있다. 반면, MiniRAG는 개체 노드를 통해 구조적 탐색을 수행하되, 최종적으로는 개체-청크 연결을 따라 원본 텍스트 청크에 도달함으로써, 구조적 검색의 효율성과 원문 기반 응답 생성의 정확성을 동시에 달성한다.

이질적 그래프 내에서 노드 간의 연결 엣지는 두 가지 근본적인 유형으로 나뉜다:

개체-개체 연결(Entity-Entity Connections, $\mathcal{E}_\alpha$): 명명된 개체 간의 의미론적 관계, 계층적 구조, 시간적 또는 공간적 의존성을 포착하는 링크이다. 예를 들어, 2024 파리 올림픽 여행 계획 문서를 인덱싱할 때, 경기장 위치(Stade de France), 이벤트 일정(수영 결승), 교통 옵션(지하철 13호선), 인근 명소(에펠탑) 사이에 개체-개체 연결이 수립된다.
개체-청크 연결(Entity-Chunk Connections, $\mathcal{E}_\beta$): 명명된 개체와 해당 개체가 추출된 소스 맥락 간의 다리 역할을 하며, 맥락적 관련성과 의미론적 일관성을 보존한다. 위 예에서, 각 개체는 티켓 가용성, 현지 숙소 리뷰, 최적 여행 경로를 논의하는 관련 텍스트 세그먼트에 연결된다.

관계적 의미론적 이해를 더욱 촉진하기 위해, MiniRAG는 지식 그래프의 각 엣지에 언어 모델이 생성한 의미론적 설명을 부가한다. 구체적으로, 개체를 해당 청크에 연결하는 각 엣지 $e_\beta \in \mathcal{E}_\beta$에 대해, 언어 모델을 사용하여 해당 개체의 설명 $d_{e_\beta}$를 이 엣지의 보충 정보로 생성한다. 이 설명은 개체에 대한 상세한 내용을 제공하고, 추출된 개체와 관련 청크 간의 의미론적 관계를 반영한다. 텍스트 속성 엣지(text-attributed edge) $(e_\beta, d_{e_\beta}) \in \mathcal{E}_\beta$를 통해, 그래프의 각 연결은 단순한 구조적 링크를 넘어 풍부한 의미론적 정보를 담게 된다.

여기서 중요한 점은, 이러한 설명 생성이 기존의 GraphRAG나 LightRAG에서 요구하는 복잡한 관계 설명이나 커뮤니티 요약에 비해 상대적으로 단순한 태스크라는 것이다. SLM은 개체와 그 소스 텍스트 사이의 직접적인 관계를 설명하는 데는 비교적 양호한 성능을 보이므로, 이 설계는 SLM의 역량 범위 내에서 효과적으로 작동한다.

4.3 이질적 그래프의 수식적 정의

요약하면, MiniRAG 프레임워크 내의 인덱싱 프로세스는 개체 노드와 청크 노드 모두를 의미 인식 연결과 함께 포함하는 이질적 그래프 $\mathcal{G}$를 산출한다. 이를 수식으로 표현하면 다음과 같다:

$$\mathcal{D} = \mathcal{G} = (\{\mathcal{V}_c, \mathcal{V}_e\}, \{\mathcal{E}_\alpha, (e_\beta, d_{e_\beta}) \in \mathcal{E}_\beta\})$$

이 수식의 각 구성 요소는 다음과 같은 의미를 가진다:

$\mathcal{D}$: 인덱싱된 데이터 전체를 나타내는 기호
$\mathcal{G}$: 구축된 이질적 그래프
$\mathcal{V}_c$: 텍스트 청크 노드의 집합 — 원본 텍스트의 맥락적 완전성을 보존
$\mathcal{V}_e$: 개체 노드의 집합 — 핵심 의미론적 요소를 나타냄
$\mathcal{E}_\alpha$: 개체-개체 연결의 집합 — 개체 간 의미론적 관계 포착
$(e_\beta, d_{e_\beta}) \in \mathcal{E}_\beta$: 의미론적 설명이 부가된 텍스트 속성 개체-청크 연결의 집합

이 그래프 구조의 핵심적 장점은, 텍스트 청크를 그래프의 일급 시민(first-class citizen)으로 취급함으로써 검색 단계에서 원본 텍스트에 직접 접근할 수 있다는 것이다. 기존의 그래프 기반 RAG에서는 개체와 관계 설명만으로 인덱스를 구성하기 때문에, 검색 결과가 원본 텍스트의 맥락을 충분히 반영하지 못할 수 있다. 반면, MiniRAG는 개체 노드를 통해 구조적 탐색을 수행하되, 최종적으로는 개체-청크 연결을 따라 원본 텍스트 청크에 도달함으로써, 구조적 검색의 효율성과 원문 기반 응답 생성의 정확성을 동시에 달성한다.

4.4 이질적 그래프의 구축 과정

MiniRAG의 이질적 그래프 구축 과정은 크게 세 단계로 구분할 수 있다:

텍스트 청킹(Text Chunking): 원시 텍스트를 1,200 토큰 크기의 일관된 세그먼트로 분할하되, 100 토큰의 오버랩을 유지하여 경계에서의 정보 손실을 방지한다. 이 과정은 규칙 기반의 텍스트 처리이므로 별도의 언어 모델 없이도 수행 가능하며, 연산 비용이 매우 낮다.
개체 추출(Entity Extraction): 각 청크에서 SLM을 활용하여 이벤트, 위치, 인물, 시간적 참조, 도메인 특화 개념 등의 명명된 개체를 식별한다. 이 단계가 MiniRAG에서 SLM이 가장 핵심적으로 관여하는 부분이며, 개체명 인식이라는 비교적 잘 정의된 태스크에 해당하므로 SLM에서도 양호한 품질의 결과를 기대할 수 있다.
그래프 구성(Graph Construction): 추출된 개체들과 소스 청크 사이에 연결을 수립하고, 각 개체-청크 연결에 SLM이 생성한 간결한 설명을 부가한다. 개체 간의 연결($\mathcal{E}_\alpha$)은 동일한 청크에서 추출된 개체들 사이에 자동으로 수립되거나, SLM의 판단에 의해 의미론적으로 관련된 개체들 사이에 수립된다.

이 구축 과정에서 주목할 점은, 기존의 그래프 기반 RAG에서 가장 LLM 의존적인 단계인 "관계 설명 생성"과 "커뮤니티 요약"이 MiniRAG에서는 대폭 간소화되었다는 것이다. GraphRAG에서는 개체 간의 관계를 상세하게 설명하는 텍스트를 생성하고, 이를 기반으로 커뮤니티를 형성한 후 각 커뮤니티에 대한 종합적인 요약 보고서를 생성해야 한다. 이러한 과정은 LLM의 강력한 텍스트 이해와 생성 능력을 전제로 하며, SLM에서는 저품질 출력이 생성되어 시스템 전체가 붕괴한다. MiniRAG는 이러한 복잡한 텍스트 생성을 개체에 대한 간결한 설명으로 대체함으로써, SLM의 역량 범위 내에서 충분한 의미론적 정보를 인코딩하면서도 시스템의 안정성을 보장한다.

4.5 기존 인덱싱 방식과의 핵심 차이점

MiniRAG의 이질적 그래프 인덱싱이 기존 방식과 어떻게 다른지를 체계적으로 비교하면, 각 방식의 설계 철학과 SLM 호환성의 차이가 명확히 드러난다.

비교 항목	NaiveRAG	GraphRAG	LightRAG	MiniRAG
인덱싱 방식	청크 벡터	KG + 커뮤니티 보고서	KG 이중 수준	이질적 그래프
LLM 의존도	낮음	매우 높음	높음	낮음
SLM 호환성	양호	실패	저조	우수
구조적 검색	미지원	지원	지원	지원
텍스트 청크 직접 포함	벡터DB에만	미포함	미포함	그래프 노드로 포함
저장 효율성	중간	낮음	낮음	높음 (25%)

Table 1: MiniRAG와 기존 RAG 시스템의 인덱싱 방식 비교. MiniRAG는 낮은 LLM 의존도와 우수한 SLM 호환성을 동시에 달성하면서도 구조적 검색 능력을 갖추고 있다.

NaiveRAG는 텍스트를 청크로 분할하고 각 청크를 벡터로 임베딩하여 벡터 데이터베이스에 저장하는 단순한 방식을 사용한다. LLM에 대한 의존도가 낮아 SLM과도 비교적 호환이 잘 되지만, 청크 간의 관계나 문서 전체의 구조적 정보를 활용하지 못한다. GraphRAG는 LLM을 사용하여 텍스트에서 개체와 관계를 추출하고, Leiden 알고리즘으로 개체를 커뮤니티로 클러스터링한 후, 각 커뮤니티에 대한 요약 보고서를 생성한다. 이 과정은 LLM의 강력한 텍스트 이해와 생성 능력에 크게 의존하며, SLM으로는 시스템 전체가 작동하지 않는다. LightRAG는 질의를 고수준과 저수준 구성 요소로 분해하는 이중 수준 검색 전략을 사용하되, 질의 분해 과정에서 LLM의 추상적 정보 추출 능력에 의존한다. 반면, MiniRAG는 복잡한 질의 분해나 커뮤니티 요약 대신 SLM이 비교적 잘 수행할 수 있는 개체 추출에 집중하고, 텍스트 청크를 그래프에 직접 포함시킴으로써 SLM의 요약 능력에 대한 의존을 줄인다.

5. 경량 그래프 기반 지식 검색: 토폴로지 강화 접근법

5.1 온디바이스 검색의 도전과 설계 원칙

온디바이스 RAG 시스템에서는 기기의 연산 능력과 데이터 프라이버시의 제약이 대규모 언어 모델이나 고급 텍스트 임베딩 모델의 사용을 제한하며, 더 작은 대안에 의존해야 한다. 현재 사용되는 파이프라인은 검색을 위한 임베딩 유사도 계산 시 텍스트 의미론의 포괄적 이해를 위해 LLM에 크게 의존하고 있어, 상당한 도전에 직면한다. 소형 모델들은 긴 텍스트 내의 정밀한 의미론적 뉘앙스를 포착하는 데 어려움을 겪으며, 이는 정확한 매칭을 복잡하게 만든다. 논문은 이러한 도전을 해결하기 위해 두 가지 핵심 원칙을 제시한다:

입력 내용의 복잡성 감소: 생성을 위한 입력 내용의 복잡성을 줄여, 의미론적 정보가 명확하고 간결하게 전달되도록 해야 한다.
입력 내용의 길이 단축: 소형 언어 모델을 위한 입력 내용의 길이를 줄여, 향상된 이해와 검색 정확도를 촉진해야 한다.

MiniRAG에서는 인덱싱 단계에서 구축된 의미 인식 이질적 그래프 $\mathcal{G}$를 경량 텍스트 임베딩과 함께 효과적으로 활용하여 효율적인 지식 검색을 달성하는 그래프 기반 지식 검색(Graph-based Knowledge Retrieval) 메커니즘을 제안한다. 그래프 기반 검색 설계를 채용함으로써, 대규모 언어 모델과의 정밀한 의미론적 매칭에 대한 부담을 경감한다. 전통적인 RAG의 검색이 질의 임베딩과 문서 임베딩 간의 코사인 유사도에 전적으로 의존하는 것과 달리, MiniRAG의 검색은 의미론적 유사도와 그래프 토폴로지 구조를 결합하여 더 정확하고 효율적인 정보 발견을 실현한다.

5.2 질의 의미론적 매핑(Query Semantic Mapping)

검색 단계에서 사용자 입력 질의 $q$에 대한 주요 목표는 구축된 인덱스 데이터에서 질의와 관련된 요소(예: 명명된 개체, 텍스트 청크)를 식별하여 모델이 정확한 응답을 생성하는 것을 돕는 것이다. 일부 기존 RAG 방법은 LLM을 활용하여 질의를 확장하거나 세분화된 질의로 분해하여 매칭을 향상시키지만, 이 과정은 질의에서 고품질의 추상적 정보를 추출하기 위해 LLM에 의존하며, 이는 소형 언어 모델에게는 도전적인 태스크이다.

따라서 MiniRAG의 검색 프로세스에서는 소형 언어 모델에게 비교적 단순하고 효과적인 태스크인 개체 추출을 활용하여 질의 $q$를 그래프 기반 인덱싱 데이터에 분해하고 매핑한다. 주어진 질의 $q$에 대해, MiniRAG의 접근법은 2단계 개체 처리 파이프라인으로 시작한다:

개체 추출 및 유형 예측: SLM을 사용하여 $q$에서 관련 개체 $\mathcal{V}_q$를 추출하면서 동시에 질의의 답변에 직접 기여할 수 있는 잠재적 유형(예: 이벤트, 위치, 인물)을 예측한다. 이 단계는 기존 방법이 LLM을 사용하여 질의를 추상적인 개념으로 분해하는 것과 대조적으로, SLM이 비교적 잘 수행할 수 있는 개체명 인식(NER) 태스크에 해당한다.
의미론적 유사도 평가: 경량 문장 임베딩 모델을 활용하여 구축된 그래프 $\mathcal{G} = \{\mathcal{V}_c, \mathcal{V}_e\}$ 내의 모든 개체 노드 $\mathcal{V}_e$에 걸쳐 의미론적 유사도를 평가한다. 개체 이름, 청크 내용 등 다양한 텍스트 코퍼스를 검토하여 효과적인 노드 검색과 접지(grounding)를 가능하게 한다.

이 2단계 파이프라인의 핵심적 장점은, 질의의 의미를 LLM 수준의 깊은 이해 없이도 그래프 인덱스와 효과적으로 연결할 수 있다는 것이다. 기존 방법이 LLM을 사용하여 질의를 추상적인 개념으로 분해하는 것과 대조적으로, MiniRAG는 SLM이 비교적 잘 수행할 수 있는 개체명 인식(NER) 태스크를 활용하여 질의를 구체적인 개체들로 분해한다. 이렇게 추출된 구체적인 개체들은 그래프 내의 개체 노드와 직접 매칭되며, 이를 통해 질의 처리의 정확도를 높이면서도 연산 비용을 최소화한다. 답변 유형 예측은 SLM의 기본적인 분류 능력으로도 충분히 수행 가능한 태스크이며, 이를 통해 그래프 내에서 탐색할 노드의 범위를 효과적으로 제한하여 검색 효율성을 크게 향상시킨다.

5.3 질의 주도 추론 경로 발견(Query-Driven Reasoning Path Discovery)

의미 인식 이질적 그래프 $\mathcal{G} = \{\mathcal{V}_c, \mathcal{V}_e\}$ 내에서, MiniRAG는 지능적인 질의 주도 메커니즘을 통해 추론 경로를 구성한다. 임의의 입력 질의 $q$에 대해, 모델은 두 가지 핵심 측면을 공동으로 고려하여 관련 텍스트 청크를 식별한다: (1) 질의와 개체 노드 간의 의미론적 관련성, 그리고 (2) 개체-개체 및 개체-청크 관계 간의 구조적 일관성이다. 이 이중 목표 최적화 프레임워크는 순수한 의미론적 매칭만으로는 발견할 수 없는, 그래프 구조를 따라 연결된 관련 정보를 체계적으로 탐색할 수 있게 한다.

체계적인 질의 관련 추론 경로 발견 절차는 세 가지 핵심 단계로 구성된다:

초기 개체 식별(Initial Entity Identification, $\hat{\mathcal{V}}_s$): 질의 개체를 그래프 노드와 매칭하여 경로 탐색을 위한 신뢰할 수 있는 진입점을 수립한다. 질의에서 추출된 개체와 그래프 내의 개체 노드 사이의 의미론적 유사도를 계산하여, 가장 높은 유사도를 보이는 노드들을 시작점으로 선택한다.
답변 인식 개체 선택(Answer-Aware Entity Selection, $\hat{\mathcal{V}}_a$): 예측된 답변 유형을 활용하여 시작 집합에서 후보 답변 노드를 식별하고, 유형 주도 추론을 가능하게 한다. 예를 들어, "어떤 레스토랑에서..."라는 질의에 대해 답변 유형이 "위치(Location)"로 예측되면, 그래프 내에서 위치 유형의 개체 노드를 후보 답변으로 선택한다.
맥락 풍부 경로 형성(Context-Rich Path Formation, $\hat{\mathcal{V}}_c$): 관련 텍스트 청크를 통합하여 추론 경로를 풍부하게 하고, 질의 개체를 잠재적 답변에 연결하는 포괄적인 증거 체인을 생성한다.

이 경량 프레임워크는 의미론적 정확성을 보장하면서도 높은 효율성을 유지하여, 엣지 컴퓨팅 시나리오에 특히 적합하다. 중요한 것은 이 세 단계 각각이 LLM 수준의 언어 이해를 필요로 하지 않는다는 점이다. 초기 개체 식별은 경량 임베딩 모델의 유사도 계산으로 충분하고, 답변 유형 예측은 SLM의 기본적인 분류 능력으로 수행 가능하며, 경로 형성은 그래프 알고리즘에 의해 구조적으로 수행된다.

5.4 토폴로지 강화 그래프 검색(Topology-Enhanced Graph Retrieval)

소형 언어 모델 기반 방법의 지식 검색에서의 근본적 한계를 해결하기 위해, MiniRAG는 이질적 지식 그래프로부터의 의미론적 정보와 구조적 정보를 효과적으로 결합하는 토폴로지 인식 검색 접근법을 제안한다. MiniRAG의 방법은 임베딩 기반 유사도와 지식 그래프의 토폴로지 구조를 시너지적으로 활용하는 신중하게 설계된 2단계 프로세스를 통해 도전을 극복한다. 프로세스는 의미론적 매칭을 통해 시드 개체($\hat{\mathcal{V}}_s$, $\hat{\mathcal{V}}_a$)를 식별하는 임베딩 기반 유사도 검색으로 시작하고, 이어서 이질적 그래프 구조 $\mathcal{G}$를 활용하여 관련 추론 경로를 발견하는 토폴로지 강화 발견 단계로 이어진다.

핵심 관계 식별(Key Relationship Identification)은 토폴로지 강화 검색의 첫 번째 핵심 구성 요소이다. 이 단계에서는 노드-엣지 상호작용을 통해 질의 $q$와 관련된 그래프 $\mathcal{G}$ 내의 고품질 개체-개체 연결을 먼저 식별한다. 개체-개체 연결 $\mathcal{E}_\alpha$에서, 엣지가 최단 경로를 따라 시작 노드 $\hat{v}_s \in \hat{\mathcal{V}}_s$를 답변 노드 $\hat{v}_a \in \hat{\mathcal{V}}_a$에 연결하는 경우 그 엣지를 고도로 관련 있다고 정의한다. 각 엣지 $e_\alpha \in \mathcal{E}_\alpha$에 대한 관련성 점수 함수 $\omega_e(\cdot)$는 다음과 같이 정의된다:

$$\omega_e(e) = \sum_{\hat{v}_s \in \hat{\mathcal{V}}_s} \text{count}(\hat{v}_s, \hat{\mathcal{G}}_{e,k}) + \sum_{\hat{v}_a \in \hat{\mathcal{V}}_a} \text{count}(\hat{v}_a, \hat{\mathcal{G}}_{e,k})$$

여기서 $\hat{\mathcal{G}}_{e,k}$는 엣지 $e$를 중심으로 한 $k$-홉 서브그래프를 나타내며, 어느 한 끝점으로부터 $k$단계 이내에 도달 가능한 모든 노드와 엣지를 포함한다. $\text{count}$ 함수는 해당 서브그래프 내에 특정 시작 노드나 답변 노드가 존재하는 횟수를 세는 역할을 한다. 이 수식의 직관적 의미는 다음과 같다:

어떤 엣지의 $k$-홉 이웃에 질의 관련 시작 노드가 많이 존재할수록, 그 엣지는 질의의 시작점과 가까운 위치에 있다.
동시에 잠재적 답변 노드가 많이 존재할수록, 그 엣지는 답변과도 가까운 위치에 있다.
따라서 두 요소의 합이 높을수록, 해당 엣지가 질의에 대한 추론 경로에서 중요한 역할을 할 가능성이 높다.

계산된 관련성 점수 $\omega_e$에 기반하여, 상위 순위 엣지를 선택하여 핵심 관계 집합 $\hat{\mathcal{E}}_\alpha$를 구성한다.

질의 주도 경로 발견(Query-Guided Path Discovery)은 두 번째 핵심 구성 요소이다. 지식 그래프 구조 내에서 논리적으로 관련된 정보를 체계적으로 발견하기 위해, 의미 있는 추론 체인으로 기능하는 중요한 경로를 식별하고 추출한다. 각 후보 시작 노드 $\hat{v}_s$에 대해, 잠재적 추론 경로 집합 $\mathcal{P}_{\hat{v}_s}$를 $\hat{v}_s$에서 시작하는 길이 $n$의 모든 가능한 비순환 경로의 집합으로 정의한다. 각 식별된 질의 개체 $v_q \in \mathcal{V}_q$에 대해, 정교한 개체 조건부 점수 함수 $\omega_p(\cdot)$를 사용하여 경로를 평가한다:

$$\omega_p(p \mid v_q) = \omega_v(\hat{v}_s \mid v_q) \cdot \left(1 + \sum_{v \in (p \land \hat{\mathcal{V}}_a)} \text{count}(v, p) + \sum_{e \in (p \land \hat{\mathcal{E}}_\alpha)} \omega_e(e)\right)$$

이 수식에서 각 구성 요소는 다음과 같은 역할을 수행한다:

$\omega_v(\hat{v}_s \mid v_q)$: 시작 노드 $\hat{v}_s$와 질의 개체 $v_q$ 사이의 의미론적 유사도를 코사인 유사도로 측정한다. 이것이 전체 점수의 기본 가중치 역할을 한다.
$\sum_{v \in (p \land \hat{\mathcal{V}}_a)} \text{count}(v, p)$: 경로 내에 잠재적 답변 노드가 얼마나 포함되어 있는지를 측정하여, 답변에 도달할 가능성이 높은 경로에 더 높은 점수를 부여한다.
$\sum_{e \in (p \land \hat{\mathcal{E}}_\alpha)} \omega_e(e)$: 경로 내에 핵심 관계가 얼마나 포함되어 있는지를 측정하여, 중요한 구조적 연결을 많이 통과하는 경로를 선호한다.

이 세 가지 요소의 결합은 매우 직관적인 의미를 가진다. 좋은 추론 경로란, 질의와 관련된 출발점에서 시작하여(의미론적 관련성), 잠재적 답변 노드를 경유하며(답변 도달 가능성), 중요한 관계 엣지를 많이 통과하는(구조적 중요성) 경로라는 것이다. 이 점수 함수는 LLM 수준의 깊은 이해 없이도, 그래프 구조와 경량 임베딩만으로 효과적인 추론 경로를 식별할 수 있게 한다. 각 질의 개체와 시작 노드 쌍에 대해, 계산된 중요도 점수에 따라 모든 잠재적 경로를 체계적으로 순위화하고, 상위 $k$개의 최고 점수 경로를 선택하여 최종 포괄적 추론 경로 집합 $\mathcal{P}_q$를 구성한다.

5.5 질의 관련 텍스트 청크 검색

추론 경로가 발견된 후, 다음 단계는 이 경로를 따라 실제 텍스트 청크를 검색하는 것이다. 인덱싱 구조에서, 각 개체 노드는 개체-청크 상호 의존성을 통해 소스 텍스트 청크와의 연결을 유지하며, 이러한 텍스트 청크는 인덱싱 그래프 내에서 텍스트 속성 엣지 $(e_\beta, d_{e_\beta}) \in \mathcal{E}_\beta$를 통해 연결된 노드로 존재한다. 이 연결을 순회함으로써, 추론 경로 $p \in \mathcal{P}_q$에 존재하는 개체 노드에 연결된 모든 청크 노드 $\mathcal{V}_c^q$를 수집한다.

수집된 청크에서 최종 텍스트를 선택하기 위해, MiniRAG는 3단계 필터링 프로세스를 적용한다:

후보 필터링(Candidate Filtering): 후보를 체계적으로 필터링하여 $\hat{\mathcal{V}}_c \cap \mathcal{V}_c^q$의 교집합에 초점을 맞춘다. 이 교집합은 임베딩 기반 검색으로 직접 검색된 청크($\hat{\mathcal{V}}_c$)와 추론 경로를 통해 도달한 청크($\mathcal{V}_c^q$) 모두에 해당하는 청크를 의미하며, 의미론적 관련성과 구조적 관련성을 동시에 만족하는 높은 품질의 후보를 보장한다.
유사도 계산(Similarity Computation): 교집합 내의 각 후보 청크에 대해, 입력 질의와 청크 텍스트 및 관련 엣지 설명을 결합한 연결 내용 사이의 의미론적 유사도를 계산한다. 엣지 설명을 함께 고려함으로써, 청크의 텍스트 내용뿐만 아니라 그래프 내에서의 맥락적 역할까지 반영한 유사도 계산이 가능해진다.
순위화 및 선택(Ranking and Selection): 필터링된 청크를 계산된 관련성 점수에 따라 순위화하고, 최고 점수의 후보를 선택하여 후속 추론을 위한 최종 최적화된 집합 $\hat{\mathcal{V}}_c^q$를 형성한다.

5.6 증강 생성을 위한 통합

토폴로지 강화 그래프 검색 메커니즘과 다단계 필터링 프로세스를 통해, 질의 관련 그래프 지식의 두 가지 핵심 구성 요소를 효율적으로 획득한다:

핵심 관계 $\hat{\mathcal{E}}_\alpha$: 지식 그래프 내에서 중요한 개체를 연결하는 관계로, 의미론적 의존성과 구조적 패턴을 포착한다.
최적 텍스트 청크 $\hat{\mathcal{V}}_c^q$: 정확한 답변 생성에 필요한 핵심적인 맥락 정보와 지원 증거를 포함한다.

이전에 접지된 답변 노드 $\hat{\mathcal{V}}_a$와 함께 이러한 검색된 구성 요소를 설계된 융합 전략을 통해 체계적으로 통합함으로써, 최종 증강 생성 프로세스를 위한 포괄적이고 잘 구조화된 입력 표현을 구성한다. 이 전체 과정에서 SLM은 최종 응답 생성만 담당하며, 전달되는 컨텍스트는 그래프 기반 검색을 통해 질의와 가장 관련 있는 핵심 정보로 압축되어 있으므로, SLM의 제한된 컨텍스트 처리 능력에서도 효과적인 응답 생성이 가능해진다.

6. 실험 설정: 데이터셋, 평가 지표, 구현 세부사항

6.1 데이터셋 선택과 온디바이스 시나리오의 특성

온디바이스 RAG의 평가는 그 고유한 맥락과 실질적 사용 사례를 신중하게 고려해야 한다. 전통적인 서버 측 RAG 시스템이 학술 논문, 기술 보고서, 포괄적인 웹 콘텐츠와 같은 방대한 문서를 처리하도록 설계된 것과 달리, 온디바이스 RAG 애플리케이션은 사용자의 일상적인 기기 상호작용에 맞추어진 근본적으로 다른 목적을 수행한다. 논문의 데이터셋 선택은 다음과 같은 일반적인 온디바이스 시나리오에 초점을 맞추고 있다:

인스턴트 메시징: 채팅 기록과 개인 통신, 이메일에서의 실시간 검색
개인 콘텐츠: 사용자가 작성한 메모, 메모 패드, 캘린더 항목
로컬 단문 문서: 경량 텍스트 파일에서의 정보 검색

논문의 평가는 실제 세계의 온디바이스 RAG 시나리오의 본질적 측면을 포착하는 두 가지 데이터셋을 사용한다.

합성 개인 통신 데이터(LiHuaWorld)는 실제 세계의 개인 통신을 포괄적으로 포착하기 위해 GPT-4를 활용하여 생성한 1년 분량의 데이터셋이다. 이 방대한 데이터셋은 일상 필수품(식품, 의류, 주거, 교통), 사교 활동 및 오락, 업무 및 학습 관련 논의, 개인 일정 계획, 쇼핑 결정 등 현대 생활의 다양한 측면을 포괄한다. 대화는 일상적인 잡담에서 태스크 조정, 정보 공유, 의사결정에 이르기까지 다양한 맥락에서의 자연스러운 커뮤니케이션 패턴을 반영한다.

단문 문서(MultiHop-RAG)는 현대 뉴스 기사에 기반한 멀티홉 RAG 데이터셋을 활용한다. 이 데이터셋은 여러 짧은 문서에 걸쳐 정보를 탐색하고 검색하는 시스템의 능력을 평가하기 위해 특별히 설계되었으며, 사용자가 다양한 로컬 저장 파일에서 관련 정보를 검색해야 하는 실제 세계의 시나리오를 반영한다.

6.2 LiHuaWorld 벤치마크 데이터셋의 상세 구성

Figure 3: LiHuaWorld는 AI 에이전트들이 모바일 채팅 애플리케이션을 통해 소통하는 디지털 상호 연결 세계를 시뮬레이션한다. 주인공 Li Hua의 시선을 통해 이 가상 사회 생태계 내의 진정성 있는 채팅 상호작용을 관찰하고 수집한다.

LiHuaWorld 데이터셋은 온디바이스 통신의 핵심 특성을 충실히 반영하며, 디지털-물리적 맥락 단편화와 시간적 진화 패턴을 강조한다. 온디바이스 채팅 데이터의 사적인 특성을 고려하여, 연구팀은 현대 메시징 플랫폼을 가로지르는 1년간의 삶의 여정을 구현하는 상세한 시뮬레이션 접근법을 통해 이 포괄적인 데이터셋을 생성하였다. 시뮬레이션은 주인공 Li Hua가 디지털 대화와 물리적 맥락 사이를 자연스럽게 오가며 경험하는 주요 생활 사건과 일상적 사교 상호작용을 모두 추적한다.

데이터셋의 핵심 특성은 다음과 같다:

타임라인: Li Hua의 새 도시로의 이사로 시작되며, 확장하는 사회적 네트워크와 진화하는 관계의 시뮬레이션을 자연스럽게 촉진
대화 유형: 일대일 채팅(다양한 배경의 친구들과의 대화)과 그룹 채팅(다수 참여자가 참여하는 집단적 상호작용)
시간적 특성: 정보와 관계가 장기간에 걸쳐 어떻게 발전하는지를 보여주는 시간적 일관성 보존
도전적 요소: 맥락 단편화, 시간적 정보 업데이트, 오프라인 이벤트에 대한 암시적 참조 포함

LiHuaWorld의 질의 세트는 이벤트 기반 내용과 추론 복잡성의 두 가지 차원으로 체계적으로 설계되었다. 이벤트 기반 차원은 언제(When), 어디서(Where), 누가(Who), 무엇을(What), 어떻게(How), 예/아니오(Yes/No) 질문의 여섯 가지 범주를 포괄하며, 추론 복잡성 차원은 필요한 추론 단계에 기반하여 싱글홉과 멀티홉 질의를 구분한다. 이벤트 생성은 대화의 촉매제 역할을 하며, 연구팀은 서사적 일관성과 진정성을 보장하기 위해 주로 사람이 직접 이벤트 스크립트를 작성하였고, 대화 생성 프로세스는 AgentScope에 의해 구동된다.

6.3 평가 프로토콜과 지표

논문은 다양한 RAG 방법에 의해 생성된 응답의 품질과 신뢰성을 평가하기 위해 두 가지 핵심 지표를 사용한다:

정확도(Accuracy, acc): RAG 시스템의 응답과 기대 답변 사이의 일관성을 측정한다. 엄격한 문자열 매칭이 아닌 의미적 동등성을 기준으로 평가하여, "water bottle"과 같은 의미론적으로 동등한 응답도 정확한 것으로 간주된다.
오류율(Error Rate, err): RAG 시스템이 실수를 인식하지 못한 채 잘못된 정보를 제공하는 사례를 포착한다. 시스템이 "모르겠다"고 인정하는 대신 잘못된 정보를 자신 있게 전달하는 할루시네이션 문제의 심각성을 측정한다.

6.4 구현 세부사항과 모델 설정

실험 설정은 기존 연구의 확립된 관행을 따라 구성되었다. 주요 하이퍼파라미터와 모델 구성은 다음과 같다:

구분	항목	설정값
텍스트 처리	청크 크기	1,200 토큰
	오버랩	100 토큰
	Top-k 검색	5개 문서
	최대 토큰 한도	6,000 토큰
LLM 설정	언어 모델	gpt-4o-mini
LLM 설정	임베딩 모델	text-embedding-3-small
SLM 설정	언어 모델 1	Phi-3.5-mini-instruct (3.8B)
	언어 모델 2	GLM-Edge-1.5B-Chat (1.5B)
	언어 모델 3	Qwen2.5-3B-Instruct (3B)
	언어 모델 4	MiniCPM3-4B (4B)
	임베딩 모델	all-MiniLM-L6-v2 (22.7M)

Table 2: 실험에 사용된 하이퍼파라미터와 모델 구성 요약.

다양한 SLM의 선택은 MiniRAG의 범용성을 검증하기 위한 것으로, 1.5B에서 4B에 이르는 다양한 규모의 모델에서의 성능을 확인할 수 있게 한다. 특히 all-MiniLM-L6-v2는 22.7M 파라미터만을 가진 극도로 경량화된 임베딩 모델로, 온디바이스 배포에 매우 적합하다. 청크 크기 1,200 토큰은 각 청크가 충분한 맥락을 포함하면서도 너무 길지 않아 SLM이 효과적으로 처리할 수 있도록 하는 균형점을 반영하며, 100 토큰의 오버랩은 청크 경계에서의 정보 손실을 방지하는 역할을 한다.

6.5 기준선(Baseline) 시스템

MiniRAG와 비교되는 기준선 RAG 시스템은 세 가지이다:

NaiveRAG: 텍스트 임베딩 기반 검색을 사용하는 표준 RAG 기준선이다. 문서를 청크로 분할하여 벡터 데이터베이스에 저장하고, 질의와 청크 임베딩 간의 직접적인 유사도 매칭을 통해 검색을 수행한다. LLM에 대한 의존도가 최소화되어 있어 SLM과의 호환성이 비교적 양호하지만, 구조적 정보를 활용하지 못한다.
GraphRAG: 언어 모델과 Leiden 알고리즘을 통한 개체 클러스터링으로 그래프 기반 인덱싱을 활용한다. 커뮤니티 보고서를 생성하고 통합 검색 메커니즘을 통해 지역-전역 정보 접근을 결합한다. 가장 복잡한 RAG 프레임워크 중 하나로, LLM의 강력한 텍스트 생성 능력에 가장 크게 의존한다.
LightRAG: 지식 그래프를 활용한 이중 수준 검색 아키텍처를 구현하여, 질의를 계층적 구성 요소(저수준 세부사항과 고수준 개념)로 분해한다. GraphRAG보다는 가벼우면서도 NaiveRAG보다는 정교한 중간 수준의 RAG 시스템이다.

7. 주요 실험 결과: 성능 비교 분석 (RQ1)

7.1 종합 성능 비교

Table 3는 MiniRAG와 기준선 방법들의 성능을 LiHuaWorld와 MultiHop-RAG 두 데이터셋에 걸쳐 비교한 종합 결과를 보여준다. "/"로 표시된 항목은 해당 방법이 효과적인 응답을 생성하지 못한 경우를 나타내며, 볼드 값은 각 설정에서의 최고 성능을 의미한다.

데이터셋	모델	NaiveRAG		GraphRAG		LightRAG		MiniRAG
데이터셋	모델	acc↑	err↓	acc↑	err↓	acc↑	err↓	acc↑	err↓
LiHuaWorld	Phi-3.5-mini	41.22	23.20	/	/	39.81	25.39	53.29	23.35
	GLM-Edge-1.5B	42.79	24.76	/	/	35.74	25.86	52.51	25.71
	Qwen2.5-3B	43.73	24.14	/	/	39.18	28.68	48.75	26.02
	MiniCPM3-4B	43.42	17.08	/	/	35.42	21.94	51.25	21.79
	gpt-4o-mini	46.55	19.12	35.27	37.77	56.90	20.85	54.08	19.44
MultiHop-RAG	Phi-3.5-mini	42.72	31.34	/	/	27.03	11.78	49.96	28.44
	GLM-Edge-1.5B	44.44	24.26	/	/	/	/	51.41	23.44
	Qwen2.5-3B	39.48	31.69	/	/	21.91	13.73	48.55	33.10
	MiniCPM3-4B	39.24	31.42	/	/	19.48	10.41	47.77	26.88
	gpt-4o-mini	53.60	27.19	60.92	16.86	64.91	19.37	68.43	19.41

Table 3: 정확도(acc)와 오류율(err)을 사용한 성능 평가 (%). "/"는 해당 방법이 효과적인 응답을 생성하지 못한 경우를 의미한다.

7.2 기존 RAG 시스템의 SLM 환경에서의 성능 저하

Table 3의 결과에서 가장 두드러지는 패턴은 현재의 RAG 시스템이 SLM과 함께 작동할 때 직면하는 심각한 도전이다. 가장 극단적인 사례는 GraphRAG로, LiHuaWorld와 MultiHop-RAG 모든 SLM 설정에서 "/"로 표시되어 효과적인 응답을 전혀 생성하지 못하였다. 이는 GraphRAG가 커뮤니티 보고서 생성 등의 과정에서 LLM의 강력한 텍스트 생성 능력에 절대적으로 의존하기 때문이며, SLM으로는 이러한 고품질 콘텐츠를 생성할 수 없어 시스템 전체가 붕괴하는 것이다.

LightRAG의 경우도 SLM 환경에서 상당한 성능 저하를 경험한다. 데이터셋별 LightRAG의 정확도 변화를 살펴보면:

LiHuaWorld: gpt-4o-mini 사용 시 56.90% → Phi-3.5-mini 39.81%(17.09%p 감소), MiniCPM3-4B 35.42%(21.48%p 감소)
MultiHop-RAG: gpt-4o-mini 사용 시 64.91% → Phi-3.5-mini 27.03%(37.88%p 감소), MiniCPM3-4B 19.48%(45.43%p 감소). GLM-Edge-1.5B에서는 아예 작동 실패

이러한 급격한 성능 저하는 LightRAG의 이중 수준 검색 전략이 질의를 고수준과 저수준 구성 요소로 분해하는 과정에서 LLM의 추상적 정보 추출 능력에 의존하기 때문이다. 반면, NaiveRAG는 기본적인 임베딩 기반 검색만을 사용하기 때문에 SLM과의 호환성이 비교적 양호하여, SLM 환경에서도 일정 수준의 성능을 유지한다. 그러나 NaiveRAG는 구조적 정보를 활용하지 못하므로 고급 추론 능력이 부족하여, 전반적인 성능 수준은 제한적이다.

7.3 MiniRAG의 SLM 환경에서의 우수한 성능

MiniRAG는 모든 SLM 설정에서 일관되게 최고 정확도를 달성하며, 기존 방법 대비 현저한 성능 우위를 보여준다. LiHuaWorld 데이터셋에서 MiniRAG의 정확도와 기존 방법과의 차이를 SLM별로 정리하면:

SLM	MiniRAG	vs NaiveRAG	vs LightRAG
Phi-3.5-mini	53.29%	+12.07%p	+13.48%p
GLM-Edge-1.5B	52.51%	+9.72%p	+16.77%p
Qwen2.5-3B	48.75%	+5.02%p	+9.57%p
MiniCPM3-4B	51.25%	+7.83%p	+15.83%p

Table 4: LiHuaWorld에서 MiniRAG와 기준선 방법의 정확도 차이 (SLM 설정).

MultiHop-RAG 데이터셋에서의 결과는 MiniRAG의 우수성을 더욱 명확히 보여준다. 멀티홉 추론을 요구하는 이 데이터셋에서, MiniRAG는 그래프 기반 추론 경로 발견의 이점을 극대화한다. Phi-3.5-mini에서 MiniRAG는 49.96%의 정확도를 달성하여 NaiveRAG의 42.72%를 7.24%p, LightRAG의 27.03%를 22.93%p 상회한다. GLM-Edge-1.5B에서는 MiniRAG가 51.41%를 기록하는 반면, LightRAG는 아예 작동하지 않는다. 이러한 결과는 MiniRAG의 토폴로지 강화 검색이 여러 문서에 걸친 정보를 연결하는 멀티홉 추론에 특히 효과적임을 입증한다.

특히 주목할 만한 점은 MiniRAG가 gpt-4o-mini(LLM)를 사용할 때도 최고 수준의 성능을 보인다는 것이다. MultiHop-RAG에서 MiniRAG + gpt-4o-mini는 68.43%의 정확도를 달성하여, LightRAG + gpt-4o-mini의 64.91%와 GraphRAG + gpt-4o-mini의 60.92%를 모두 상회한다. 이는 MiniRAG의 이질적 그래프 인덱싱과 토폴로지 강화 검색이 SLM 환경에서만 유효한 것이 아니라, LLM 환경에서도 기존 방법 대비 추가적인 성능 향상을 제공한다는 것을 의미한다.

7.4 LLM에서 SLM으로의 전환 견고성

LLM에서 SLM으로의 전환 시 성능 감소 폭을 살펴보면, MiniRAG의 견고성이 두드러진다. LiHuaWorld에서 MiniRAG는 gpt-4o-mini의 54.08%에서 Phi-3.5-mini의 53.29%로 불과 0.79%p의 감소를 보이는 반면, LightRAG는 56.90%에서 39.81%로 17.09%p의 급격한 감소를 보인다. 이는 MiniRAG가 LLM에서 SLM으로의 전환에 대해 놀라운 수준의 견고성(robustness)을 가지고 있음을 증명한다.

7.5 저장 효율성 분석

Figure 4: 정확도 대 저장 효율성: MiniRAG, LightRAG, GraphRAG 세 시스템의 비교 분석. MiniRAG는 기준선 대비 약 25%의 저장 공간만 사용하면서도 경쟁력 있는 정확도를 달성한다.

Figure 4는 MiniRAG, LightRAG, GraphRAG 세 시스템의 정확도와 저장 효율성을 비교한다. MiniRAG는 높은 정확도 수준을 보존하면서도 뛰어난 저장 효율성을 입증한다. 논문은 MiniRAG가 LightRAG w/ gpt-4o-mini와 같은 기준선 대비 저장 공간의 약 25%만 사용하면서도 경쟁력 있는 정확도를 달성한다고 서술한다.

저장 효율성의 원천은 MiniRAG의 설계에서 세 가지 지점에서 발생한다:

원본 텍스트 직접 활용: MiniRAG는 원본 텍스트 청크를 그래프의 노드로 직접 활용하므로, 별도의 요약이나 설명을 생성하여 저장할 필요가 없다. GraphRAG에서는 각 커뮤니티에 대한 상세한 보고서를 생성하여 저장해야 하는데, 이러한 보고서의 누적 크기가 상당하다.
간결한 엣지 설명: 개체-청크 연결의 엣지 설명은 개체에 대한 간결한 설명으로서, GraphRAG나 LightRAG에서 생성하는 복잡한 관계 설명에 비해 텍스트 양이 현저히 적다.
효율적 그래프 구조: MiniRAG의 그래프 구조 자체가 효율적으로 설계되어, 노드와 엣지의 메타데이터가 최소한으로 유지된다.

저장 공간의 감소는 단순히 디스크 사용량의 절약을 넘어서, 온디바이스 환경에서 제한된 메모리와 저장 용량을 가진 기기에서의 실질적 배포 가능성을 크게 높인다는 점에서 중요한 의미를 가진다. 스마트폰이나 IoT 기기에서는 대용량 인덱스를 로드하고 유지하는 것 자체가 자원 부담이 되므로, 25%의 저장 공간만으로 동등 이상의 성능을 달성할 수 있다는 것은 매우 실용적인 이점이다.

7.6 SLM별 성능 패턴 심층 분석

Table 3의 결과를 SLM 모델별로 더 세밀하게 분석하면, 흥미로운 패턴들이 드러난다. LiHuaWorld 데이터셋에서, 가장 작은 모델인 GLM-Edge-1.5B-Chat은 MiniRAG와 결합했을 때 52.51%의 정확도를 달성하는데, 이는 가장 큰 모델인 MiniCPM3-4B(51.25%)와 비교해도 오히려 1.26%p 높은 수치이다. 이러한 역전 현상은 모델 크기가 RAG 성능을 결정하는 유일한 요인이 아님을 시사한다. GLM-Edge-1.5B는 크기가 작음에도 불구하고 개체명 인식과 같은 특정 태스크에서 효율적으로 작동할 수 있으며, MiniRAG의 구조적 보완이 이 모델의 강점을 효과적으로 활용한 것으로 해석된다.

오류율 패턴도 중요한 통찰을 제공한다. LiHuaWorld에서 MiniCPM3-4B는 MiniRAG와 결합했을 때 21.79%의 오류율을 보이는데, 이는 NaiveRAG의 17.08%보다 높다. 이는 MiniRAG가 더 많은 질의에 대해 답변을 시도하기 때문으로 해석될 수 있다. NaiveRAG는 관련 정보를 찾지 못하면 답변을 회피하는 경향이 있어 오류율이 낮지만 정확도도 제한적인 반면, MiniRAG는 그래프 기반 검색으로 더 많은 관련 정보를 발견하여 적극적으로 답변을 시도하되, 일부 경우에는 부정확한 답변을 생성하기도 한다. 이러한 정확도-오류율 트레이드오프는 RAG 시스템 평가에서 두 지표를 함께 고려해야 하는 이유를 보여준다.

8. 구성 요소별 분석: 어블레이션 연구 (RQ2)

8.1 어블레이션 연구의 설계

MiniRAG의 각 핵심 구성 요소가 전체 성능에 미치는 기여를 정량적으로 분석하기 위해, 논문은 두 가지 주요 실험적 변형을 통한 어블레이션 연구를 수행하였다:

변형 -$\mathcal{I}$ (설명 기반 인덱싱): MiniRAG의 이질적 그래프 인덱싱을 LightRAG와 GraphRAG에서 사용되는 것과 유사한 설명 기반 인덱싱(description-based indexing)으로 대체한다. 이 방식은 정확한 개체 및 엣지 설명을 생성하기 위해 포괄적인 의미론적 이해를 필요로 한다.
변형 -$\mathcal{R}_i$ (검색 모듈 비활성화): 그래프 검색 과정에서 특정 모듈을 선택적으로 비활성화한다. 엣지 정보를 제거하는 -$\mathcal{R}_{edge}$와 청크 노드를 제거하는 -$\mathcal{R}_{chunk}$의 두 가지 하위 변형을 포함한다.

모델	MiniRAG (Full)		-$\mathcal{I}$		-$\mathcal{R}_{chunk}$		-$\mathcal{R}_{edge}$
모델	acc↑	err↓	acc↑	err↓	acc↑	err↓	acc↑	err↓
Phi-3.5-mini	53.29	23.35	26.02	19.12	48.90	17.40	50.47	15.36
GLM-Edge-1.5B	52.51	25.71	25.08	31.50	46.24	16.77	47.81	20.53
Qwen2.5-3B	48.75	26.02	24.14	15.67	40.91	16.14	48.43	18.65
MiniCPM3-4B	51.25	21.79	26.18	15.52	46.39	15.83	48.59	19.44

Table 5: LiHuaWorld에서의 어블레이션 연구 결과 (%). MiniRAG의 각 구성 요소를 제거하거나 대체한 변형 모델과의 정확도(acc)와 오류율(err) 비교.

8.2 SLM 한계의 검증: 설명 기반 인덱싱의 실패

Table 5의 어블레이션 결과에서 가장 극적인 발견은 MiniRAG의 간소화된 인덱싱 방법을 텍스트 의미론 기반 인덱싱 기법(-$\mathcal{I}$)으로 대체했을 때 발생하는 심각한 성능 저하이다. 모든 SLM에서 일관되게 나타나는 결과를 살펴보면:

Phi-3.5-mini: 53.29% → 26.02% (27.27%p 감소)
GLM-Edge-1.5B: 52.51% → 25.08% (27.43%p 감소)
Qwen2.5-3B: 48.75% → 24.14% (24.61%p 감소)
MiniCPM3-4B: 51.25% → 26.18% (25.07%p 감소)

정확도 감소 폭이 모든 모델에서 24~27%p에 달한다는 점은 SLM의 한계에 대한 논문의 초기 가설을 강력하게 검증한다. SLM은 포괄적인 의미론적 이해에서 본질적 제약을 가지고 있으며, 이는 개체 관계를 포함하는 복잡한 지식 그래프의 생성과 포괄적 텍스트 설명의 생성 모두에 영향을 미친다는 것이 확인되었다.

흥미로운 점은 -$\mathcal{I}$ 변형에서 오류율이 오히려 감소하는 경향을 보인다는 것이다. 예를 들어 Phi-3.5-mini에서 오류율이 23.35%에서 19.12%로 감소한다. 이는 시스템이 잘못된 답변을 자신 있게 제공하는 대신, 답변 자체를 하지 못하는 경우가 증가했기 때문으로 해석할 수 있다. 설명 기반 인덱싱이 SLM에 의해 저품질로 구축된 경우, 검색 결과의 전반적인 품질이 낮아져 시스템이 정확한 답변도 오류 답변도 제공하지 못하는 상태에 빠지는 것이다. 이는 낮은 오류율이 반드시 좋은 성능을 의미하지 않는다는 점을 환기시킨다.

8.3 구조적 구성 요소의 기여

어블레이션 연구의 두 번째 핵심 발견은 구조적 구성 요소의 중요성이다. 엣지 정보를 제거한 -$\mathcal{R}_{edge}$ 변형과 청크 노드를 제거한 -$\mathcal{R}_{chunk}$ 변형 모두에서 시스템 성능에 유의미한 영향이 관찰되었다.

청크 노드 제거(-$\mathcal{R}_{chunk}$)의 영향을 살펴보면, Phi-3.5-mini에서 4.39%p, GLM-Edge-1.5B에서 6.27%p, Qwen2.5-3B에서 7.84%p, MiniCPM3-4B에서 4.86%p의 정확도 감소를 보인다. 이러한 결과는 텍스트 청크 노드가 추론 경로에서 핵심적인 역할을 수행함을 확인해준다. 청크 노드는 원본 텍스트의 맥락 정보를 직접 제공하여, SLM이 질의에 대한 정확한 응답을 생성하는 데 필수적인 증거를 제공한다.

엣지 정보 제거(-$\mathcal{R}_{edge}$)의 결과를 살펴보면, Phi-3.5-mini에서 2.82%p, GLM-Edge-1.5B에서 4.70%p, MiniCPM3-4B에서 2.66%p의 감소를 보인다. 엣지 정보의 제거가 청크 노드 제거보다는 다소 작은 영향을 미치지만, 여전히 유의미한 성능 저하를 야기한다. 특히 Qwen2.5-3B에서의 결과가 흥미로운데, -$\mathcal{R}_{edge}$의 영향이 불과 0.32%p(48.75% → 48.43%)로 매우 작은 반면, -$\mathcal{R}_{chunk}$의 영향은 7.84%p로 상당히 크다. 이는 이 모델이 엣지의 의미론적 설명보다는 원본 텍스트 청크의 직접적인 맥락 정보에 더 크게 의존함을 시사한다.

이러한 결과들을 종합하면, MiniRAG의 이질적 그래프 인덱싱(청크 노드 포함)과 토폴로지 강화 검색(엣지 정보 활용) 모두가 전체 시스템의 성능에 필수적으로 기여하며, 이 두 구성 요소의 시너지적 결합이 MiniRAG의 높은 성능을 가능하게 한다는 것을 알 수 있다. 이질적 그래프의 다중 정보 소스(개체, 엣지, 청크)가 다양한 모델에 대한 범용적 지원을 가능하게 한다는 것도 함께 입증된다. 각 SLM의 텍스트 처리 특성에 따라 MiniRAG의 구성 요소가 상이한 역할을 수행하지만, 전체적으로는 일관된 성능 향상을 제공한다는 점이 MiniRAG 아키텍처의 견고성을 뒷받침한다.

9. 사례 연구: 복잡한 다중 제약 질의의 해결 (RQ3)

9.1 사례 연구의 질의와 도전

논문은 MiniRAG의 실질적 이점을 입증하기 위해, 복잡한 레스토랑 식별 시나리오에 초점을 맞춘 LightRAG와의 비교 사례 연구를 제시한다. 사용된 질의는 "Wolfgang의 승진을 축하하기 위해 Wolfgang과 Li Hua가 저녁을 먹는 이탈리안 레스토랑의 이름은 무엇인가?"이다. 이 질의는 장소 제약(이탈리안 레스토랑), 인물 제약(Wolfgang과 Li Hua), 이벤트 제약(승진 축하)이라는 다중 조건을 동시에 만족시켜야 하며, 이 세 가지 제약을 동시에 만족하는 정보가 여러 대화에 걸쳐 분산되어 있다는 추가적인 도전을 제시한다.

9.2 LightRAG의 실패와 MiniRAG의 성공

LightRAG는 이 태스크에서 phi-3.5-mini의 한계로 인해 실패하였다. 질의를 저수준/고수준 정보로 분해하였으나, SLM이 적절한 고수준 정보를 추출하지 못해 "FRIES", "HAILEY'S BAKERY" 등 무관한 개체가 매칭되었다. 최종 응답은 "pasta joint에서 저녁을 계획 중... 구체적인 레스토랑 이름은 없음"이라는 불완전한 답변이었다.

반면, MiniRAG는 질의 주도 추론 경로 발견을 통해 성공적으로 해결하였다:

답변 유형을 "Social Interaction" 또는 "Location"으로 예측
"Italian restaurant", "Wolfgang", "LiHua", "dinner", "promotion" 개체를 추출
그래프 내 "ITALIAN PLACE", "WOLFGANG SCHULZ" 등과 매칭
토폴로지 탐색으로 승진 축하 관련 대화("20260908_21:00" 등)에 도달
최종 응답: "Venedia Grancaffe" — 정답

사례 연구: 복잡한 레스토랑 식별 질의
질의	Wolfgang의 승진을 축하하기 위해 Wolfgang과 Li Hua가 저녁을 먹는 이탈리안 레스토랑의 이름은?
정답	Venedia Grancaffe
LightRAG	무관한 개체 매칭("FRIES", "HAILEY'S BAKERY" 등) → "구체적인 레스토랑 이름은 없음" → 실패
MiniRAG	답변 유형 예측 → 개체 추출 → 토폴로지 탐색 → "Venedia Grancaffe" → 성공

Table 6: LightRAG와 MiniRAG의 복잡한 레스토랑 식별 질의에 대한 사례 연구 비교.

이 사례 연구는 SLM 기반 RAG 설계에 대한 세 가지 원칙을 시사한다. 첫째, 추상적 분해보다 구체적 개체 추출이 SLM에 더 적합하다. 둘째, 의미론적 매칭의 부정확성은 구조적 탐색으로 보완할 수 있다. 셋째, 원본 텍스트에 대한 직접 접근이 답변 품질을 보장하는 핵심 요소이다.

10. 관련 연구와의 비교 및 MiniRAG의 위치

10.1 SLM 연구의 맥락에서 본 MiniRAG

소형 언어 모델(SLM)의 연구는 최근 급격한 발전을 이루고 있으며, MiniRAG는 이 흐름의 연장선상에서 RAG 시스템이라는 구체적인 응용 영역에 SLM을 효과적으로 적용한 첫 번째 체계적 시도로 자리매김한다. MiniCPM3-4B, Phi-3.5-mini, Llama-3.2-3B, Qwen2.5-1.5B, Gemma-2-2B, SmolLM-1.7B, MobiLlama-1B 등 다양한 SLM이 언어 이해 태스크에서 인상적인 성능을 보여주었으나, 이들을 RAG 파이프라인에 효과적으로 통합하는 방법론은 대부분 미개척 상태로 남아 있었다. 기존의 SLM 연구가 주로 모델 자체의 효율성과 성능 향상에 초점을 맞추었다면, MiniRAG는 SLM의 특성에 맞추어 RAG 시스템 전체를 재설계함으로써 SLM이 실질적인 지식 기반 질의응답에 활용될 수 있는 경로를 제시한다.

다중 모달 SLM의 발전도 MiniRAG의 연구 맥락에서 주목할 만하다. MiniCPM-V 2.0, Qwen2-VL, Phi-3-vision, InternVL2-2B 등은 소형 모델에 시각적 역량을 추가하여 GUI 에이전트나 로보틱스 제어 등의 응용에 활용되고 있다. 이러한 다중 모달 SLM의 발전은 향후 MiniRAG와 결합하여, 텍스트뿐만 아니라 이미지와 비디오를 포함하는 다중 모달 온디바이스 RAG 시스템으로의 확장 가능성을 시사한다. 예를 들어, 사용자의 사진 라이브러리에서 특정 이벤트와 관련된 이미지를 검색하고, 관련 채팅 기록과 함께 종합적인 답변을 생성하는 시스템을 구상할 수 있다.

10.2 RAG 시스템 발전의 맥락에서 본 MiniRAG

RAG 시스템의 발전 과정에서 MiniRAG는 효율성과 접근성을 극대화하는 새로운 방향을 제시한다. 청크 기반 방법의 계보에서 NaiveRAG, ChunkRAG, RQ-RAG 등은 텍스트 분할과 검색 전략을 점진적으로 개선해왔으나, 이들 모두 임베딩 기반 유사도 매칭에 근본적으로 의존하며 문서 간의 구조적 관계를 활용하지 못한다는 한계를 공유한다. 그래프 기반 방법의 계보에서 GraphRAG, LightRAG, SubgraphRAG 등은 지식 그래프를 활용하여 더 풍부한 정보 구조를 구축하였으나, 이 과정에서 LLM의 강력한 텍스트 이해와 생성 능력에 크게 의존하게 되었다.

MiniRAG는 이 두 계보의 장점을 결합하면서 단점을 최소화하는 위치에 있다. 텍스트 청크를 그래프의 노드로 직접 포함시킴으로써 청크 기반 검색의 이점을 보존하고, 개체 노드와 엣지를 통해 그래프 기반 검색의 이점을 추가한다. 이러한 하이브리드 접근법은 이전의 어떤 RAG 시스템에서도 시도되지 않았던 독창적인 설계이며, 텍스트 기반과 그래프 기반 RAG의 이분법을 넘어서는 통합적 프레임워크를 제시한다. 기존의 그래프 기반 RAG가 "LLM을 사용하여 텍스트에서 지식을 추출하고 구조화한다"는 패러다임을 따랐다면, MiniRAG는 "SLM이 수행할 수 있는 수준의 단순한 태스크로 지식 구조화를 분해한다"는 새로운 패러다임을 제시한다. 이 패러다임 전환은 RAG 시스템의 민주화(democratization)라는 관점에서 중요한 의미를 가진다. 고비용의 LLM API 호출 없이도 효과적인 그래프 기반 RAG를 구축하고 배포할 수 있게 됨으로써, 더 많은 개발자와 연구자가 고급 RAG 기능에 접근할 수 있는 길이 열린다.

10.3 온디바이스 RAG와 프라이버시 보존의 관점

MiniRAG의 등장은 온디바이스 AI와 프라이버시 보존이라는 더 넓은 기술적 맥락에서 중요한 의미를 가진다. 현재 대부분의 RAG 시스템은 클라우드 기반 LLM API를 활용하여 작동하는데, 이는 사용자의 질의와 관련 문서가 외부 서버로 전송되어야 함을 의미한다. 개인 채팅 기록, 건강 정보, 금융 데이터, 기업 기밀 등 프라이버시에 민감한 정보를 다루는 경우, 이러한 데이터의 외부 전송은 심각한 보안 및 프라이버시 위험을 초래한다. GDPR(General Data Protection Regulation)과 같은 데이터 보호 규정의 강화로 인해, 사용자 데이터를 기기 내에서 처리하는 온디바이스 AI에 대한 수요는 지속적으로 증가하고 있다.

MiniRAG는 SLM과 경량 인덱싱을 통해 모든 데이터 처리를 기기 내에서 완결할 수 있게 함으로써, 이러한 프라이버시 요구사항을 근본적으로 충족한다. 또한 온디바이스 RAG는 오프라인 환경에서의 지능형 정보 접근이라는 실질적 가치를 제공한다. 네트워크 연결이 불안정하거나 존재하지 않는 환경(비행기 내, 지하, 원격 지역 등)에서도 사용자가 자신의 문서와 메시지에 대해 지능적으로 질의하고 답변을 받을 수 있다는 것은 상당한 실용적 가치를 가진다. MiniRAG는 그래프 인덱스를 사전에 구축하여 기기에 저장해둠으로써, 네트워크 연결 없이도 검색과 생성을 수행할 수 있다. MiniRAG의 25% 저장 효율성은 이러한 온디바이스 배포를 더욱 실현 가능하게 하며, 제한된 기기 저장 용량에서도 효과적인 RAG 인덱스를 유지할 수 있게 한다.

11. 한계점 및 향후 연구 방향

11.1 현재 시스템의 한계점

MiniRAG의 뛰어난 성능에도 불구하고, 현재 시스템에는 몇 가지 주목할 만한 한계점이 존재한다:

NER 의존성: SLM의 개체명 인식 능력에 상당히 의존하며, 다국어 환경이나 전문 도메인에서의 품질은 미검증
제한된 데이터셋: LiHuaWorld와 MultiHop-RAG 두 가지에 한정되어, 학술/기술/법률 문서 등에서의 성능은 미검증
어블레이션 범위 제한: LiHuaWorld에서만 수행되어, MultiHop-RAG에서의 일반화 가능성 미확인
시스템 지표 부재: 실제 온디바이스에서의 레이턴시, 메모리, 배터리 소모 등 실질적 지표 미평가
인덱싱 비용 분석 부재: SLM 인덱싱의 LLM 대비 효율성에 대한 정량적 비교 부족

11.2 향후 연구 방향

MiniRAG가 열어놓은 연구 방향은 다양하고 풍부하다.

다양한 모델 규모와 도메인에서의 평가가 첫 번째 중요한 방향이다. 현재 실험에서는 1.5B에서 4B 규모의 SLM이 사용되었으나, 1B 이하의 초소형 모델이나 7B 규모의 중형 모델에서의 성능 변화를 탐구하는 것이 의미 있을 것이다. 특히 모델 크기에 따른 MiniRAG의 성능 곡선을 분석하면, 온디바이스 배포에서의 최적 모델 크기-성능 트레이드오프를 파악할 수 있다.

인크리멘탈 인덱싱(incremental indexing) 전략의 개발도 실질적으로 중요한 방향이다. 현재 MiniRAG의 이질적 그래프는 정적으로 구축되며, 새로운 문서나 메시지가 추가될 때마다 전체 그래프를 재구축해야 할 가능성이 있다. 온디바이스 환경에서는 새로운 채팅 메시지, 이메일, 메모 등이 지속적으로 생성되므로, 기존 그래프에 새로운 정보를 효율적으로 통합하는 인크리멘탈 업데이트 메커니즘이 필수적이다. 이는 새로운 텍스트 청크에서 개체를 추출하고, 기존 그래프의 개체와의 중복 여부를 확인하며, 필요한 경우 새로운 노드와 엣지를 추가하고 기존 연결을 업데이트하는 과정을 포함한다.

멀티모달 확장의 가능성도 열려 있다. 현재의 MiniRAG는 텍스트 데이터만을 다루지만, 온디바이스 환경에서는 사진, 음성 메시지, 비디오 등 다양한 모달리티의 데이터가 존재한다. 이질적 그래프의 노드 유형을 확장하여 이미지 특징, 음성 전사, 비디오 세그먼트 등을 포함하고, 다중 모달 SLM과 결합하는 것은 매우 흥미로운 연구 방향이 될 것이다.

프라이버시 강화 측면의 연구도 중요하다. 그래프 인덱스 자체에 사용자의 개인 정보가 개체 노드로 저장되므로, 기기 분실 시의 보호 메커니즘이 필요하다. 그래프 인덱스의 암호화, 차등 프라이버시 적용, 연합 학습 기반의 그래프 구축 등이 탐구될 수 있다. 또한 다른 NLP 태스크로의 일반화도 가능한데, 이질적 그래프 인덱싱과 토폴로지 강화 검색의 원리는 RAG에 한정되지 않으며, 문서 요약, 대화 시스템 등 다양한 태스크에서 SLM의 한계를 구조적 정보로 보완하는 접근법으로 확장될 수 있다. MiniRAG는 pip install minirag-hku를 통해 설치 가능하며, Neo4j, PostgreSQL, TiDB 등 10개 이상의 이질적 그래프 데이터베이스를 지원하고, API 및 Docker 배포도 지원하여 연구자와 개발자들이 쉽게 접근하고 확장할 수 있는 기반을 제공하고 있다.

12. 결론

MiniRAG는 기존 RAG 프레임워크의 SLM 배포 한계를 해결하기 위해 설계된 새로운 RAG 시스템이다. 이질적 그래프 인덱싱과 경량 토폴로지 강화 검색이라는 두 가지 혁신을 통해, 텍스트 기반과 그래프 기반 RAG의 장점을 통합하면서도 언어 모델 역량에 대한 요구사항을 크게 줄인다. 핵심 성과를 정리하면:

모든 SLM 설정에서 SOTA 달성, 기존 대비 1.3~2.5배 효과성
LLM→SLM 전환 시 정확도 감소 0.8~20% (vs LightRAG 17~45%p, GraphRAG 완전 실패)
MultiHop-RAG에서 MiniRAG + gpt-4o-mini가 68.43%로 모든 기준선 상회
저장 공간 25%만 사용

MiniRAG의 성공은 "모델의 능력에 맞추어 시스템을 설계한다"는 접근법의 유효성을 입증한다. SLM이 잘 수행할 수 있는 단순한 태스크(개체명 인식)에 인덱싱을 집중하고, 의미론적 매칭의 한계를 그래프 토폴로지 구조로 보완하며, 원본 텍스트 청크를 그래프에 직접 포함시켜 SLM의 요약 능력에 대한 의존을 제거하는 이 세 가지 설계 결정이 MiniRAG의 성공의 근간이다.

MiniRAG의 성능을 수치적으로 더 정밀하게 분석하면, 기존 경량 RAG 시스템 대비 1.3배에서 2.5배 높은 효과성을 달성한다는 논문의 주장이 구체적으로 확인된다. LiHuaWorld에서 MiniRAG 대 LightRAG의 정확도 비율을 SLM별로 계산하면, Phi-3.5-mini에서 53.29/39.81 = 1.34배, GLM-Edge-1.5B에서 52.51/35.74 = 1.47배, Qwen2.5-3B에서 48.75/39.18 = 1.24배, MiniCPM3-4B에서 51.25/35.42 = 1.45배이다. MultiHop-RAG에서는 그 차이가 더 극적으로, Phi-3.5-mini에서 49.96/27.03 = 1.85배, Qwen2.5-3B에서 48.55/21.91 = 2.22배, MiniCPM3-4B에서 47.77/19.48 = 2.45배에 달한다. 이러한 정량적 분석은 MiniRAG가 단순히 "약간 더 나은" 것이 아니라, SLM 환경에서 근본적으로 다른 수준의 성능을 제공한다는 것을 명확히 보여준다.

MiniRAG는 RAG 연구의 방향성에 대한 중요한 메시지를 전달한다. 지금까지의 RAG 발전이 "더 강력한 LLM으로 더 복잡한 검색과 생성"이라는 방향이었다면, MiniRAG는 "모델의 역량이 제한적일 때 시스템을 어떻게 설계해야 하는가"라는 반대 방향의 질문에 답한다. 이 질문은 학술적으로만 의미 있는 것이 아니라, 실제 배포 환경에서의 비용, 레이턴시, 프라이버시, 접근성 등의 실질적 제약을 고려할 때 매우 현실적이고 중요한 질문이다. 더 단순하고 구조적인 접근법이 더 복잡하고 모델 의존적인 접근법과 실질적으로 경쟁하고 심지어 능가할 수 있음을 보여주며, 이는 향후 RAG 연구 커뮤니티 전체에 걸쳐 설계 철학에 대한 근본적인 재고와 새로운 영감을 제공하는 의미 있는 학술적 기여라 할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글

[arXiv 2505.21467] FlashDLM: KV 캐싱과 가이디드 디퓨전을 통한 확산 언어 모델 추론 가속화 (0)	2026.02.16
[arXiv 2602.13191] CoPE-VideoLM: 코덱 프리미티브를 활용한 효율적 비디오 언어 모델 (0)	2026.02.16
[arXiv 2501.04227] Agent Laboratory: LLM 에이전트를 활용한 자율 연구 보조 시스템 (0)	2026.02.16
[arXiv 2501.09751] OmniThink: 사고를 통한 기계 글쓰기의 지식 경계 확장 (0)	2026.02.16
[arXiv 2501.19393] s1: 단순한 테스트 시점 스케일링으로 o1-preview를 능가하는 추론 모델 (0)	2026.02.04

댓글

검색 결과

티스토리툴바