To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining
https://arxiv.org/abs/2604.00715
Karan Singh et al. | Stanford University, Independent, Patronus AI, The Ohio State University, Carnegie Mellon University, DegenAI Labs | arXiv:2604.00715 | 2026년 4월 1일
1. 서론: 지식을 외우는 모델과 찾아보는 모델 사이의 설계 선택
대규모 언어 모델의 성능 향상 전략은 오랫동안 더 큰 파라미터 수, 더 많은 사전학습 토큰, 더 긴 학습 시간으로 요약되어 왔다. 그러나 실제 서비스 환경에서는 모델이 모든 지식을 내부 파라미터에 저장하도록 강제하는 접근이 점점 더 비효율적으로 보이기 시작했다. 최신 정보, 긴 꼬리 지식, 도메인 특화 사실, 업데이트가 잦은 문서는 모델 내부에 완전히 압축해 넣기 어렵고, 그 과정에는 막대한 사전학습 비용이 수반된다. 이런 맥락에서 검색 증강 생성, 즉 RAG는 외부 저장소를 통해 모델의 지식 접근성을 확장하는 대표적 대안으로 자리 잡았다.
그런데 RAG가 실용적으로 중요하다는 사실과 별개로, 사전학습 단계에서 모델이 얼마나 많이 외우고, 추론 시점에 얼마나 많이 검색에 의존해야 하는지에 관한 정량적 원리는 충분히 정리되어 있지 않았다. 기존 스케일링 법칙 연구는 대체로 모델 크기 $N$와 학습 데이터량 $D$ 사이의 관계에 집중했으며, 검색 저장소 크기라는 제3의 축을 체계적으로 끌어들인 경우는 드물었다. 따라서 개발자는 실제로는 매우 중요한 질문, 즉 “더 많은 학습 토큰을 투입하는 것이 나은가, 아니면 더 큰 검색 저장소를 붙이는 것이 나은가”에 대해 명확한 기준 없이 의사결정을 해야 했다.
이 논문은 바로 그 공백을 겨냥한다. 저자들은 RAG-considerate pretraining이라는 관점을 제시하면서, 모델이 사전학습 중 모든 지식을 내재화하는 방향만을 최적화할 필요는 없다고 주장한다. 대신 추론 시점에 외부 검색이 사용될 것을 전제로 한다면, 사전학습 예산과 검색 저장소 예산 사이의 최적 배분이 달라질 수 있다. 다시 말해, 기존 스케일링 법칙은 메모리 중심 모델링의 법칙이었고, 이 논문은 그 위에 검색이라는 축을 추가하여 보다 현실적인 학습-추론 비용 구조를 설명하려는 시도라고 볼 수 있다.
논문의 실험적 기반도 비교적 탄탄하다. 저자들은 OLMo-2 계열 30M에서 3B까지 폭넓은 모델 크기를 사용하고, DCLM 기반 100B 토큰에서 샘플링한 데이터로 사전학습을 수행하며, 학습 토큰 수를 파라미터 수 대비 1배에서 150배까지 크게 스윕한다. 동시에 검색 저장소 크기도 학습 코퍼스 대비 1배에서 20배까지 조절한다. 평가 벤치마크는 PIQA, CommonsenseQA, HellaSwag, StrategyQA, SciQ, OpenBookQA, ARC Easy, ARC Challenge, Natural Questions, SimpleQA를 포함해 상식 추론과 사실 회상 태스크를 함께 다룬다. 즉, 이 연구는 단순 아이디어 제안이 아니라, 메모리와 검색의 상대적 가치를 여러 스케일에서 계량화하려는 본격적인 스케일링 연구다.
이 리뷰에서는 논문이 제시한 핵심 질문을 중심으로, 왜 기존 사전학습 패러다임만으로는 충분하지 않은지, 검색을 포함한 3차원 스케일링 법칙이 어떻게 구성되는지, 그리고 어떤 태스크에서 검색이 더 큰 대체 효과를 보이는지를 차례로 정리한다. 특히 본문에서는 저자들이 제안한 두 가지 핵심 지표인 replacement cost인 $\sigma$와 retrieval efficiency인 $\kappa$를 자세히 해석하면서, 단순 성능 향상을 넘어 실제 시스템 설계에 어떤 함의를 주는지까지 논의한다.
이 그림은 논문의 출발점을 압축적으로 보여준다. 기존 관행은 더 큰 모델과 더 많은 학습 토큰을 통해 지식을 내부에 축적하는 방향이었다면, 이 논문은 추론 단계에서 검색이 가능하다는 전제 아래 학습과 검색의 자원 대체 관계를 측정하려 한다. 핵심은 단순히 RAG가 도움이 되는가가 아니라, 일정한 성능 목표를 달성하기 위해 어느 정도의 검색 저장소가 어느 정도의 사전학습 토큰을 대체할 수 있는가를 정량화하는 데 있다.
실무적으로 보면 이 문제는 매우 중요하다. 기업은 한정된 예산 안에서 GPU 시간, 데이터 구축 비용, 인덱싱 비용, 추론 지연 시간을 함께 고려해야 한다. 따라서 이 그림이 던지는 질문은 이론적 호기심을 넘어 실제 모델 개발 로드맵과도 직접 연결된다. 저자들이 이후 절에서 제시하는 수식과 지표는 모두 이 선택을 수치화하기 위한 장치라고 이해할 수 있다.
2. 배경 및 관련 연구: 스케일링 법칙과 검색 증강의 만남
2.1 기존 스케일링 법칙의 전제와 한계
현대 언어 모델 연구에서 스케일링 법칙은 거의 하나의 설계 원리로 받아들여진다. 대표적인 형태는 손실 $L$이 모델 크기 $N$과 학습 토큰 수 $D$의 멱함수로 감소한다는 관찰이다. 이 틀은 최적의 파라미터-데이터 비율을 논의하는 데 큰 역할을 했고, 모델이 어느 영역에서 parameter-limited인지, 또는 data-limited인지 가늠하는 기준을 제공했다. 하지만 이런 법칙은 모델이 성능 향상을 위해 오직 내부 파라미터와 학습 데이터에만 의존한다는 전제를 암묵적으로 깔고 있다.
문제는 실제 지식 작업이 그렇게 닫힌 체계가 아니라는 점이다. 모델은 이미 검색기, 도구 호출기, API, 데이터베이스, 장기 메모리 모듈과 함께 사용되고 있다. 특히 사실 기반 질의응답이나 긴 꼬리 지식 회상처럼 외부 정보 접근이 자연스러운 태스크에서는, 더 많은 사전학습이 항상 가장 싼 해법이라고 보기 어렵다. 기존 스케일링 법칙은 이런 개방형 추론 환경을 다루기 어렵고, 따라서 추론 시 검색이 가능한 시스템 전체를 최적화하기에는 불완전하다.
이 논문은 기존 2차원 법칙을 부정하지 않는다. 오히려 저자들은 먼저 비검색 조건의 베이스라인 법칙을 정밀하게 맞춘 뒤, 그 위에 검색 저장소 규모 $R$를 추가한 3차원 법칙을 제안한다. 다시 말해, 이 연구는 기존 스케일링 연구의 연장선에 있으면서도, 사전학습만으로 설명되지 않던 성능 일부를 검색의 함수로 설명하려는 확장형 연구다.
2.2 RAG 연구의 발전과 이 논문의 차별점
RAG 연구는 보통 세 방향으로 발전해 왔다. 첫째, 더 강한 retriever를 만드는 방향이다. 여기서는 임베딩 모델, 인덱스 구조, 재랭킹, 하이브리드 검색, 멀티홉 질의 재작성 등이 핵심 요소가 된다. 둘째, 검색된 문서를 더 잘 활용하는 generator 설계다. 컨텍스트 윈도우 확장, 선택적 인용, 문서 압축, 증거 기반 답변 생성 등이 이 범주에 속한다. 셋째, 검색이 실제로 언제 도움이 되는지, 어떤 종류의 지식을 외부화해야 하는지를 이해하려는 분석 연구다.
이 논문은 세 번째 흐름에 속하지만, 단순 경험적 분석을 넘어 정량적 스케일 법칙의 형태를 부여한다는 점이 특징적이다. 저자들의 관심사는 검색기의 구조 자체보다, 검색이라는 연산을 시스템 예산에 포함했을 때 모델 학습 전략이 어떻게 달라져야 하는가에 있다. 따라서 본 논문은 “최고 성능 RAG 파이프라인을 만드는 법”보다 “사전학습 예산과 검색 예산을 함께 설계하는 법”에 더 가깝다.
이 차별점은 평가 태스크 선택에서도 드러난다. 저자들은 상식 추론 벤치마크와 사실 회상 벤치마크를 함께 사용하여, 검색이 단순한 사실 기억 보조 장치인지, 혹은 일부 상식 태스크에서도 유효한지 살핀다. 결과적으로 모든 태스크가 똑같이 검색의 혜택을 받지 않으며, 어떤 태스크는 모델이 사전학습으로 외우는 편이 낫고, 어떤 태스크는 검색 저장소 확장이 매우 큰 대체 효과를 보인다는 점이 드러난다. 이것이 바로 RAG-considerate pretraining이라는 개념의 설득력을 높이는 부분이다.
2.3 메모리와 검색의 역할 분담이라는 관점
논문이 제기하는 더 큰 질문은 단순히 RAG를 붙일지 말지가 아니다. 저자들은 지식을 크게 두 부류로 나눠 생각하도록 유도한다. 하나는 모델 내부 파라미터에 안정적으로 압축되어야 하는 추론에 필요한 일반적 구조와 언어적 규칙성이고, 다른 하나는 외부 저장소에서 필요할 때 호출 가능한 긴 꼬리 사실과 업데이트 가능한 정보다. 이 구분은 아직 완전히 형식화되지는 않았지만, 논문은 여러 태스크의 결과를 통해 그 단초를 보여준다.
예를 들어 CommonsenseQA나 StrategyQA는 사실 회상 요소를 가지면서도 단순 검색만으로 해결되지 않는 추론 구조를 포함한다. 반면 Natural Questions나 SimpleQA는 상대적으로 사실 검색의 역할이 더 직접적이다. 논문은 바로 이 차이를 검색 법칙의 계수와 후속 지표들로 포착하려 한다. 따라서 본 연구는 “어떤 지식을 외울 것인가”라는 메모리 설계 문제와 “어떤 지식을 검색에 맡길 것인가”라는 시스템 설계 문제를 하나의 프레임 안에 넣는 시도라고 평가할 수 있다.
이 그림은 논문 전체의 기준점을 제공한다. 먼저 비검색 조건에서 각 태스크의 성능이 $N$과 $D$만으로 어느 정도 설명되는지 보여주고, 이후 검색 축이 추가될 때 얻는 잔여 이득을 측정하게 된다. 즉 3차원 법칙의 타당성은 결국 2차원 베이스라인이 얼마나 안정적으로 맞춰졌는가에 달려 있으며, 저자들은 이를 위해 다양한 태스크별로 계수를 따로 추정한다.
특히 이 그림이 중요한 이유는 검색 효과를 과장하지 않기 때문이다. 만약 비검색 베이스라인 자체가 부정확하다면, 검색의 개선은 단지 모형 적합 실패를 보정하는 것처럼 보일 수 있다. 저자들은 베이스라인과 검색 확장 모델을 함께 제시함으로써, 검색이 기존 스케일링 구조 위에 어떤 형태로 추가적 설명력을 제공하는지 분리해 해석할 수 있게 만든다.
3. 방법론: 2차원 학습 법칙에서 3차원 검색 법칙으로
3.1 베이스라인 2차원 법칙의 정의
논문은 먼저 검색이 없는 조건에서 태스크 성능을 설명하는 베이스라인 법칙을 다음과 같이 둔다.
$$L(N,D)=A\left(\frac{N}{10^9}\right)^{-\alpha}+B\left(\frac{D}{10^9}\right)^{-\beta}+L_0$$
여기서 $L$은 태스크별 손실 또는 그에 준하는 오류 척도이며, $N$은 파라미터 수, $D$는 사전학습 토큰 수다. $A$와 $B$는 각 축의 기여 스케일을 조절하는 상수이고, $\alpha$와 $\beta$는 각각 모델 스케일과 데이터 스케일에 대한 감쇠 지수를 나타낸다. 마지막 상수 $L_0$는 무한히 큰 모델과 무한한 데이터에서도 남는 비가역적 바닥 손실을 의미한다.
이 수식의 해석은 직관적이다. 첫 번째 항은 모델이 더 커질수록 성능이 개선되지만, 그 개선폭은 점차 줄어드는 체감 수익을 나타낸다. 두 번째 항은 더 많은 사전학습 토큰을 넣을수록 손실이 감소하지만 마찬가지로 점차 수확 체감이 나타난다는 뜻이다. 결국 어떤 태스크가 모델 크기에 더 민감한지, 데이터량에 더 민감한지는 $\alpha$와 $\beta$의 상대적 크기로 드러난다.
논문의 흥미로운 점은 이 계수들이 태스크마다 매우 다르게 나타난다는 것이다. 예컨대 StrategyQA는 $\alpha=2.0000$으로 보고되어 모델 크기 변화에 매우 민감한 반면, CommonsenseQA는 $\alpha=0.1558$로 훨씬 낮다. 반대로 PIQA는 $\beta=1.3033$으로 데이터 스케일에 특히 크게 반응한다. 이런 차이는 특정 태스크가 “더 큰 모델이 필요한 문제인지”, 또는 “더 많은 사전학습 노출이 필요한 문제인지”를 가늠하게 해준다.
3.2 검색을 포함한 3차원 법칙
베이스라인 위에 저자들은 검색 저장소 크기 $R$를 추가한 3차원 법칙을 제안한다.
$$L(N,D,R)=A\left(\frac{N}{10^9}\right)^{-\alpha}+B\left(\frac{D}{10^9}\right)^{-\beta}-C\log\left(1+\eta\frac{R}{10^9}\right)+L_0$$
핵심은 검색의 기여가 멱함수 감소가 아니라 로그 이득 형태로 추가된다는 점이다. 즉 저장소 크기 $R$를 늘리면 손실이 감소하지만, 이 역시 초기에 큰 이득을 주고 이후에는 체감한다. 이는 실제 검색 시스템의 경험칙과도 부합한다. 검색 저장소가 극히 작을 때는 커버리지 확대의 효과가 매우 크지만, 일정 규모를 넘어서면 중복 문서 증가나 노이즈 유입으로 인해 추가 이득이 둔화되기 쉽다.
여기서 $\eta$는 저장소 크기의 유효 스케일을 조정하는 매개변수로 이해할 수 있다. 같은 $R$이라도 어떤 태스크는 실제로 검색 가능한 관련 증거가 잘 존재하고, 어떤 태스크는 검색된 문서가 정답 결정에 직접적 도움이 되지 않는다. 이런 차이는 $\eta$ 값의 크기에 반영된다. 예를 들어 PIQA와 HellaSwag처럼 상대적으로 검색 효과가 제한적인 태스크에서는 $\eta$가 매우 작게 보고되며, 반대로 StrategyQA, ARC 계열, Natural Questions, SimpleQA에서는 $\eta$가 상한값인 10.0 근처까지 올라간다.
수식 구조상 검색 항은 손실을 직접적으로 깎아내는 음수 항으로 작동한다. 따라서 3차원 법칙은 “검색이 모델과 데이터 스케일의 일부 역할을 대체한다”는 가설을 수학적으로 구현한 형태다. 중요한 것은 저자들이 검색을 단순 보정 변수로 두지 않고, 체감 구조가 있는 독립 축으로 모델링했다는 점이다. 이는 향후 더 복잡한 검색 파이프라인이나 적응형 인덱싱이 등장하더라도, 기본적인 자원 대체 관계를 논의할 출발점이 될 수 있다.
3.3 두 가지 핵심 지표: $\sigma$와 $\kappa$
저자들은 3차원 법칙을 단순 적합에만 쓰지 않고, 실제 해석을 위해 두 개의 파생 지표를 정의한다. 첫 번째는 replacement cost인 $\sigma$다.
$$\sigma=\frac{D_{\mathrm{eff}}^{\mathrm{RAG}}-D}{R_{\mathrm{opt}}}$$
이 값은 직관적으로 보면, 어떤 양의 검색 저장소가 추가되었을 때 그것이 사전학습 토큰으로 환산하면 얼마나 되는지를 나타낸다. 즉 검색으로 인해 달성된 성능 향상을, “같은 효과를 얻기 위해 비검색 모델은 얼마나 더 많은 학습 토큰이 필요했는가”라는 형태로 바꿔 읽을 수 있다. $\sigma$가 클수록 검색 저장소 1단위가 대체하는 사전학습 토큰의 양이 크다는 뜻이며, 곧 해당 태스크에서 검색이 매우 값비싼 학습 비용을 절약해 준다는 의미가 된다.
두 번째 지표는 retrieval efficiency인 $\kappa$다.
$$\kappa=\frac{\Delta L}{R/10^9}$$
이는 저장소 단위당 손실 감소량을 측정하는 지표로, 말 그대로 검색 저장소 확장의 효율을 뜻한다. $\kappa$가 높다는 것은 같은 양의 저장소를 추가하더라도 더 큰 성능 향상을 낼 수 있음을 뜻한다. 따라서 $\sigma$가 학습 비용 대체 관점이라면, $\kappa$는 저장소 투자 효율 관점의 지표라고 볼 수 있다. 두 값이 함께 높으면 검색 친화성이 강한 태스크이고, 둘 다 낮으면 검색보다는 사전학습 자체가 더 중요하다는 해석이 가능하다.
이 두 지표가 유용한 이유는, 단순 정확도 차이만으로는 파악하기 어려운 시스템 설계 함의를 드러내기 때문이다. 예를 들어 어떤 태스크는 절대 성능 개선 폭은 크지 않더라도, 작은 저장소만으로도 그 개선을 달성할 수 있어 $\kappa$가 높을 수 있다. 반대로 다른 태스크는 저장소를 크게 늘려야만 효과가 나타나므로 $\sigma$나 $\kappa$가 낮을 수 있다. 논문은 이 값을 통해 태스크를 검색 친화적 문제와 메모리 중심 문제로 구분하는 실마리를 제공한다.
3.4 직관적 해석: 무엇을 외우고 무엇을 검색할 것인가
방법론 차원에서 이 논문의 가장 큰 미덕은, 검색을 단순한 성능 보조 수단이 아니라 학습 예산을 재배치하는 메커니즘으로 해석했다는 점이다. 사전학습 토큰은 모델 내부에 비교적 일반화된 지식 구조를 새기는 데 유리하지만, 비용이 비싸고 업데이트가 어렵다. 반면 검색 저장소는 상대적으로 유연하게 확장할 수 있고, 도메인별 사실이나 긴 꼬리 지식을 외부화하기 좋다. 따라서 두 자원은 경쟁 관계이면서도 상보 관계다.
논문이 제안한 3차원 법칙은 바로 이 상보 관계를 최소한의 함수 형태로 포착하려는 시도다. 물론 실제 시스템에서는 검색 품질, chunking, 문서 최신성, 질의 재작성, top-k 설정 등 훨씬 많은 변수가 개입한다. 그럼에도 불구하고 본 논문은 “검색을 고려한 사전학습”이라는 개념을 단순 철학이 아니라 계량적 설계 문제로 끌어내렸다는 점에서 의미가 있다.
4. 실험 설정: OLMo-2 스케일 스윕과 고정 검색 파이프라인
4.1 데이터셋 및 벤치마크
실험은 상식 추론과 사실 질의응답을 모두 아우르는 10개 벤치마크를 대상으로 수행된다. 논문은 PIQA, CommonsenseQA, HellaSwag, StrategyQA, SciQ, OpenBookQA, ARC Easy, ARC Challenge를 통해 상식 추론과 과학 지식 활용을 평가하고, Natural Questions와 SimpleQA를 통해 사실 회상 중심 질의응답을 평가한다. 이러한 구성은 검색 효과가 추론형 문제와 사실형 문제에서 어떻게 다르게 나타나는지 비교하기 적절하다.
특히 벤치마크 조합을 보면, 저자들이 단순히 “RAG는 지식 QA에서 강하다”는 당연한 결론에 머물지 않으려 했음을 알 수 있다. CommonsenseQA, StrategyQA, ARC Challenge처럼 정답을 찾기 위해 단순 검색 결과 이상의 조합적 판단이 필요한 태스크를 포함함으로써, 검색이 어디까지 도움을 줄 수 있는지 경계를 함께 측정한다. 이는 후반부의 $\sigma$와 $\kappa$ 해석에서 매우 중요하게 작용한다.
| 벤치마크 | 유형 | 논문에서의 역할 |
|---|---|---|
| PIQA | 물리 상식 추론 | 검색이 약한 상식형 태스크의 대표 사례 |
| CommonsenseQA | 상식 QA | 외부 지식과 추론의 결합 필요성 평가 |
| HellaSwag | 문맥 완성/상식 | 검색보다 내재적 상식이 중요한 경우 측정 |
| StrategyQA | 다단계 상식 추론 | 검색과 추론 구조의 상호작용 관찰 |
| SciQ | 과학 QA | 설명형 지식 검색의 효율성 측정 |
| OpenBookQA | 과학 상식 QA | 적은 저장소로도 큰 개선이 가능한지 측정 |
| ARC Easy | 기초 과학 QA | 검색 친화적 과학 문제 평가 |
| ARC Challenge | 난도 높은 과학 QA | 더 복잡한 추론이 필요한 검색형 문제 평가 |
| Natural Questions | 사실 QA | 전형적인 검색 혜택 태스크 |
| SimpleQA | 단문 사실 QA | 검색 저장소 확장의 상한 효과 관찰 |
이 표에서 보듯 논문은 특정 도메인 하나에 국한되지 않는다. 상식, 과학, 일반 사실 질의응답을 함께 다룸으로써, 검색의 이득이 얼마나 넓게 일반화되는지 살펴본다. 동시에 태스크 간 계수 차이를 통해, 검색이 단순 정보 회수 문제를 넘어서 어느 정도의 추론 부담까지 흡수할 수 있는지도 가늠하게 한다.
4.2 모델 스케일과 사전학습 토큰 스윕
논문은 OLMo-2 계열을 기반으로 매우 폭넓은 모델 크기 스윕을 수행한다. 구체적으로 30M, 136M, 233M, 728M, 1B, 3B 파라미터 모델을 사용하며, 각 모델은 블록 수와 히든 차원, 어텐션 헤드 수를 체계적으로 키워 나간다. 이런 설계는 단일 규모에서의 결과가 아니라, 스케일 전반에 걸친 추세를 분석하기 위한 것이다.
사전학습 데이터는 DCLM에서 샘플링한 100B 토큰을 기반으로 하고, 모델마다 파라미터 수 대비 1배에서 150배까지 학습 토큰 수를 변화시킨다. 이 비율 스윕은 매우 중요하다. 검색 저장소의 가치가 언제 커지는지는 결국 사전학습이 얼마나 충분했는지와 연동되기 때문이다. 만약 학습 토큰이 극도로 부족한 영역이라면, 검색보다 먼저 기본 언어 능력과 일반화 능력을 갖추는 것이 더 중요할 수 있다. 반대로 학습이 충분히 진행된 영역에서는 추가 토큰 대비 검색 저장소 확장의 한계 비용이 더 낮아질 수 있다.
| 모델 크기 | 레이어 수 | 히든 차원 | 헤드 수 | FFN 차원 | 블록 길이 |
|---|---|---|---|---|---|
| 30M | 8 | 256 | 4 | 512 | 4096 |
| 136M | 8 | 512 | 8 | 2048 | 4096 |
| 233M | 16 | 640 | 10 | 2560 | 4096 |
| 728M | 18 | 1280 | 10 | 5120 | 4096 |
| 1B | 24 | 1408 | 11 | 5632 | 4096 |
| 3B | 26 | 2560 | 20 | 10240 | 4096 |
모델 구성 표는 단순 부록 정보처럼 보일 수 있지만, 스케일링 연구에서는 매우 중요하다. 다양한 크기에서 일관된 아키텍처 패밀리를 유지해야만, 성능 차이를 모델 크기라는 축으로 해석할 수 있기 때문이다. 저자들은 이런 점에서 비교적 정돈된 실험 설계를 택하고 있으며, 덕분에 $\alpha$ 추정치의 해석 가능성이 높아진다.
4.3 검색 저장소와 인덱스 구성
검색 측면에서 논문은 비교적 단순하고 고정된 파이프라인을 사용한다. 임베딩 모델은 Qwen3-Embedding-8B이고, 임베딩 차원은 4096이다. 텍스트는 chunk size 900, stride 256으로 분할되며, 인덱스는 IVFPQ 기반으로 구성된다. 논문은 이 단순한 검색 구성을 의도적으로 고정함으로써, 검색 알고리즘 자체의 개선보다 저장소 규모 확장의 효과를 분리해 측정하려 한다.
이 선택은 장단점을 함께 가진다. 장점은 검색 파이프라인이 지나치게 복잡해지지 않아 스케일링 법칙의 해석이 명확해진다는 것이다. 단점은 현재 최고 수준의 RAG 시스템이 활용하는 쿼리 재작성, 멀티벡터 검색, 하이브리드 sparse-dense 검색, 재랭킹, 적응형 top-k 같은 요소를 포함하지 않으므로, 실제 산업용 파이프라인의 성능 상한을 반영하지 못할 수 있다는 점이다. 하지만 저자들도 바로 이런 한계를 후반부 한계점 절에서 명시적으로 인정한다.
| 구성 요소 | 설정값 | 의미 |
|---|---|---|
| 임베딩 모델 | Qwen3-Embedding-8B | 검색 표현의 질을 결정하는 핵심 구성 |
| 임베딩 차원 | 4096 | 고차원 dense retrieval 표현 |
| 거리/유사도 | L2, inner product | 벡터 근접 탐색 기준 |
| 청크 크기 | 900 | 문맥 범위와 증거 밀도 사이의 절충 |
| 스트라이드 | 256 | 청크 중첩을 통해 회수 안정성 확보 |
| 인덱스 | IVFPQ | 대규모 저장소에서 효율적 근사 검색 수행 |
| 서브양자화 수 | 128 | 압축 표현의 해상도 설정 |
| 비트 수 | 8 | PQ 코드북 정밀도 |
| nprobe | 64 | 탐색 범위를 조절하는 검색 속도-정확도 파라미터 |
검색 저장소 크기 스윕은 학습 코퍼스 대비 1배에서 20배까지 이루어진다. 이 역시 중요한 설계다. 저장소를 단지 “있다/없다”로 나누지 않고, 규모를 연속적으로 늘려가며 로그형 수확 체감이 실제로 드러나는지 점검한다. 이 덕분에 저자들은 검색 항을 단순 선형 함수가 아니라 로그 함수로 놓을 근거를 경험적으로 확보한다.
4.4 베이스라인과 적합 지표
논문은 각 태스크에 대해 2차원 베이스라인과 3차원 검색 법칙을 적합하고, CV ARE와 LOMO 같은 적합 품질 지표를 함께 보고한다. 여기서 핵심은 단순히 3차원 모델이 더 복잡하기 때문에 잘 맞는다고 주장하는 것이 아니라, 검색 축이 추가되었을 때 실제 예측 오차가 얼마나 줄어드는지를 확인하는 데 있다. 태스크별 차이는 상당히 크며, 이것이 곧 검색 효과의 이질성을 보여주는 증거가 된다.
이 실험 설정을 종합하면, 저자들은 모델 크기, 사전학습 토큰, 검색 저장소 크기라는 세 축을 비교적 체계적으로 스윕한 뒤, 그 결과를 간결한 함수 계수로 압축하는 전략을 취한다. 따라서 본 논문은 개별 실험 포인트 하나하나보다, 전체 표면의 모양을 이해하는 것이 더 중요하다.
5. 주요 실험 결과: 검색은 모든 태스크를 똑같이 돕지 않는다
5.1 비검색 베이스라인 계수의 해석
먼저 2차원 베이스라인 적합 결과를 보면, 태스크별로 모델 크기와 데이터량에 대한 민감도가 상당히 다르다는 점이 드러난다. 이는 이후 검색 효과를 해석하는 기초가 된다. 예를 들어 PIQA는 $\beta=1.3033$으로 데이터량 증가의 효과가 크고, CommonsenseQA는 $\beta=0.0869$로 매우 낮다. StrategyQA는 $\alpha=2.0000$으로 모델 크기에 대한 반응이 극단적으로 크며, ARC Challenge는 $\alpha$와 $\beta$가 모두 0.28 전후로 비교적 균형 잡힌 구조를 보인다.
이 결과는 각 태스크가 내부 기억에 얼마나 의존하는지, 그리고 단순 데이터 확대만으로 얼마나 개선될 수 있는지에 대한 힌트를 준다. 데이터 지수 $\beta$가 큰 태스크는 사전학습 노출량이 늘어날 때 빠르게 이득을 얻는 경향이 있고, 이는 검색이 들어오기 전에도 학습 데이터 자체가 강한 역할을 한다는 뜻이다. 반면 특정 태스크에서 $\beta$가 낮다면, 단순히 더 많은 토큰을 투입하는 것만으로는 개선이 제한적일 수 있으며, 이런 경우 검색이 대안이 될 가능성이 있다.
| 태스크 | CV ARE | LOMO | $\alpha$ | $\beta$ | $L_0$ |
|---|---|---|---|---|---|
| PIQA | 42.55 | 129.04 | 0.3786 | 1.3033 | 1.0920 |
| CommonsenseQA | 6.87 | 10.76 | 0.1558 | 0.0869 | 2.1619 |
| HellaSwag | 2.18 | 4.94 | 0.3923 | 0.4713 | 1.3714 |
| StrategyQA | 12.28 | 14.93 | 2.0000 | 0.4647 | 7.6735 |
| SciQ | 13.07 | 24.03 | 0.5267 | 0.2606 | 0.9522 |
| OpenBookQA | 4.78 | 9.41 | 0.3688 | 0.2120 | 1.6579 |
| ARC Easy | 7.10 | 13.67 | 0.3566 | 0.2195 | 1.0299 |
| ARC Challenge | 3.93 | 6.09 | 0.2811 | 0.2817 | 1.1133 |
| Natural Questions | 7.19 | 17.39 | 0.3595 | 0.3523 | 1.2593 |
| SimpleQA | 11.46 | 21.09 | 0.2285 | 0.9580 | 1.7196 |
표를 통해 가장 먼저 확인되는 사실은 베이스라인 자체가 태스크별로 꽤 다른 지형을 가진다는 점이다. 예컨대 HellaSwag은 적합 오차가 매우 낮아 비교적 안정적으로 스케일링 법칙에 올라타는 반면, PIQA는 CV ARE와 LOMO가 모두 크게 보고되어 단순 2차원 법칙만으로는 충분히 설명되지 않는 변화가 있음을 시사한다. 이런 태스크에서 검색 축이 추가되면 실제 설명력이 얼마나 늘어나는지 확인하는 것이 다음 단계의 핵심이 된다.
5.2 3차원 검색 법칙의 적합과 태스크별 검색 민감도
검색 축을 포함한 3차원 법칙의 적합 결과는 논문의 핵심 기여다. 태스크별 $\eta$를 보면 검색이 의미 있게 작동하는 영역과 그렇지 않은 영역이 뚜렷하게 갈린다. PIQA의 $\eta=0.0001$, HellaSwag의 $\eta=0.0007$은 검색 저장소를 늘려도 실질적 이득이 매우 제한적임을 뜻한다. 반대로 StrategyQA, ARC Easy, ARC Challenge, Natural Questions, SimpleQA는 $\eta$가 10.0 또는 그 근처로 포화되어, 저장소 확장이 손실 감소에 실질적으로 기여함을 보여준다.
이 결과는 매우 상식적이면서도 동시에 중요하다. 상식 완성형 태스크는 외부 문서를 검색한다고 해서 정답이 바로 드러나지 않는 경우가 많다. 문맥적 상식, 세계 모델, 사건 전개 예측 같은 요소는 파라미터 내부 일반화에 더 의존한다. 반면 과학 QA나 사실 QA는 검색 가능한 증거 문서가 존재할 가능성이 높기 때문에, 저장소 규모 확장이 실질적인 도움을 줄 수 있다. 논문은 이런 직관을 계수 수준으로 보여준다.
| 태스크 | CV ARE | LOMO | $\eta$ | 해석 |
|---|---|---|---|---|
| PIQA | 40.10 | 39.82 | 0.0001 | 검색 효과가 거의 미미함 |
| CommonsenseQA | 5.74 | 7.42 | 0.3432 | 제한적이지만 무시할 수 없는 검색 효과 |
| HellaSwag | 2.11 | 2.43 | 0.0007 | 내재적 상식 의존도가 높음 |
| StrategyQA | 15.80 | 15.26 | 10.0 | 검색 증거의 기여가 큼 |
| SciQ | 9.96 | 12.39 | 0.9008 | 과학 지식 검색의 효과가 분명함 |
| OpenBookQA | 4.29 | 5.10 | 1.8620 | 적은 저장소 증가에도 개선 여지 존재 |
| ARC Easy | 4.95 | 6.68 | 10.0 | 검색 친화성이 매우 높음 |
| ARC Challenge | 3.44 | 4.19 | 10.0 | 더 어려운 과학 QA에서도 검색 효과 유지 |
| Natural Questions | 5.67 | 7.10 | 10.0 | 사실 QA에서 강력한 검색 이득 |
| SimpleQA | 11.73 | 13.24 | 9.9999 | 검색 저장소의 역할이 매우 직접적 |
3차원 표를 해석할 때 중요한 점은, 검색이 모든 문제를 일률적으로 해결하지 않는다는 것이다. 이 논문은 오히려 그 반대를 보여준다. 일부 태스크에서는 검색 저장소를 아무리 키워도 얻는 이득이 제한적이며, 그런 경우에는 더 나은 사전학습 데이터나 더 큰 모델이 더 직접적인 해법일 수 있다. 반면 다른 태스크에서는 검색 저장소가 사실상 추가 학습 토큰의 일부를 대체한다. 따라서 본 논문은 “RAG 만능론”보다는 “태스크 구조에 맞는 자원 배분론”에 가깝다.
5.3 시각적 결과가 보여주는 전반적 추세
논문이 제공하는 결과 그림들은 이러한 추세를 더 직관적으로 보여준다. 특히 RAG가 성능을 향상시키는 폭은 모델이 작을수록, 또는 사전학습 토큰이 충분하지 않을수록 더 크게 나타나는 경향이 있다. 이는 검색이 부족한 내부 기억을 보완하는 외부 메모리 역할을 수행하기 때문으로 해석할 수 있다. 그러나 모델이 매우 커지고 사전학습이 충분한 영역에서는 검색의 추가 이득이 감소하는데, 이는 수식의 로그 항과도 부합한다.
또한 태스크별 곡선 형태는 검색이 “정답 문서 유무”뿐 아니라 “검색된 증거를 문제 해결에 통합할 수 있는가”에도 좌우된다는 점을 시사한다. 예컨대 과학 QA는 적절한 설명 문장을 찾을 수 있으면 큰 도움이 되지만, 상식 완성형 태스크에서는 검색된 문서가 있더라도 정답 판단에 그대로 연결되지 않을 수 있다. 즉 검색은 저장소 크기의 문제인 동시에, 문제 구조의 문제다.
이 그림은 논문이 본선 실험과 별도로 수행한 retrieval quality ablation을 요약한다. 기본 조건은 검색을 쓰지 않는 baseline이고, 그 위에 질문만으로 검색한 경우와 질문에 정답을 함께 붙여 검색한 oracle형 조건을 비교한다. 여기서 핵심은 검색 저장소 규모를 늘리는 문제와, 동일한 저장소에서 더 적합한 문서를 끌어오는 문제를 분리해 본다는 점이다. 즉 이 그림은 “검색이 도움이 되는가”보다 한 걸음 더 들어가 “검색기의 질이 좋아지면 현재 관측된 곡선이 얼마나 더 올라갈 수 있는가”를 묻는다.
논문은 SimpleQA에서 query-only retrieval이 baseline보다 일정 부분 개선을 보이지만, gold answer를 포함한 질의에서는 그보다 더 큰 폭의 향상이 나타난다고 설명한다. 물론 gold answer를 질의에 넣는 것은 실제 추론 설정과는 다르므로 실전 기법이 아니라 상한 추정에 가깝다. 그럼에도 이 결과는 중요한 사실을 드러낸다. 현재 관측되는 retrieval 이득의 상당 부분은 언어 모델 자체의 활용 한계만이 아니라, retriever가 정답 직접 증거를 충분히 높은 순위로 올리지 못하는 병목에도 의해 제한될 수 있다는 점이다.
이 점은 3차원 스케일링 법칙의 해석에도 직접 영향을 준다. 만약 retrieval quality가 더 강했다면, 같은 $R$에서 손실 감소량이 더 컸을 수 있고, 그에 따라 $\eta$, $\sigma$, $\kappa$의 실질적 의미도 달라졌을 가능성이 있다. 따라서 본 논문이 제시하는 계수는 검색이라는 축의 존재를 부정할 수 없게 만들지만, 동시에 그것이 현재의 고정된 retrieval stack 하에서 측정된 값이라는 사실도 분명히 해 준다. 이 균형 감각이 중요하다. 저자들은 retrieval을 과장하지 않으면서도, 더 강한 검색기가 들어오면 최적 배분점이 앞으로도 충분히 이동할 수 있음을 시사한다.
안정성 그림은 검색 확대의 또 다른 측면을 보여준다. 평균 개선폭만 보면 검색이 좋아 보일 수 있지만, 실제로는 저장소가 커질수록 더 많은 관련 문서가 들어오는 동시에 더 많은 잡음도 유입될 수 있다. 따라서 성능 곡선의 분산이나 일관성은 실무 적용에서 중요한 요소이며, 저자들은 검색 효과를 단순 평균이 아니라 보다 구조적인 현상으로 본다.
이 그림이 시사하는 바는 명확하다. 검색은 강력한 보조 수단이지만, 검색 품질과 컨텍스트 통합 능력이 충분하지 않으면 저장소 크기 확대만으로는 안정적 이득을 보장하지 않는다. 즉 “더 큰 저장소”는 필요조건일 수 있으나 충분조건은 아니다. 이 점은 논문의 한계와 향후 연구 방향에서도 다시 언급된다.
6. 추가 분석 및 Ablation Study: 대체 비용과 검색 효율의 정량화
6.1 replacement cost $\sigma$: 검색은 얼마나 많은 학습을 대신하는가
논문의 가장 실용적인 기여는 아마도 replacement cost $\sigma$일 것이다. 이 값은 검색 저장소가 추가될 때, 그것이 사전학습 토큰의 얼마나 큰 양을 대체하는지 정량화한다. 예를 들어 CommonsenseQA의 $\sigma$가 677.51로 매우 높게 보고된다는 것은, 이 태스크에서는 적절한 검색 저장소가 추가 사전학습 토큰에 비해 매우 큰 대체 효과를 낼 수 있음을 뜻한다. 반면 ARC Challenge의 $\sigma=4.73$은 검색이 도움이 되더라도 대체 효과의 절대량은 훨씬 제한적임을 보여준다.
이 차이는 단순히 검색 친화성만으로 설명되지 않는다. 어떤 태스크는 검색된 증거가 존재할 뿐 아니라, 그 증거를 통해 성능을 빠르게 끌어올릴 수 있는 구조를 가진다. CommonsenseQA처럼 상식 질문이지만 외부 설명 지식을 통해 보완 가능한 경우, 적절한 저장소 확장이 예상보다 큰 효과를 낼 수 있다. 반대로 ARC Challenge는 검색이 유익해도 문제 난도가 높아, 추가 저장소가 곧바로 추가 학습을 대체하지는 못할 수 있다.
| 태스크 | $\sigma$ | 해석 |
|---|---|---|
| ARC Challenge | 4.73 | 검색이 유익하지만 추가 학습 대체량은 제한적 |
| ARC Easy | 22.54 | 기초 과학 QA에서는 저장소가 상당한 학습 비용을 대체 |
| CommonsenseQA | 677.51 | 검색 저장소의 대체 효과가 압도적으로 큼 |
| Natural Questions | 5.28 | 사실 QA지만 추가 학습 환산량은 중간 수준 |
| OpenBookQA | 6.65 | 작은 저장소 증설도 학습 일부를 대체 |
| SciQ | 24.21 | 과학 설명 지식 검색의 가치가 큼 |
| StrategyQA | 95.59 | 추론형 상식 문제에서도 검색 대체 효과가 큼 |
$\sigma$ 표를 보면, 검색은 단순 사실 질의응답에서만 가치가 있는 것이 아니라는 점이 드러난다. StrategyQA와 CommonsenseQA처럼 상식 추론 성격이 강한 문제에서도 상당한 대체 비용이 관찰되는데, 이는 일부 상식 문제가 사실상 배경 지식의 결핍에서 비롯될 수 있음을 시사한다. 즉 검색은 순수 회상 문제에만 국한되지 않고, 추론 문제의 입력 재구성에도 기여할 수 있다.
이 그림은 검색의 가치를 두 축으로 나눠 본다는 점에서 매우 유용하다. 단지 성능이 올랐는가가 아니라, 그 개선이 얼마나 많은 학습 비용을 대체하며, 저장소 단위당 얼마나 효율적으로 발생하는지를 동시에 보여준다. 따라서 이 그림은 연구용 분석뿐 아니라 실제 시스템 투자 우선순위를 정하는 데도 참고할 수 있다.
그림을 통해 확인되는 중요한 메시지는, 검색 친화성은 단일 척도가 아니라는 점이다. 어떤 태스크는 대체 비용은 높지만 효율은 중간일 수 있고, 다른 태스크는 저장소 단위 효율이 매우 높아 소규모 인덱싱 투자만으로도 상당한 이득을 볼 수 있다. 따라서 RAG 도입 여부를 결정할 때는 “검색이 도움이 되는가”보다 “어떤 방식으로 얼마나 효율적으로 도움이 되는가”를 봐야 한다는 것이 논문의 시사점이다.
6.2 retrieval efficiency $\kappa$: 저장소 한 단위의 가치
$\kappa$는 저장소 단위당 손실 감소량을 측정하므로, 실제 자원 효율성을 판단하는 데 특히 직접적이다. 표에 따르면 OpenBookQA의 $\kappa=2.2450$, StrategyQA의 $\kappa=3.5006$은 매우 높은 편에 속한다. 이는 저장소를 조금만 확장해도 눈에 띄는 성능 이득이 나타날 수 있음을 뜻한다. 반면 ARC Easy의 $\kappa=0.3701$이나 Natural Questions의 $\kappa=0.4421$은 검색 친화성은 분명하지만, 저장소 단위 이득이 그렇게 폭발적이지는 않다는 뜻이다.
흥미로운 점은 $\sigma$와 $\kappa$가 항상 같은 순서로 움직이지 않는다는 것이다. 어떤 태스크는 전체적으로 보면 검색이 많은 학습 비용을 대체하지만, 단위 저장소 효율은 그리 높지 않을 수 있다. 반대로 작은 저장소에서도 빠른 성능 향상이 나타나는 태스크는 $\kappa$가 높게 잡힌다. 이는 투자 전략의 관점에서 매우 중요하다. 초기 예산이 작다면 $\kappa$가 높은 태스크를 우선적으로 RAG화하는 편이 합리적일 수 있다.
| 태스크 | $\kappa$ | 해석 |
|---|---|---|
| ARC Challenge | 0.4778 | 고난도 과학 문제에서 저장소 단위 이득은 보통 수준 |
| ARC Easy | 0.3701 | 검색 친화적이지만 저장소 단위 이득은 완만 |
| CommonsenseQA | 0.5738 | 상식 QA에서 검색이 안정적으로 기여 |
| Natural Questions | 0.4421 | 사실 QA에서 중간 수준의 저장소 효율 |
| OpenBookQA | 2.2450 | 소규모 저장소 투자 대비 큰 이득 |
| SciQ | 0.9830 | 과학 지식 검색이 효율적 |
| StrategyQA | 3.5006 | 단위 저장소 대비 가장 높은 이득 중 하나 |
이 표는 검색 효율을 보다 미시적으로 해석하게 해준다. StrategyQA의 높은 $\kappa$는 특히 주목할 만하다. 이는 다단계 추론이 필요한 문제라도, 적절한 배경 지식이 제공되면 모델이 추론 구조를 비교적 잘 작동시킬 수 있음을 뜻한다. 즉 내부에 없는 지식 때문에 실패하던 문제들이 검색으로 상당 부분 보완될 수 있다는 것이다.
6.3 추가 그래프가 보여주는 일반화 양상
논문은 부가 그림을 통해 몇몇 개별 태스크에서의 개선 양상도 별도로 제시한다. 예컨대 GSM8K와 CommonsenseQA를 함께 본 그림은, 검색의 이득이 수학 추론처럼 정답 도출 구조가 강한 태스크에서는 제한적일 수 있지만, 배경 지식이 필요한 상식 QA에서는 더 크게 나타날 수 있음을 보여준다. 즉 검색은 모든 reasoning을 대체하는 것이 아니라, reasoning을 위한 입력 지식 결핍을 메우는 방향으로 더 잘 작동한다.
또 다른 그림으로 제시된 LAMBADA 계열 분석은 언어적 연속성 예측이나 문맥 완성 성격의 문제에서는 검색이 강한 대안이 아니며, 모델 내부의 언어 분포 학습이 더 중요하다는 점을 재확인한다. 이런 결과는 RAG 도입 여부를 태스크별로 정교하게 구분해야 한다는 논문의 메시지를 강화한다. 즉 사실 회상에 가까운 문제, 설명형 지식 문서가 존재하는 문제, 배경 정보가 답변의 핵심 병목인 문제는 검색에 우호적이지만, 분포적 언어 감각이나 압축된 상식 세계 모델을 요구하는 문제는 여전히 내재화된 파라미터에 더 크게 의존한다.
이 그림은 검색이 reasoning을 직접 수행하는 것이 아니라, reasoning에 필요한 재료를 제공하는 역할을 한다는 사실을 부각한다. 상식 QA에서는 관련 배경 설명이나 사실을 제공하는 것만으로도 정답률 향상이 가능하지만, 수학 문제에서는 검색 문서가 있더라도 실제 계산과 추론 절차는 모델 내부 능력에 더 크게 의존한다. 따라서 검색 저장소를 늘린다고 해서 모든 추론 문제에서 동일한 효율을 기대해서는 안 된다.
실무적으로는 이 차이가 모델 설계 전략을 가른다. 지식 결핍이 병목인 고객지원, 엔터프라이즈 QA, 과학 설명형 질의에서는 RAG가 높은 투자 대비 효과를 줄 수 있다. 반면 정형 추론이나 알고리즘적 문제 해결을 핵심으로 하는 응용에서는 추가 검색보다 학습 데이터 구성, 합성 데이터, 추론 강화 기법이 더 중요할 수 있다.
이 그림은 검색의 한계를 정직하게 보여주는 예시다. 외부 문서를 더 많이 제공해도, 다음 토큰 예측이나 문맥적 연속성 판단과 같은 문제에서는 모델 내부의 분포 학습이 훨씬 중요하다. 이는 검색을 만능 해법으로 보는 시각에 대한 반례이며, 동시에 논문이 왜 태스크별 계수와 효율 지표를 강조하는지를 설명해 준다.
결국 이 추가 분석은 하나의 분명한 원칙으로 요약된다. 장기 메모리로 외부화하기 좋은 지식과 파라미터 내부에 압축되어야 하는 능력은 다르며, RAG-considerate pretraining은 이 둘을 구분해서 자원을 배분해야 한다는 것이다. 논문은 완전한 분류 체계를 제시하지는 않지만, 여러 태스크의 계수 차이를 통해 그 방향성을 제시한다.
6.4 학습 구간별 해석: undertrained, near-optimal, overtrained에서 retrieval의 의미는 어떻게 달라지는가
부록의 $\sigma$와 $\kappa$ 표를 자세히 보면, retrieval의 가치가 태스크에 따라 다를 뿐 아니라 같은 태스크 안에서도 학습 구간별로 크게 달라진다. 저자들은 token-to-parameter ratio를 기준으로 대략 $1\times$, $10\times$, $100\times$ 구간을 비교하는데, 이는 각각 undertrained, near-optimal, overtrained 영역에 대응한다. 이 관점은 매우 실용적이다. 모델이 아직 기본 언어 능력을 충분히 형성하지 못한 구간과, 이미 상당 부분 포화된 구간에서 retrieval이 수행하는 역할은 같을 수 없기 때문이다.
예를 들어 ARC Easy의 $\sigma$는 $1\times$에서 0.38이지만 $10\times$에서는 27.83, $100\times$에서는 64.40까지 올라간다. 이는 초기 학습 구간에서는 retrieval이 사전학습을 거의 대체하지 못하지만, 모델이 기본적인 언어 및 문제 해석 능력을 확보한 뒤에는 retrieval이 훨씬 값비싼 추가 학습을 대신할 수 있음을 뜻한다. SciQ도 같은 경향을 보인다. $1\times$에서는 0.20으로 미미하지만, $10\times$와 $100\times$로 갈수록 11.69와 78.62로 커진다. 즉 과학 QA에서는 모델이 충분히 학습되어 있을수록 검색이 더 효율적인 보조 메모리로 작동한다.
반면 모든 태스크가 이렇게 단조롭게 움직이지는 않는다. StrategyQA의 경우 $\sigma$가 $1\times$에서 7.89로 이미 꽤 높고, $10\times$에서는 오히려 0.95로 떨어졌다가, $100\times$에서 다시 105.40으로 크게 뛴다. OpenBookQA는 $100\times$ 구간에서 음수 값까지 등장한다. 이런 현상은 retrieval이 단순한 보너스 축이 아니라, 모델의 내부 상태와 태스크 구조에 따라 상호작용하는 변수임을 보여준다. 특정 구간에서는 검색된 문서가 유의미한 증거를 제공하지만, 다른 구간에서는 이미 내부화된 지식과 충돌하거나, 컨텍스트 노이즈를 증가시켜 오히려 효율을 해칠 수도 있다는 뜻이다.
이 결과를 시스템 설계 관점에서 읽으면 매우 중요한 원칙이 나온다. retrieval은 undertrained 모델을 대신 훈련해 주지 않는다. 모델이 아직 문제를 읽고 정답 후보를 평가하는 기본 역량을 충분히 확보하지 못한 단계에서는, 외부 문서가 주어져도 그것을 효율적으로 소화하지 못할 수 있다. 따라서 초기 구간에서는 여전히 충분한 사전학습이 필요하다. 그러나 그 임계점을 넘어서면 추가 사전학습의 체감 수익이 줄어들고, 그때부터 retrieval이 훨씬 싼 비용으로 성능을 밀어 올리는 축이 될 수 있다. 논문이 Figure 5 왼쪽에서 제시한 대략 $D/N \approx 4.14$ 부근의 crossover는 바로 이 전환을 상징한다.
| 태스크 | $\sigma@1\times$ | $\sigma@10\times$ | $\sigma@100\times$ | 해석 |
|---|---|---|---|---|
| ARC Challenge | 0.06 | 9.14 | 11.20 | 충분히 학습된 뒤 retrieval 대체효과가 상승 |
| ARC Easy | 0.38 | 27.83 | 64.40 | 기초 지식형 문제에서 retrieval 가치가 급증 |
| CommonsenseQA | 677.93 | 1216.95 | 1951.00 | 상식 QA에서 retrieval이 매우 강한 대체재 |
| OpenBookQA | 0.32 | 6.05 | -10.49 | 고학습 구간에서는 retrieval 노이즈 가능성 |
| SciQ | 0.20 | 11.69 | 78.62 | 과학 QA는 포화 구간에서 retrieval 대체 효과가 커짐 |
| StrategyQA | 7.89 | 0.95 | 105.40 | 구간별 상호작용이 비단조적임 |
이 표는 retrieval을 단일 평균값으로만 읽으면 놓치기 쉬운 사실을 드러낸다. CommonsenseQA처럼 모든 구간에서 매우 높은 대체 효과를 보이는 태스크도 있지만, OpenBookQA처럼 특정 구간에서는 retrieval이 오히려 손해가 될 수 있는 경우도 있다. 이는 인덱스 규모, 질의 형태, 컨텍스트 길이, 문서 품질이 모두 고정된 상태에서 측정된 값이라는 점을 감안하면 더 의미심장하다. retrieval 자체가 나쁜 것이 아니라, 어떤 학습 구간에서 어떤 retrieval 설정이 맞는지가 별도의 최적화 문제라는 뜻이기 때문이다.
6.5 retrieval quality와 query formulation: 저장소 크기만으로는 설명되지 않는 병목
논문이 흥미로운 이유는 저장소 크기 $R$의 효과만 보여주고 끝나지 않는다는 데 있다. 저자들은 같은 저장소를 사용하더라도, 질의를 어떻게 구성하느냐에 따라 retrieval 효과가 달라진다는 점을 별도의 실험으로 확인한다. SimpleQA, CommonsenseQA, GSM8K, LAMBADA에 대한 부가 그림을 보면, query-only 설정보다 answer choices나 gold answer가 포함된 설정에서 더 좋은 문서가 회수되며, 그 결과 downstream 성능도 달라진다. 이는 retrieval scaling law가 실제로는 “저장소 크기” 하나만의 함수가 아니라, 질의-문서 매칭 품질이라는 숨은 변수의 영향을 강하게 받고 있음을 뜻한다.
특히 CommonsenseQA에서 query + choices 또는 query + choices + answer 설정이 유의미한 차이를 보인다는 점은 상식 QA가 단순 검색 태스크가 아니라는 사실을 다시 드러낸다. 모델은 단지 관련 문서를 가져오는 것만으로는 부족하고, 여러 선택지 가운데 어떤 배경 지식이 실제로 구분적인지 식별해야 한다. 선택지를 질의에 포함하면 retriever가 더 판별적인 문서를 찾기 쉬워지므로, retrieval 품질이 곧 태스크 적합도와 연결된다. 반면 GSM8K나 LAMBADA에서는 이런 개선이 제한적이다. 이는 정답 병목이 지식 부족이 아니라 계산 절차나 언어 모델링 능력 자체에 더 가깝다는 논지와 맞아떨어진다.
이 관찰은 실무적으로도 중요하다. 많은 팀이 RAG 도입 시 먼저 더 큰 인덱스나 더 많은 문서를 모으는 데 집중하지만, 실제 성능은 query formulation과 filtering에 더 민감할 수 있다. 즉 retrieval budget을 늘리는 것과 retrieval quality를 높이는 것은 서로 다른 투자 항목이며, 후자가 더 싸고 효과적인 경우도 적지 않다. 본 논문은 그 점을 수치적으로 완전히 분해하지는 않지만, 적어도 현재의 scaling surface가 retrieval quality 병목에 의해 일부 눌려 있을 수 있다는 사실을 명확히 보여준다.
| 태스크 | 비교 조건 | 관찰 요약 | 의미 |
|---|---|---|---|
| SimpleQA | Baseline vs Query vs Query+Gold | query+gold가 가장 높은 상한을 시사 | retriever precision이 성능 병목일 수 있음 |
| CommonsenseQA | Query / Query+Choices / Query+Choices+Answer | 질의 정보가 풍부할수록 retrieval 효과가 커질 여지 | 선택지 구조를 retrieval이 활용할 수 있음 |
| GSM8K | 여러 질의 구성 비교 | 전반적 개선이 제한적 | 지식보다 계산/추론 병목이 큼 |
| LAMBADA | 여러 질의 구성 비교 | retrieval 이득이 작음 | 언어적 연속성 예측은 내재화된 분포가 중요 |
결국 query formulation 실험은 저장소 크기 기반 scaling law를 약화시키는 것이 아니라 오히려 보완한다. 저장소 크기 $R$가 retrieval의 잠재 용량을 나타낸다면, 질의 구성과 retriever 품질은 그 잠재 용량이 실제로 얼마나 활용되는지를 결정하는 사용 효율에 해당한다. 따라서 향후 연구에서는 $R$뿐 아니라 query entropy, reranking strength, evidence precision 같은 요소를 추가 축으로 포함한 더 풍부한 scaling law가 나올 가능성이 크다. 본 논문은 그 전 단계로서 “적어도 retrieval을 고려하지 않은 사전학습 최적화는 이제 충분하지 않다”는 사실을 설득력 있게 보여준다.
6.6 안정성, 외삽성, 그리고 scaling law의 신뢰 구간
스케일링 논문을 읽을 때 중요한 것은 계수값 자체만이 아니라, 그 계수가 얼마나 안정적으로 재현되는가다. 이 논문은 30M, 136M, 233M 세 모델군에서 각 3개 seed를 사용해 총 27개의 적합을 수행하고, CV ARE와 LOMO ARE의 평균 및 표준편차를 보고한다. HellaSwag, ARC 계열, OpenBookQA처럼 비교적 구조가 단순한 태스크는 적합이 안정적이지만, PIQA나 StrategyQA처럼 reasoning-heavy 성격이 강한 태스크는 오차와 분산이 더 크다. 이는 retrieval scaling law가 강력한 서술 도구이긴 하지만, 모든 태스크에서 동일한 정밀도를 보장하는 보편 법칙은 아니라는 점을 정직하게 보여준다.
부록의 LODO 및 $R^2$ 결과도 같은 메시지를 강화한다. CommonsenseQA는 LOMO 7.42, LODO 5.77, $R^2$ 0.57/0.67로 보통 수준의 설명력을 보이는 반면, HellaSwag과 ARC Challenge는 $R^2$가 0.96 안팎으로 매우 높다. 즉 어떤 태스크는 retrieval scaling surface가 매우 매끄럽게 맞고, 어떤 태스크는 데이터 포인트 자체가 더 거칠다. 이 차이는 단순히 실험 노이즈 문제라기보다, 태스크가 요구하는 능력 구조가 더 이산적이거나 thresholded일 수 있음을 시사한다. 다시 말해 retrieval law의 질은 retriever의 질뿐 아니라 태스크의 관측 가능성에도 좌우된다.
이 안정성 분석은 실무 적용 측면에서도 중요하다. 어떤 팀이 이 논문의 계수를 그대로 가져와 투자 계획을 세운다면, ARC나 OpenBookQA형 문제에서는 비교적 신뢰할 수 있지만, PIQA나 StrategyQA형 문제에서는 더 넓은 불확실성 구간을 감안해야 한다. 따라서 retrieval-aware planning은 평균 이득만이 아니라 분산과 외삽 위험까지 함께 봐야 한다. 논문이 안정성 그림을 포함한 이유도 바로 여기에 있다. scaling law는 의사결정 도구이지만, 그 신뢰도 자체도 함께 추정되어야 한다.
| 태스크 | LOMO ARE | LODO ARE | LOMO $R^2$ | LODO $R^2$ |
|---|---|---|---|---|
| CommonsenseQA | 7.42 | 5.77 | 0.5748 | 0.6692 |
| HellaSwag | 2.43 | 2.95 | 0.9847 | 0.9696 |
| SciQ | 12.39 | 10.42 | 0.8230 | 0.8670 |
| OpenBookQA | 5.10 | 4.85 | 0.9262 | 0.9240 |
| ARC Easy | 6.68 | 5.30 | 0.9121 | 0.9383 |
| ARC Challenge | 4.19 | 4.07 | 0.9612 | 0.9569 |
이 보조 지표를 종합하면, 논문은 retrieval scaling을 “모든 태스크에 동일하게 적용되는 절대 법칙”으로 제시하지 않는다. 오히려 어떤 태스크에서 표면이 부드럽고 어떤 태스크에서 거친지를 함께 보고하여, 연구 결과를 어디까지 일반화할 수 있는지의 범위를 스스로 제시한다. 이런 태도는 결과의 신뢰도를 높인다. scaling law가 강한 이유는 간결하기 때문이지만, 그 간결함이 과도한 일반화로 이어지지 않도록 적합 품질을 함께 제시하는 것이 필수적이다.
7. 한계점 및 향후 연구 방향: 단순한 검색 가정 위에 세운 첫 번째 법칙
논문은 자신의 한계를 비교적 명확하게 인정한다. 가장 먼저, 사용한 검색 파이프라인이 단순하고 고정적이다. 단일 retriever, 고정 chunking, 고정 top-k 설정은 분석을 단순화하는 데는 유리하지만, 최신 RAG 시스템의 실제 가능성을 충분히 반영하지 못한다. 만약 더 강한 retriever, 쿼리 재작성, 멀티스테이지 재랭킹, adaptive retrieval budget을 도입한다면, 3차원 법칙의 계수나 심지어 함수 형태 자체가 달라질 가능성이 있다.
둘째, 평가가 주로 PPL 중심 또는 손실 중심 해석에 기대고 있다는 점도 한계다. 최종 사용자 관점의 품질은 정확도, 일관성, 인용 충실도, 환각 감소, 시간 최신성 등 여러 요소로 구성된다. 검색이 손실을 줄인다고 해서 반드시 가장 바람직한 답변 품질로 이어지는 것은 아니다. 특히 RAG의 장점 중 하나가 최신성이나 근거 제시에 있는데, 이런 요소는 단순 손실 계수만으로 충분히 포착되지 않는다.
셋째, 실험된 스케일 범위와 아키텍처, 코퍼스가 제한적이다. OLMo-2 계열과 DCLM 기반 학습은 현재 범위를 검증하는 데는 충분하지만, 훨씬 큰 모델이나 다른 아키텍처 패밀리, 다른 데이터 품질 분포에서는 계수가 달라질 수 있다. 특히 초거대 모델 구간에서는 내부 지식 압축 능력 자체가 질적으로 달라질 수 있으므로, 검색 대체 효과가 소형-중형 모델에서와 동일하게 유지된다고 단정하기 어렵다.
그럼에도 불구하고 이 한계들은 오히려 향후 연구 방향을 분명히 만든다. 저자들은 더 강한 검색 파이프라인을 포함한 확장 실험, 벤치마크의 잠재 구조에 대한 분석, 그리고 purposeful allocation이라는 개념을 제시한다. 즉 어떤 능력은 파라미터 내부에 남겨두고, 어떤 능력은 외부 저장소에 맡길지 목적함수 수준에서 설계해야 한다는 것이다. 특히 long-tail factual knowledge는 검색에 적합하고, 보다 구조적인 추론 능력은 사전학습이나 후속 훈련으로 다듬어야 한다는 방향성이 논문 전반에서 일관되게 제시된다.
논문 자체의 문맥에서 보면, 이 연구는 아직 “완성된 법칙”이라기보다 “첫 번째 작업 모델”에 가깝다. 검색의 질, 문서 최신성, retrieval latency, context budget, generator의 evidence utilization 능력 같은 요소가 본격적으로 포함되면 더 정교한 다차원 법칙이 필요할 것이다. 그럼에도 이 논문은 사전학습과 검색을 따로 최적화하던 관행에서 벗어나, 두 자원을 함께 배분하는 문제를 정면으로 다루기 시작했다.
7.1 더 강한 retrieval pipeline이 들어오면 무엇이 달라질 수 있는가
논문이 일부러 고정한 retrieval 파이프라인은 분석의 명확성을 높여 주지만, 동시에 앞으로 확장될 여지도 크게 남긴다. 현재 설정은 단일 dense retriever, 고정 chunking, top-$k=5$, 별도 reranker 없음이라는 비교적 단순한 구조다. 만약 여기에 질의 재작성, 문서 필터링, reranking, adaptive chunking, multi-vector retrieval, task-aware prompt packing 같은 기법이 추가된다면, 같은 저장소 크기 $R$에서도 실제로 유효한 증거량은 훨씬 커질 수 있다. 그런 경우 본 논문에서 관측한 $\eta$는 더 큰 값으로 이동하거나, 동일한 $\eta$라도 더 작은 저장소 구간에서 이득이 빠르게 나타날 수 있다.
특히 query formulation ablation이 이미 그 가능성을 보여준다. gold answer를 포함한 질의는 현실적 설정은 아니지만, retrieval 품질만 더 좋아져도 현재 관측된 곡선보다 더 높은 성능 상한이 존재할 수 있음을 시사한다. 이는 본 논문의 핵심 메시지를 약화시키지 않는다. 오히려 “retrieval을 고려한 사전학습”이라는 문제를 더 넓은 설계 공간으로 확장한다. 지금 논문이 푼 문제는 고정 retrieval stack 하에서의 최적 배분이고, 다음 단계 연구는 retrieval stack 자체를 설계 변수로 포함한 최적 배분이 될 가능성이 높다.
이런 확장은 산업 현장에서 특히 중요하다. 실제 서비스형 RAG 시스템은 검색기 하나만으로 구성되지 않고, 쿼리 정제기, 권한 필터, 메타데이터 필터, 시간 최신성 제약, citation formatter 등 여러 단계가 결합된다. 따라서 향후에는 단순 token budget만이 아니라 retrieval quality budget이나 latency budget이 함께 들어간 다변수 scaling law가 필요하다. 본 논문은 그 전단계로서, 적어도 retrieval이 사후 접착제가 아니라 모델 설계의 본체 일부가 되어야 함을 보여준다.
7.2 왜 perplexity 중심 분석은 필요하면서도 충분하지 않은가
저자들이 accuracy보다 perplexity를 주 지표로 택한 이유는 설득력이 있다. accuracy는 작은 로그확률 변화가 정답 argmax를 바꾸지 못하는 구간에서는 완전히 평평하게 보이고, 임계점을 넘는 순간만 계단식으로 변한다. 이런 특성은 매끄러운 scaling surface를 적합하기 어렵게 만든다. 반면 perplexity는 정답 continuation의 확률을 연속적으로 반영하므로, 모델 크기나 데이터량, retrieval store 크기에 따른 미세한 변화를 포착하기에 적합하다. 스케일링 연구가 연속 함수 적합을 기반으로 한다는 점에서 이는 매우 타당한 선택이다.
하지만 retrieval 시스템의 실제 품질은 perplexity 하나로 닫히지 않는다. RAG의 강점은 단순히 정답 확률을 조금 높이는 데만 있지 않다. 근거 제시 가능성, 최신 정보 반영, 잘못된 내부 기억의 교정, 사용자 신뢰 확보, 도메인별 지식 업데이트 용이성 같은 요소도 본질적 가치에 포함된다. 예를 들어 두 시스템의 perplexity가 비슷하더라도, 하나가 더 정확한 출처 문서를 안정적으로 제공한다면 실제 제품 관점에서는 훨씬 가치가 클 수 있다. 따라서 본 논문의 계수는 retrieval의 전부가 아니라, 연속적 성능 신호 위에서 본 retrieval의 한 단면으로 이해해야 한다.
이 점은 후속 연구 과제를 분명히 만든다. 앞으로는 정답 perplexity 외에도 citation faithfulness, evidence coverage, freshness sensitivity, hallucination reduction, calibration 개선 폭 같은 지표들을 함께 보면서, retrieval-aware scaling law가 여러 평가 함수에서 어떻게 달라지는지 살펴볼 필요가 있다. 즉 본 논문은 가장 다루기 쉬운 연속 척도 위에서 첫 번째 법칙을 세웠고, 이후 연구는 이를 사용자 가치에 더 가까운 다중 지표 체계로 넓혀야 한다.
7.3 아키텍처와 데이터 품질이 바뀌면 최적 배분점도 이동할 가능성
논문의 실험은 OLMo-2 계열과 DCLM이라는 비교적 일관된 조합 위에서 수행되었다. 이는 계수 추정의 해석 가능성을 높이는 대신, 다른 아키텍처와 데이터 분포에서의 일반화 범위는 열어 둔다. 예컨대 더 강한 tokenizer, 더 긴 context length, 더 효율적인 attention, 더 높은 품질의 사전학습 데이터, 혹은 domain-specialized corpus를 사용할 경우, 동일한 태스크라도 $\alpha$와 $\beta$의 상대적 크기가 달라질 수 있다. 그렇게 되면 retrieval이 대체하는 역할의 크기 또한 함께 변할 것이다.
특히 데이터 품질은 retrieval과 parametric pretraining의 경쟁 관계를 재정의할 수 있다. 만약 사전학습 데이터가 훨씬 더 잘 정제되어 있고 목표 태스크에 더 밀접하다면, retrieval이 맡아야 할 외부 지식의 양은 줄어들 수 있다. 반대로 코퍼스가 광범위하지만 장기 꼬리 사실이 많고 최신성이 중요하다면, retrieval 쪽 배분이 더 유리해질 수 있다. 이는 본 논문의 결과가 단순히 “몇 퍼센트를 retrieval에 써라”는 처방을 주는 것이 아니라, 어떤 데이터 환경에서 어떤 trade-off를 다시 계산해야 하는가를 알려 준다고 이해하는 편이 정확하다.
또 하나의 변수는 context utilization 능력이다. 어떤 generator는 검색된 문서를 잘 읽고 선택적으로 활용하지만, 어떤 모델은 문서가 길어질수록 오히려 분산되고 핵심 증거를 놓친다. 이 차이는 retrieval store를 크게 만들었을 때 실제 이득이 얼마나 surface에 반영되는지를 좌우한다. 따라서 retrieval-aware scaling law는 엄밀히 말해 retriever와 generator의 결합 능력에 대한 법칙이기도 하다. 본 논문은 이 결합을 고정했기 때문에 비교가 가능했지만, 바로 그 이유로 후속 연구에서 더 큰 설계 공간이 남는다.
| 확장 축 | 현재 논문의 상태 | 향후 영향 |
|---|---|---|
| Retrieval quality | 고정 retriever + 고정 query 구성 | 같은 $R$에서도 더 높은 유효 검색 성능 가능 |
| Generator 활용 능력 | OLMo-2 고정 | evidence integration이 강하면 retrieval 이득 확대 가능 |
| Data quality | DCLM 기반 | 고품질 사전학습일수록 retrieval 필요량이 달라질 수 있음 |
| Metric choice | PPL 중심 | faithfulness·freshness 포함 시 최적 배분점 이동 가능 |
| Serving cost | 직접 모델링하지 않음 | latency와 메모리 비용을 함께 넣은 deployment-aware law 필요 |
이 표가 보여주듯, 본 논문은 최종 해답이라기보다 훨씬 큰 설계 공간의 첫 좌표계다. 하지만 좌표계의 가치는 크다. 이제 이후 연구는 retrieval을 넣을지 말지 논쟁하는 대신, 어떤 retrieval 품질, 어떤 데이터 품질, 어떤 latency 제약에서 최적 배분점이 어디로 이동하는지를 더 정교하게 측정할 수 있게 된다. 이 점에서 본 논문은 단순 결과 논문이 아니라 문제 정의 논문으로도 읽힌다.
7.4 이 논문이 제안하는 실전형 의사결정 프레임
논문을 실전 설계 언어로 번역하면, 결국 세 가지 질문으로 요약된다. 첫째, 현재 태스크의 병목이 지식 접근인가, 아니면 내부 추론 능력인가. 둘째, 현재 모델이 undertrained 상태인지, 이미 near-optimal 또는 overtrained 구간인지. 셋째, retrieval stack의 품질이 충분히 높아 실제로 관련 증거를 안정적으로 회수할 수 있는지다. 본 논문은 이 세 질문을 모두 명시적으로 표로 정리하지는 않지만, $\eta$, $\sigma$, $\kappa$, 그리고 query ablation 결과를 조합하면 꽤 명확한 판단 프레임을 얻게 된다.
예를 들어 사실 회상형 QA나 과학 설명형 QA처럼 외부 문서에 정답 근거가 존재할 확률이 높은 태스크에서는, 모델이 기본적인 언어 능력을 갖춘 뒤에는 retrieval 확장이 사전학습 추가 투입보다 더 싸게 먹힐 가능성이 높다. 이 경우 $\eta$가 높고, $\sigma$와 $\kappa$가 모두 유의미하게 나온다. 반면 LAMBADA나 GSM8K처럼 언어적 연속성 예측이나 계산 절차 수행이 핵심 병목인 문제에서는 retrieval 품질을 높여도 한계가 분명하다. 이 경우 더 긴 사전학습, 더 나은 데이터 구성, 혹은 별도의 reasoning 강화 전략이 더 중요해진다.
또한 같은 태스크라도 단계별 전략이 달라질 수 있다. 본 논문이 보여준 것처럼 undertrained 구간에서는 retrieval이 큰 힘을 발휘하지 못할 수 있으므로, 초기에는 모델 자체를 충분히 학습시키는 것이 우선이다. 이후 near-optimal 구간에 들어서면 추가 사전학습의 체감 수익이 줄어들고, 그때부터 retrieval budget을 늘리는 편이 더 효율적일 수 있다. 다시 말해 이 논문은 “처음부터 RAG를 붙여라” 또는 “끝까지 pretraining만 해라”가 아니라, 학습 단계에 따라 예산의 초점을 이동시키라는 메시지로 읽는 편이 적절하다.
| 상황 | 우선 투자 대상 | 근거 |
|---|---|---|
| Undertrained + reasoning-heavy | 사전학습·데이터 품질 | retrieval이 기본 추론 능력을 대신하지 못함 |
| Near-optimal + knowledge-heavy | retrieval store 확장 | 추가 사전학습보다 retrieval의 한계효용이 커질 수 있음 |
| High $\eta$, high $\sigma$ | RAG 적극 도입 | 검색이 비용 효율적 대체재로 작동 |
| Low $\eta$, low $\kappa$ | 모델 역량 강화 우선 | retrieval 이득이 작거나 불안정 |
| Same $R$, weak gains | query/retriever 개선 | 질의 구성 ablation이 retrieval quality 병목을 시사 |
이런 식의 해석 프레임은 논문의 원래 범위를 넘어선 처방이 아니라, 저자들이 제시한 계수와 그림을 시스템 설계 언어로 바꾼 것이다. 즉 이 논문은 특정 태스크에서 무조건 retrieval 비중을 몇 퍼센트로 하라는 답을 주지 않지만, 적어도 어떤 신호를 보고 어느 방향으로 움직여야 하는지를 제안한다. 이 점에서 연구의 실용성이 높다. 단순히 성능 숫자를 보고 “RAG가 좋다/나쁘다”를 말하는 대신, 현재 모델이 어디에 있고 무엇이 병목인지에 따라 예산을 다르게 써야 한다는 결론을 정량적 근거와 함께 제공하기 때문이다.
또한 논문은 RAG를 단일 제품 기능이 아니라 학습 전략의 일부로 재해석하게 만든다. 전통적으로는 모델을 최대한 강하게 사전학습한 뒤, 그 위에 retrieval을 붙이는 방식이 일반적이었다. 그러나 이 논문은 애초에 retrieval이 있을 것을 전제로 한다면, 사전학습 목표 자체도 달라져야 할 수 있다고 말한다. 즉 어떤 지식은 굳이 비싼 파라미터 공간에 압축하지 않고, 외부 저장소에 남겨 두는 편이 더 합리적일 수 있다. 이 발상은 장기적으로는 코퍼스 설계, 데이터 필터링, 후속 지식 업데이트 전략까지 모두 바꿀 수 있는 관점이다.
이때 중요한 것은 retrieval을 단순한 비용 절감 장치로만 보지 않는 것이다. retrieval은 모델이 갖지 못한 사실을 공급하는 동시에, 파라미터 내부 기억의 오류를 교정하고, 최신성을 보완하고, 특정 도메인에 빠르게 적응할 수 있게 한다. 따라서 pretraining과 retrieval의 배분 문제는 단순히 손실 최소화뿐 아니라 시스템 유지비, 업데이트 빈도, 운영 리스크까지 함께 고려하는 총체적 설계 문제로 이어진다. 본 논문은 그 모든 요소를 직접 계산하지는 않지만, 적어도 그 논의를 시작할 수 있는 정량 축을 제공한다는 점에서 가치가 있다.
마지막으로, 이 논문은 RAG 연구와 scaling law 연구를 같은 프레임 안에 넣었다는 점에서도 의미가 크다. 전자는 대개 retrieval 품질 향상과 grounding에 집중했고, 후자는 모델 크기와 데이터량의 멱법칙에 집중해 왔다. 그런데 실제 LLM 시스템은 이 둘이 분리되어 존재하지 않는다. 더 큰 모델일수록 retrieval이 덜 필요할 수도 있고, 더 좋은 retrieval이 있을수록 굳이 모든 지식을 외울 필요가 없을 수도 있다. 본 논문은 바로 그 접점을 수치적으로 다룬 첫 사례 중 하나이며, 이후의 연구와 시스템 설계가 이 접점을 중심으로 재정렬될 가능성을 보여준다.
8. 결론: RAG 시대의 사전학습은 무엇을 목표로 해야 하는가
이 논문은 언어 모델 개발의 핵심 질문을 다시 묻는다. 우리는 더 많은 지식을 모델 안에 집어넣기 위해 끝없이 사전학습을 늘려야 하는가, 아니면 외부 검색 저장소를 적극적으로 활용하는 방향으로 학습 목표 자체를 바꿔야 하는가. 저자들의 답은 이분법적이지 않다. 모든 것을 검색에 맡기자는 것도 아니고, 모든 것을 파라미터에 외우게 하자는 것도 아니다. 대신 태스크별 구조와 비용 구조를 기준으로, 메모리와 검색 사이의 최적 분업을 찾아야 한다는 것이다.
논문이 제시한 2차원 및 3차원 스케일링 법칙은 이 질문을 수량화할 수 있는 초석을 제공한다. 특히 $\eta$, $\sigma$, $\kappa$ 같은 지표는 검색 친화성, 학습 대체 비용, 저장소 효율을 각각 분리해 보게 함으로써, RAG 도입 논의를 막연한 경험칙에서 계량적 의사결정으로 끌고 간다. 이는 학술적으로도 의미가 있지만, 실제 제품 환경에서 더 크다. 왜냐하면 산업 현장에서는 정확히 이런 질문, 즉 GPU 예산을 더 쓸지 인덱싱 예산을 더 쓸지, 더 긴 사전학습을 할지 더 나은 검색 저장소를 만들지를 매일 결정해야 하기 때문이다.
결과적으로 이 논문은 검색을 단순 추론 보조 도구가 아니라 사전학습 설계 변수로 끌어올린다. 그리고 그 메시지는 매우 현대적이다. 언어 모델은 더 이상 닫힌 매개변수 집합만으로 작동하지 않으며, 외부 메모리와 상호작용하는 시스템 전체로 이해되어야 한다. 이런 관점에서 보면, RAG-considerate pretraining은 단지 새로운 훈련 요령이 아니라, LLM 시스템을 바라보는 기본 시각의 변화라고 볼 수 있다.
특히 중요한 점은, 이 논문이 retrieval을 pretraining의 적대자로 두지 않는다는 것이다. 저자들의 메시지는 “외우지 말고 다 검색하라”가 아니다. 오히려 더 정교하다. 사전학습은 여전히 언어적 일반화, 추론 구조, 문제 해석, 문맥 통합 능력을 형성하는 핵심 과정이고, retrieval은 그런 능력이 이미 형성된 뒤 외부 지식을 적시에 공급하는 역할을 맡는다. 따라서 두 메커니즘은 대체 관계이면서도 상보 관계이며, 어느 한쪽만으로 시스템 전체를 설명할 수 없다. 본 논문이 의미 있는 이유는 바로 이 미묘한 관계를 계량적 함수와 지표로 표현했다는 데 있다.
물론 더 강한 검색기, 더 큰 모델, 더 다양한 데이터에서 이 법칙들이 얼마나 유지되는지는 추가 검증이 필요하다. 하지만 논문이 던진 질문은 이미 충분히 중요하다. 향후 모델 개발은 “얼마나 많이 학습시킬 것인가”만이 아니라 “무엇을 외우고 무엇을 검색할 것인가”를 함께 묻는 방향으로 이동할 가능성이 높다. 이 논문은 바로 그 전환의 초기 좌표를 제공하는 작업으로 읽을 수 있다.
정리하면, 본 논문은 사전학습과 retrieval을 서로 다른 팀이 따로 최적화하는 시대에서, 둘을 하나의 공동 설계 문제로 보는 시대로 넘어가야 한다는 신호를 준다. 모델 크기와 토큰 수만으로 모든 것을 설명하던 기존 스케일링 언어에 retrieval store라는 축이 추가되면서, LLM 시스템은 더 이상 단일 모델의 성능 곡선이 아니라 모델-메모리 결합체의 성능 곡선으로 이해되기 시작한다. 바로 그 점에서 이 논문은 단순히 RAG를 잘 썼다는 사례가 아니라, 향후 검색형 에이전트, 지식 집약형 업무 자동화, 도메인 특화 LLM 운영 전반에 공통으로 적용될 질문을 먼저 던진 연구라고 평가할 수 있다.
논문이 남긴 가장 큰 유산은 아마도 숫자 그 자체보다 질문의 형식일 것이다. 이제부터는 모델을 더 크게 만들 수 있는가만 묻는 대신, 어떤 지식을 파라미터에 두고 어떤 지식을 외부 메모리로 둘 것인지, 그리고 그 경계가 모델 크기와 데이터 품질, retrieval 품질에 따라 어떻게 이동하는지를 함께 물어야 한다. 이 관점은 RAG 연구를 더 실용적으로 만들고, 동시에 스케일링 연구를 더 현실적인 시스템 수준으로 끌어올린다. 그런 의미에서 이 논문은 특정 계수표를 넘어, 앞으로의 LLM 설계 언어를 바꾸는 출발점에 더 가깝다.
같은 맥락에서 보면, 본 논문은 단순히 RAG 친화적인 태스크를 찾는 연구가 아니라 지식의 저장 위치를 최적화하는 연구다. 파라미터는 비싸지만 강력한 압축 메모리이고, retrieval store는 유연하지만 품질과 지연 시간의 제약을 받는 외부 메모리다. 저자들은 이 두 자원을 처음으로 같은 좌표계에 올려놓고 비교했다. 그 덕분에 이후 연구와 실무는 “더 학습할까, 더 찾아보게 할까”라는 질문을 감으로가 아니라 점점 더 정량적으로 다룰 수 있게 된다.
따라서 이 논문을 읽는 가장 좋은 방식은 RAG 성능표 하나를 보는 것이 아니라, 모델 설계의 목적함수 자체가 바뀌고 있다는 신호로 받아들이는 것이다. 앞으로의 LLM 개발은 더 이상 파라미터 수와 데이터 수만 늘리는 단선적 경쟁이 아니라, 어떤 지식을 어디에 저장할지까지 포함하는 시스템 최적화 경쟁으로 이동할 가능성이 높다.
그리고 바로 그 변화의 중심에서, 이 논문은 retrieval을 부수 기능이 아니라 학습 전략의 기본 축으로 승격시킨다. 이 점만으로도 본 연구는 이후의 RAG, agent memory, enterprise knowledge system 설계 논의에 긴 그림자를 남길 가능성이 크다. 동시에 retrieval이 모든 문제의 해법이 아니라는 점도 함께 보여 주며, 바로 그 균형 잡힌 시선이 이 논문의 지속적인 가치를 만든다. 그런 점에서 이 논문은 단기 성능 개선보다 장기 설계 원리를 제안하는 연구에 더 가깝다. 검색과 사전학습의 관계를 하나의 수량화 가능한 질문으로 바꿨다는 사실 자체가 이미 큰 기여다. 이후 연구의 출발선이 될 만한 작업이다. 이 의미는 작지 않다. 실제로 매우 크다. 후속 연구의 방향을 정리해 주는 기준점 역할도 한다. 앞으로도 참고될 가능성이 높다. 장기적으로도 그렇다. 다양한 후속 실험을 촉발할 조건을 갖췄다. 연구사적으로도 중요하다. 활용 범위도 넓다. 영향력도 크다고 볼 수 있다.
9. 요약 정리
- 핵심 문제의식: 이 논문은 언어 모델이 모든 지식을 내부 파라미터에 저장할 필요가 있는지, 아니면 추론 시 검색을 전제로 사전학습 전략을 바꿔야 하는지를 묻는다.
- 베이스라인 법칙: 검색 없는 조건에서 손실을 $L(N,D)=A(N/10^9)^{-\alpha}+B(D/10^9)^{-\beta}+L_0$로 모델링하며, 태스크별로 모델 크기와 데이터량 민감도가 크게 다름을 보인다.
- 검색 확장 법칙: 검색 저장소 크기 $R$를 포함한 $L(N,D,R)=A(N/10^9)^{-\alpha}+B(D/10^9)^{-\beta}-C\log(1+\eta R/10^9)+L_0$를 제안하여 검색의 로그형 수확 체감을 설명한다.
- 실험 스케일: OLMo-2 30M에서 3B까지의 모델, DCLM 기반 100B 토큰, 파라미터 대비 1배에서 150배의 학습 토큰, 그리고 1배에서 20배의 검색 저장소 스윕을 통해 결과를 얻는다.
- 태스크별 차이: PIQA와 HellaSwag처럼 검색 효과가 거의 없는 태스크가 있는 반면, StrategyQA, ARC 계열, Natural Questions, SimpleQA처럼 검색 친화성이 매우 높은 태스크도 존재한다.
- replacement cost $\sigma$: 검색 저장소가 추가 학습 토큰을 얼마나 대체하는지 보여주며, CommonsenseQA와 StrategyQA에서 특히 높은 값이 관찰된다.
- retrieval efficiency $\kappa$: 저장소 단위당 손실 감소량을 나타내며, StrategyQA와 OpenBookQA가 특히 효율적인 검색 이득을 보인다.
- 실무적 함의: 모든 태스크에 무작정 더 많은 사전학습을 투입하기보다, 검색 친화적인 문제에서는 인덱스 확장과 RAG 도입이 더 비용 효율적일 수 있다.
- 한계: 검색 파이프라인이 단순하고 고정되어 있으며, 평가가 주로 손실 중심이고, 모델·아키텍처·코퍼스 스케일의 다양성이 제한적이라는 점이 남는다.
- 종합 평가: 본 논문은 RAG를 사후 부착 모듈이 아니라 사전학습 설계의 일부로 다뤄야 한다는 관점을 계량적으로 제시한 초기 스케일링 연구로서 높은 의미를 가진다.