No Single Best Model for Diversity: Learning a Router for Sample Diversity
https://arxiv.org/abs/2604.02319
Yuhan Liu, Fangyuan Xu, Vishakh Padmakumar, Daphne Ippolito, Eunsol Choi | New York University, Stanford University, Carnegie Mellon University | arXiv:2604.02319 | 2026년 4월 | under review at COLM 2026
오픈엔디드 질문에 대한 언어모델 응답을 평가할 때, 대개는 가장 그럴듯한 단일 답 하나를 얼마나 잘 생성하는가에 초점이 맞춰진다. 그러나 실제 서비스에서 사용자는 종종 하나의 정답보다 서로 다른 여러 대안을 원한다. 여행 추천, 창의적 글쓰기 아이디어, 제품 기획 방향, 연구 질문 브레인스토밍, 정책 선택지 비교처럼 답의 공간이 넓은 문제에서는 하나의 가장 자연스러운 문장보다 질 좋은 대안을 얼마나 폭넓게 회수할 수 있는가가 더 중요해진다. 이 논문은 바로 그 지점에서 출발한다. 어떤 프롬프트에는 A 모델이 가장 폭넓은 답을 생성하고, 다른 프롬프트에는 B 모델이 더 낫다면, 단일 최고 모델만 고집하는 전략은 필연적으로 많은 다양성을 버리게 된다.
논문이 제기하는 문제는 단순한 모델 앙상블 문제가 아니다. 여기서 핵심은 평균 점수가 높은 모델을 하나 고르는 것이 아니라, 질문별로 가장 다양한 고품질 답 집합을 낼 수 있는 모델이 계속 바뀐다는 관찰이다. 예를 들어 어떤 질의는 작은 모델이 더 엉뚱하지만 폭넓은 후보를 잘 뽑아내고, 다른 질의는 더 큰 모델이 깊이 있는 답을 안정적으로 여러 개 내놓는다. 즉, 오픈엔디드 생성에서는 모델 크기나 계열만으로 우열을 고정하기 어렵고, 질의의 성격과 프롬프트 방식에 따라 최적 선택이 달라질 수 있다.
이를 정량화하기 위해 저자들은 diversity coverage라는 평가 지표를 제안한다. 이 지표는 단순히 중복 없는 답 개수만 세지 않는다. 먼저 생성된 답들 가운데 의미적으로 같은 답을 묶어 고유한 답 집합을 만든 뒤, 각 답의 품질 점수를 합산하고, 같은 예산에서 이론적으로 가능한 최선의 집합으로 정규화한다. 따라서 답이 많아도 서로 비슷하면 점수가 낮고, 드물고 창의적이더라도 품질이 낮으면 역시 큰 점수를 받지 못한다. 결과적으로 이 지표는 다양성과 품질의 결합 성능을 하나의 수치로 다룬다.
논문의 구조는 명확하다. 먼저 18개의 공개 LLM을 대상으로 오픈엔디드 질문에서 diversity coverage를 측정해, 항상 최고인 단일 모델이 존재하지 않는다는 사실을 보여준다. 이어 질의별로 최적 모델을 선택하는 오라클 상한을 측정해, 모델 선택만 잘해도 성능이 크게 오를 수 있음을 정리한다. 마지막으로 질의 임베딩과 모델 특화 은닉표현을 입력으로 받아, 어떤 모델이 해당 질의에서 가장 높은 diversity coverage를 낼지를 예측하는 router를 학습한다. 이 접근은 파라미터를 섞거나 출력 후처리를 복잡하게 만드는 대신, 생성 전에 어떤 모델에게 질의를 보낼지 결정하는 경량 전략이라는 점이 특징이다.
흥미로운 점은 이 논문이 diversity를 모델 내부의 샘플링 온도 조정 문제로만 보지 않는다는 데 있다. 기존에는 temperature, top-p, self-consistency, verbalized sampling 같은 프롬프팅/디코딩 기법을 바꾸면 더 다양한 답을 뽑아낼 수 있다고 생각하는 경향이 강했다. 반면 이 논문은 다양성 자체가 모델 선택 문제일 수 있다고 주장한다. 같은 디코딩 설정에서도 특정 질의는 Llama 계열이, 다른 질의는 Qwen 계열이나 OLMo 계열이 더 좋은 고유 답 집합을 생성한다면, diversity를 높이기 위한 첫 단계는 "같은 모델에서 더 많이 샘플링"이 아니라 "어느 모델을 부를지"가 될 수 있다는 것이다.
블로그 독자 입장에서 이 논문이 중요한 이유는 두 가지다. 첫째, 현재 많은 제품이 여러 모델을 보유한 채 비용과 품질을 기준으로만 라우팅을 설계하는데, 이 논문은 다양성 극대화라는 새로운 라우팅 목적을 제시한다. 둘째, 검색·추천·브레인스토밍·에이전트 플래닝처럼 정답이 하나로 닫히지 않는 응용에서는, 가장 똑똑해 보이는 한 모델을 고정 호출하는 전략이 사용자 만족을 오히려 제한할 수 있다는 점을 실험으로 보여준다. 아래에서는 논문이 diversity coverage를 어떻게 정의하는지, 어떤 데이터셋과 평가 절차를 썼는지, 그리고 router가 실제로 어느 정도 이득을 주는지 순서대로 정리한다.
1. 서론: 단일 최고 모델 가정이 무너지는 오픈엔디드 생성 환경
언어모델 연구에서 성능 비교는 대체로 하나의 대표 응답을 기준으로 진행된다. 예를 들어 벤치마크 질문이 주어졌을 때 첫 번째 응답이 얼마나 정확한지, 혹은 상위 하나의 답이 사람 평가에서 얼마나 선호되는지 같은 식이다. 이러한 관점은 닫힌 정답 집합이 있는 문제에서는 자연스럽다. 하지만 아이디어 생성, 설명 방식 제안, 대안 설계, 추천 목록 생성과 같은 오픈엔디드 태스크에서는 사용자가 원하는 것이 하나의 최적 답이라기보다 서로 다른 가능성의 폭일 때가 많다. 이 경우 평가 대상은 한 문장이 아니라 답 집합 전체가 되어야 하며, 그 집합이 얼마나 넓고도 유용한지를 함께 봐야 한다.
기존에 다양성을 논할 때 흔히 쓰이는 방식은 중복 없는 답의 개수를 세거나, 임베딩 거리 기반으로 출력 간 차이를 측정하는 것이다. 하지만 이런 접근은 두 가지 한계를 가진다. 첫째, 답이 서로 다르기만 해도 품질이 낮다면 실제로는 쓸모 없는 다양성이 될 수 있다. 둘째, 개수나 거리만으로는 사용자가 받을 가치가 충분히 반영되지 않는다. 예컨대 10개의 답을 생성했더라도 대부분 피상적이고 품질이 비슷하면, 4개의 답이더라도 서로 다른 관점에서 깊이 있게 정리된 집합보다 덜 유용할 수 있다. 논문은 이러한 한계를 지적하며, 다양성을 품질과 분리해서 볼 수 없다고 본다.
논문이 제안하는 핵심 통찰은 모델 간 다양성의 구조가 질의별로 다르다는 점이다. 평균적으로 강한 모델이 있더라도, 개별 질의로 내려가면 가장 좋은 diversity coverage를 내는 모델은 계속 바뀐다. 이는 대형 모델이 무조건 더 다양한 답을 생성한다는 단순한 기대와도 다르다. 오히려 일부 데이터셋에서는 비교적 작은 모델이 더 많은 unique answer를 제공하고, 더 큰 모델은 품질은 높지만 answer space를 덜 넓게 탐색하는 경향도 나타난다. 다시 말해 오픈엔디드 생성에서는 "가장 큰 모델"과 "가장 다양한 모델"이 항상 같은 대상이 아니다.
이때 가장 먼저 생각할 수 있는 대안은 여러 모델을 모두 호출해 답을 합치는 것이다. 그러나 논문은 이 접근이 현실적으로 비싸며, 어떤 모델 조합이 가장 좋은지도 다시 질의별로 달라진다고 본다. 모든 질의에 대해 18개 모델을 전부 호출한 뒤 가장 좋은 집합을 고르는 오라클은 상한선으로는 의미가 있지만, 실제 서비스 레벨에서는 지연시간과 비용이 과도하다. 따라서 더 현실적인 목표는 질문을 읽고 미리 가장 유망한 모델을 예측하는 것이다. 논문에서 router는 바로 이 문제를 푸는 분류기로 설계된다.
여기서 주목할 부분은 router의 목표가 전통적인 품질 라우터와 다르다는 점이다. 기존 라우터는 어떤 모델이 정답률이 높을지, 혹은 어떤 모델이 더 저렴하게 답할지를 예측하는 경우가 많았다. 이 논문은 반대로, 질의와 생성 예산이 주어졌을 때 어떤 모델이 가장 넓고 질 좋은 답 집합을 제공할 것인가를 예측한다. 따라서 라우터가 맞혀야 하는 정답은 단일 정답 여부가 아니라, diversity coverage 기준에서 오라클 1위를 차지하는 모델의 인덱스다. 이는 문제 정의 자체를 품질 중심 분류에서 다양성 중심 라우팅으로 확장한 것에 가깝다.
이 문제정의는 제품 관점에서도 현실적이다. 여러 LLM API를 보유한 서비스가 브레인스토밍·추천·상담 보조·검색 결과 확장 기능을 제공할 때, 항상 같은 최고급 모델을 호출하는 방식은 비용이 높고 응답 스타일도 단조로울 수 있다. 반면 질의의 유형을 보고 더 다양한 후보를 잘 내는 모델을 선택하면, 사용자는 더 넓은 답공간을 탐색할 수 있다. 논문은 바로 이 전략이 실제로 측정 가능한 이득을 주는지 검증한다.
Figure 1: 데이터셋별로 최적 diversity 모델이 계속 바뀌며, NB-WildChat에서는 보편적 단일 최고 모델이 존재하지 않음을 보여주는 시각화
Figure 1은 논문의 동기를 가장 압축적으로 전달한다. 왼쪽은 데이터셋마다 모델별 diversity coverage 분포가 다르다는 점을 보여주고, 오른쪽은 NB-WildChat에서 특정 한 모델이 일관되게 최고 자리를 독점하지 못한다는 사실을 정리한다. 즉 평균 성능만 보고 단일 모델을 고정하면, 질의별로 더 좋은 diversity 해법을 반복적으로 놓치게 된다. 저자들은 이 그림을 통해 "best overall model"과 "best model for this query"를 분리해야 한다는 문제의식을 명확히 제시한다.
2. 배경 및 관련 연구: 다양성 평가와 모델 선택을 함께 다루는 시도
2.1 다양성 측정의 기존 한계와 quality-aware coverage의 필요성
오픈엔디드 생성의 다양성을 평가하는 기존 방법은 크게 두 축으로 나뉜다. 하나는 고유 답 개수를 세는 방식이고, 다른 하나는 임베딩 기반 거리나 self-BLEU처럼 출력 간 차이를 보는 방식이다. 첫 번째 방식은 직관적이지만, 질 낮은 답을 마구 생성해도 고유 개수만 많으면 점수가 올라갈 수 있다는 문제가 있다. 두 번째 방식은 중복 여부를 더 유연하게 다루지만, 의미적으로는 다른데 실제 가치는 낮은 답이나, 품질이 높지만 표현만 다른 답을 제대로 구분하지 못할 수 있다. 결국 다양성은 단순한 차이의 양이 아니라 유효한 대안의 폭으로 정의되어야 한다는 것이 논문의 출발점이다.
저자들이 제안한 diversity coverage는 이러한 요구를 반영해 세 요소를 결합한다. 첫째, 의미적으로 같은 답을 합치는 equivalence 판단이 필요하다. 둘째, 남은 각 답에 대해 사용자가 받아들일 만한 수준의 품질을 점수화해야 한다. 셋째, 주어진 생성 예산 안에서 얻을 수 있는 최선의 고유 답 집합과 비교해 정규화해야 한다. 이 설계는 단순 count나 거리 기반 diversity보다 계산 비용은 크지만, 오픈엔디드 태스크에서 실제로 중요한 것을 더 직접적으로 포착한다.
특히 품질 정규화가 들어간다는 점이 중요하다. 같은 예산에서 어떤 모델이 50개의 답을 생성했더라도 대부분 평균 품질 2점 수준이라면, 20개의 답을 생성했지만 품질 7점 이상의 고유 답으로 채운 모델보다 가치가 낮을 수 있다. diversity coverage는 이 차이를 반영하기 때문에, 답변 수만 늘리는 프롬프트나 과도한 랜덤성을 유리하게 보지 않는다. 논문은 바로 이런 지표가 있어야 질의별 모델 선택 문제를 의미 있게 정의할 수 있다고 본다.
이 지표는 서비스 설계와도 연결된다. 사용자는 추천, 기획, 브레인스토밍 시스템에서 단지 다양한 문장을 원하는 것이 아니라, 서로 다른 방향의 쓸 만한 대안을 원한다. diversity coverage는 이 요구를 수치화하려는 시도이며, 이후 실험에서 router가 실제로 끌어올리는 목표 역시 바로 이 값이다.
2.2 질의별 모델 선택과 routing 문제의 재정의
모델 선택 자체는 새로운 문제가 아니다. 비용 절감 라우팅, 도메인 분기, fallback 체인, confidence-based escalation 같은 방식은 이미 널리 쓰인다. 하지만 논문이 겨냥하는 라우팅은 다르다. 여기서 router는 낮은 비용 모델을 먼저 써 보다가 실패하면 큰 모델로 넘기는 장치가 아니라, 생성 시작 전에 어떤 모델이 이 질의에서 가장 좋은 다양성 집합을 낼지를 예측하는 분류기다. 즉, 출력 정확도 대신 answer set coverage를 최대화하는 사전 선택 문제로 재정의된다.
이 재정의는 다중 모델 운영 환경에서 특히 의미가 있다. 서로 다른 계열의 LLM은 학습 데이터, 스타일, 샘플링 반응, 장문 생성 습관, 답의 보수성에서 차이가 있다. 어떤 모델은 안전하고 정돈된 응답을 잘 내고, 어떤 모델은 더 많은 unique answer를 생성하며, 또 다른 모델은 특정 분야에서 폭넓은 예시를 제시할 수 있다. 따라서 open-ended 질의에서는 단일 지표의 우열보다 질의별 상성이 중요해질 수 있다.
논문은 이 상성을 오라클 상한으로 먼저 보여준다. 만약 질의마다 실제 최고 diversity coverage를 내는 모델을 미리 안다면, 단일 최고 모델보다 훨씬 높은 성능이 나온다. 이 관찰이 없다면 router 자체는 불필요했을 것이다. 따라서 논문은 먼저 "정말 질의별 선택의 여지가 있는가"를 보이고, 그다음 "그 여지를 학습 가능한 형태로 근사할 수 있는가"를 검증하는 순서로 구조를 설계한다.
2.3 데이터셋과 평가 파이프라인의 설계 의도
논문은 세 가지 수준의 answer space를 함께 사용한다. Simple Questions는 비교적 닫힌 답공간을 갖는 데이터셋이고, NB-Curated와 NB-WildChat은 오픈엔디드 생성에 더 가깝다. 이 배치는 의미가 분명하다. 닫힌 답공간에서는 거의 모든 모델이 비슷한 답 집합을 내놓기 때문에 질의별 모델 선택의 이득이 크지 않을 수 있다. 반면 오픈엔디드 답공간에서는 모델별 표현 방식과 탐색 습관이 크게 달라지고, diversity coverage 차이도 더 크게 벌어진다.
또 하나의 중요한 점은 이 논문이 완전히 새로운 대규모 human study를 메인 실험으로 수행한 것이 아니라, 기존 NoveltyBench 계열의 human-supervised evaluation pipeline을 활용했다는 점이다. 생성 답 쌍의 의미적 동등성을 판정하는 classifier는 human-annotated generation pair로 학습되었고, 품질 점수는 reward model을 calibration해 1점에서 10점 척도로 매핑한다. 리뷰에서 이 부분을 정확히 이해해야 하는 이유는, 논문이 주장하는 수치가 사람 평가를 무시한 자동 점수가 아니라 사람 주석으로 보정된 자동 평가 체계 위에 올라가 있기 때문이다.
결과적으로 논문은 diversity 문제를 "프롬프트를 바꿔 보자" 수준이 아니라, 데이터셋·평가·라우팅을 묶어 다시 정의한다. 이 점 때문에 본 논문은 단순한 prompting trick 소개가 아니라, 오픈엔디드 생성 시스템의 선택 정책을 재설계하는 논문으로 읽는 편이 더 적절하다.
| 데이터셋 | 규모 | 답공간 성격 | 논문에서의 역할 |
|---|---|---|---|
| Simple Questions | 2,323 | 비교적 닫힌 answer set | coverage 지표가 closed-set에서 어떻게 해석되는지 확인 |
| NB-Curated | 92 | 정제된 오픈엔디드 | OOD 평가와 고품질 diversity 측정 |
| NB-WildChat | 11k | 실사용자형 오픈엔디드 | 메인 인도메인 학습/평가 |
| Infinity-Chat | 26k | 대규모 오픈엔디드 | 데이터 스케일링과 추가 일반화 실험 |
Table 1에 해당하는 데이터셋 요약은 이후 결과를 읽는 기준점이 된다. Simple Questions처럼 답공간이 비교적 좁은 환경에서는 질의별 모델 선택의 여지가 제한적이지만, NB-WildChat이나 Infinity-Chat처럼 답공간이 넓어질수록 라우팅의 가치가 커진다. 따라서 논문이 강조하는 "no single best model"이라는 명제는 모든 생성 문제에 동일하게 적용되는 일반론이 아니라, 특히 오픈엔디드 answer generation에서 강하게 관찰되는 현상으로 이해해야 한다.
3. 방법론: diversity coverage와 질의별 router의 결합
3.1 diversity coverage의 정의와 계산 절차
논문이 제안하는 diversity coverage는 생성된 답 집합 $A = \{a_1, \dots, a_B\}$와 질의 $q$가 주어졌을 때, 먼저 의미적으로 중복되지 않는 답만 남긴 $\mathrm{uniq}(q, A)$를 구성하고, 각 답의 품질 점수 $\mathrm{quality}(q, a)$를 더한 뒤, 동일한 예산 $B$에서 가능한 최적 고유 답 집합의 점수로 나눈다. 이를 식으로 쓰면 다음과 같은 형태가 된다.
$$ \mathrm{div\text{-}cov}(q, A)=\frac{\sum_{a \in \mathrm{uniq}(q,A)} \mathrm{quality}(q,a)}{\mathrm{max\text{-}uniq\text{-}sum}(q,B)} $$
이 정의가 좋은 이유는 분명하다. 분모는 같은 budget에서 가능한 이상적 상한을 의미하므로, 모델이 얼마나 좋은 답공간을 회수했는지를 상대적으로 해석할 수 있다. 분자는 중복 제거 후 품질 합산이므로, 동일한 의미의 답을 표현만 다르게 늘어놓는 전략이나 품질 낮은 답을 과도하게 추가하는 전략이 불리해진다. 결국 diversity coverage는 unique answer 수와 answer quality를 동시에 높여야만 점수가 오른다는 구조를 갖는다.
실제 계산에서는 의미적 동등성 판정이 핵심 병목이다. 논문은 NB-Curated와 NB-WildChat에서 수집한 1,100개 human-annotated generation pair를 활용해 equivalence classifier를 학습하고, 생성된 답 쌍이 의미적으로 같은지 판정한다. 그다음 greedy deduplication으로 고유 답 집합을 만든다. 즉, 두 문장이 겉보기 형태가 달라도 실질적으로 같은 제안을 담고 있다면 하나로 합쳐진다. 오픈엔디드 생성에서 이 단계가 빠지면 모델이 표현만 살짝 다른 답을 다수 나열해 점수를 부풀릴 수 있기 때문에, 논문은 이 부분을 지표의 필수 요소로 다룬다.
품질 점수는 Skywork-Reward-Gemma-2-27B-v0.2 reward model을 사용해 계산한다. 다만 원시 reward score를 그대로 쓰지 않고, MT-Bench 계열 human judgment와 맞춰 1점에서 10점 사이로 calibration한 quality scale을 이용한다. 이 절차 덕분에 diversity coverage는 완전히 사람 평가를 대체하지는 않더라도, 최소한 사람 주석과 맞물린 자동 평가 체계를 기반으로 계산된다. 논문이 보고하는 수치는 therefore 단순 heuristic score보다 해석 가능성이 높다.
중요한 점은 이 지표가 오픈엔디드와 closed-set 환경 모두에서 동작하지만, 해석은 다르다는 것이다. Simple Questions에서는 사실상 정답 집합의 coverage에 가까운 의미를 갖는다. 반면 NB-WildChat 같은 open-ended 환경에서는 사용자가 만족할 만한 다양한 대안을 얼마나 넓게 제시했는지를 측정한다. 논문은 이 차이를 의식해 여러 데이터셋에서 지표를 함께 검증하며, 지표가 특정 유형의 answer space에만 유효한 것이 아님을 보이려 한다.
더 나아가 diversity coverage는 답변 생성 시스템을 평가하는 새로운 질문을 던진다. 모델이 한 번에 잘 대답하는가가 아니라, 같은 질문에 대해 사용자가 다음 선택을 이어갈 수 있을 만큼 다른 답을 제공하는가를 묻기 때문이다. 이는 정보 회수나 추천 시스템에서 흔히 말하는 coverage 개념을 생성 모델 세계로 옮겨 온 것으로 볼 수 있다. 논문이 이 지표를 통해 주장하는 것은 결국, 생성 모델도 검색 시스템처럼 후보군의 폭과 품질을 함께 평가해야 한다는 것이다.
이 관점은 오픈엔디드 생성 평가가 왜 어려운지 설명해 준다. 생성 모델은 같은 의도를 여러 표현으로 풀어낼 수 있고, 그중 일부는 사실상 같은 답이며, 일부는 표면적으로 비슷해 보여도 다른 실행 전략을 담고 있을 수 있다. 따라서 diversity를 재려면 문자열 수준이 아니라 의미 수준의 정리가 필요하다. 논문의 equivalence classifier는 바로 이 문제를 다루기 위한 것이며, diversity coverage가 단순 표면적 차이 계수가 아닌 이유도 여기에 있다.
또한 예산을 기준으로 정규화한다는 점은 실용성이 높다. 만약 무한히 많은 답을 허용한다면 거의 모든 모델이 언젠가는 많은 대안을 낼 수 있을지 모른다. 그러나 실제 사용자는 시간과 주의력 모두 제한되어 있다. 그래서 중요한 것은 정해진 예산 안에서 얼마나 가치 있는 후보를 회수했는가다. 논문은 diversity coverage를 통해 바로 이 현실적 질문을 전면에 놓는다.
3.2 모델 풀과 질의별 최적 선택 문제
논문은 총 18개 공개 LLM을 대상으로 diversity coverage를 측정한다. Llama 3 계열, Qwen 3 및 Qwen 2.5 계열, OLMo 2 계열, Gemma 3 계열을 묶어 비교하는데, 여기서 중요한 것은 단순 리더보드 경쟁이 아니라 질의별 ranking이다. 평균적으로 top overall model이 존재하더라도, 실제 개별 질의에서는 18개 중 다른 모델이 1위를 차지하는 빈도가 상당히 높다. 저자들은 이를 이용해, 질의마다 oracle best model을 고를 경우 어느 정도의 상한 개선이 가능한지 먼저 계산한다.
이 실험은 router의 필요성을 정당화하는 역할을 한다. 만약 top overall model과 oracle per-query model의 차이가 거의 없다면, 라우팅은 복잡도만 추가하는 불필요한 장치가 된다. 그러나 논문 결과는 반대다. 특히 open-ended 데이터셋인 NB-Curated와 NB-WildChat에서는 질의별 최적 선택의 이득이 크다. 이는 모델 풀을 보유한 시스템이 평균 성능만 보고 단일 모델을 고정 호출하는 방식보다, 질의별로 다른 모델을 고르는 정책에서 실질적 이득을 얻을 수 있음을 의미한다.
이 문제를 수학적으로 보면, 모델 집합 $\mathcal{M}=\{m_1, \dots, m_n\}$가 있을 때 질의 $q$에 대해 가장 높은 diversity coverage를 내는 모델 인덱스는 다음과 같이 정의된다.
$$ i^*(q)=\arg\max_{m_i \in \mathcal{M}} \mathrm{div\text{-}cov}(q, A^{(i)}) $$
router가 학습해야 하는 것은 결국 위의 $i^*(q)$를 맞히는 분류 문제다. 다만 실제로는 완벽히 정답 모델을 맞히는 것만이 목표는 아니다. 논문 부록이 보여주듯, 오라클 1위와 비슷한 coverage를 내는 2위나 3위 모델을 선택하더라도 diversity coverage 자체는 꽤 높을 수 있다. 따라서 좋은 router는 엄밀한 top-1 classification 정확도뿐 아니라, 실질적으로 근접한 좋은 모델을 상위에 올리는 ranking 능력도 중요하다.
3.3 router의 입력 표현과 학습 방식
논문은 두 가지 라우팅 formulation을 비교한다. 첫째는 M-way classification이다. 하나의 분류기가 18개 후보 중 이 질의에서 가장 높은 diversity coverage를 낼 모델 하나를 고른다. 둘째는 binary classification이다. 각 모델에 대해 "이 모델이 best인가"를 점수화한 뒤, inference 시 점수가 가장 높은 모델을 선택한다. 실험 결과는 binary MLP가 메인 데이터셋에서 더 강한 성능을 보이며, 특히 model-specific representation을 쓸 때 인도메인에서 우수했다.
입력 표현도 두 가지로 나뉜다. agnostic representation은 `infly/inf-retriever-v1` 같은 공통 retriever 임베딩을 사용한다. 이는 후보 모델에 독립적이며 비교적 안정적이다. 반면 specific representation은 각 후보 모델이 해당 질의를 처리할 때의 final hidden state를 사용한다. 이런 표현은 모델별 반응 차이를 더 세밀하게 반영할 수 있지만, 특정 데이터셋이나 프롬프트에 과적합될 위험도 있다. 실제로 논문은 NB-WildChat에서는 specific representation이 가장 좋지만, OOD 평가인 NB-Curated에서는 agnostic representation이 더 안정적이라는 결과를 보고한다.
구현 수준에서는 복잡한 거대 모델이 쓰이지 않는다. KNN, BERT, MLP가 비교 대상이며, 최종적으로는 MLP 기반 router가 가장 좋은 trade-off를 보인다. 이는 라우팅 문제가 반드시 큰 메타모델을 요구하지 않음을 시사한다. 논문의 핵심은 모델을 하나 더 거대하게 만드는 것이 아니라, 어떤 질의가 어떤 생성 분포를 요구하는지를 간단한 표현으로도 학습할 수 있다는 점에 있다.
Figure 2: Infinity-Chat 기반 추가 학습 데이터가 늘어날수록 router 성능이 상승하는 모습을 보여주는 스케일링 결과
Figure 2는 라우팅이 단순한 규칙 기반 휴리스틱이 아니라 학습 데이터 증가에 따라 개선되는 문제임을 보여준다. Infinity-Chat에서 500개, 1k개, 2k개 규모로 학습할수록 router가 더 안정적인 diversity coverage를 얻는다는 것은, 질의별 최적 모델 선택 패턴이 적어도 부분적으로는 표현 학습 가능한 규칙성을 갖는다는 뜻이다. 논문은 이 그림을 통해 라우터가 "한 번 맞추고 끝나는 분기기"가 아니라, 데이터가 쌓일수록 계속 개선될 수 있는 모듈로 이해되어야 한다고 말한다.
Figure 3: Top overall, router, oracle의 질의당 시간 비용을 비교한 그림으로, oracle의 비현실적 비용과 router의 현실적 절충을 보여준다
Figure 3은 성능만 보면 놓치기 쉬운 실용적 포인트를 짚는다. 오라클 방식은 모든 후보 모델 혹은 후보 조합을 전부 호출해야 하므로 diversity coverage 상한은 높지만 비용이 과도하다. 반면 router는 top overall보다 약간 비싸더라도, oracle 대비 훨씬 현실적인 비용 안에서 성능 개선을 얻는다. 따라서 논문이 제안하는 것은 "최고 성능의 이론적 상한"이 아니라, 실제 서비스에서 구현 가능한 비용-다양성 절충 전략에 가깝다.
| 모델 계열 | 포함 모델 | 논문에서 관찰한 경향 |
|---|---|---|
| Llama | 1B, 3B, 8B, 70B | 중간 크기 모델에서 uniqueness와 quality 균형이 강하게 나타나는 경우가 많음 |
| Qwen | 0.6B, 1.7B, 4B, 8B, 14B, 72B | 품질이 높지만 질의마다 diversity 우위 여부는 달라짐 |
| OLMo | 1B, 7B, 13B, 32B | NB-WildChat에서 top overall 역할을 차지할 정도로 open-ended diversity에서 강세 |
| Gemma | 1B, 4B, 12B, 27B | 품질 측면에서 강점이 있으나 항상 최고의 diversity coverage를 보장하지는 않음 |
이 모델군 요약은 논문이 단순히 모델 크기 증가에 따른 우열을 보고하는 것이 아님을 보여준다. 어떤 계열이 모든 데이터셋에서 일관되게 우세하지 않으며, 오히려 질문 유형과 프롬프트 형식에 따라 장단점이 다르게 드러난다. 이 때문에 라우터는 "작은 모델 vs 큰 모델" 같은 2단 분기보다, 다수의 이질적 모델 풀 위에서 작동하는 분류기로 설계된다.
4. 실험 설정: 데이터, 생성 방식, 라우터 학습 구성
4.1 데이터셋 및 벤치마크: NB-WildChat 중심의 인도메인과 NB-Curated OOD
메인 라우터 학습은 NB-WildChat 1,000개 프롬프트를 사용하며, 이를 train 70%, validation 10%, test 20%로 나눈다. 이 설정은 모델 선택 패턴이 실제 사용자형 오픈엔디드 질의에서 얼마나 학습 가능한지 보려는 목적에 맞춰져 있다. 반면 NB-Curated는 OOD 평가셋으로 쓰인다. 즉, router가 단지 WildChat의 표면 통계에 맞춘 분류기에 그치지 않고, 다른 분포의 open-ended 질문으로도 어느 정도 일반화되는지를 검증한다.
Infinity-Chat은 추가 확장 실험에서 중요한 역할을 한다. 논문은 500, 1k, 2k 샘플 수준에서 Infinity-Chat으로 학습한 라우터와, WildChat과 혼합 학습한 라우터를 비교한다. 이 실험은 diversity routing이 소규모 장난감 실험이 아니라, 더 많은 데이터를 통해 개선될 수 있는 구조인지 확인하는 장치다. 실제 결과는 데이터가 늘수록 성능이 대체로 오르며, 혼합 학습이 일부 환경에서 더 나은 일반화를 제공함을 보여준다.
4.2 구현 세부사항: 생성 예산과 prompt regime의 통제
논문은 기본적으로 질문당 50개의 answer generation budget을 둔다. 샘플링 설정은 temperature 1.0, top-p 1.0, 최대 토큰 길이는 4096으로 고정한다. Qwen 계열에서는 thinking mode를 비활성화해, 특정 계열만 유리한 추론 모드를 사용하지 않도록 맞춘다. 이런 통제는 diversity coverage를 모델 자체의 성향과 라우팅 효과로 해석하기 위해 필요하다. 샘플링 온도와 토큰 길이를 다르게 주면 diversity가 디코딩 설정 차이에서 비롯되었는지, 모델 선택에서 비롯되었는지 분리하기 어려워지기 때문이다.
또한 논문은 prompt regime 자체가 diversity에 큰 영향을 준다는 사실도 별도로 실험한다. 하나의 답만 요구하는 Generate-one, 두 개의 서로 다른 답을 요구하는 Generate-two, 가능한 답을 계속 나열하게 하는 Generate-all이 그것이다. 메인 설정은 Generate-all이지만, 후속 실험에서 논문은 이 프롬프트 차이가 diversity coverage와 answer quality의 trade-off를 크게 바꾼다는 점을 보여준다. 이는 router 역시 prompt-independent 모듈이 아니라, 어떤 생성 전략을 채택하느냐에 따라 다시 학습되어야 할 수 있음을 뜻한다.
4.3 베이스라인: top overall, random, frequency, KNN, BERT, MLP
비교 베이스라인은 크게 세 층으로 나뉜다. 첫째는 라우팅이 없는 간단한 선택 전략이다. Top overall은 데이터셋 전체 평균 diversity coverage가 가장 높은 모델만 항상 사용한다. Random model per query는 질의마다 임의 모델을 고른다. Frequency는 학습셋에서 best model로 자주 등장한 빈도 비례로 선택한다. 이들은 모두 구현이 간단하지만 질의별 적응성이 없거나 약하다.
둘째는 약한 라우팅 베이스라인이다. KNN은 질의 표현이 유사한 이웃들의 best model을 따르며, BERT와 MLP는 이를 supervised 분류로 푼다. 셋째는 논문의 주력 설정인 Binary MLP와 M-way MLP다. 실제 결과는 Binary MLP가 특히 강하게 나타나는데, 이는 다양성 관점에서 각 모델을 "베스트인가 아닌가"로 독립 점수화하는 구조가, 한 번에 18개 클래스를 고르는 구조보다 더 안정적이었음을 시사한다.
이 비교는 라우팅 성능을 단순히 오라클과만 비교하지 않고, 현실적으로 시도할 법한 다양한 선택 규칙과 비교한다는 점에서 설득력이 있다. 즉, 논문이 주장하는 이득이 "당연히 복잡한 모델이 더 좋다" 수준이 아니라, 실제 서비스가 흔히 채택할 수 있는 베이스라인보다도 확실한 개선인지를 검증하는 구조다.
여기서 특히 흥미로운 베이스라인은 Frequency다. 이는 학습셋에서 자주 best였던 모델을 더 높은 확률로 뽑는 전략으로, 얼핏 보면 꽤 합리적이다. 만약 diversity 패턴이 단순히 몇 개 인기 모델의 빈도 차이로 설명된다면 Frequency만으로도 상당한 성능이 나와야 한다. 그러나 논문 결과는 그렇지 않다. 이는 질의별 다양성 우위가 단순한 prior frequency가 아니라, 실제 질의 내용과 모델 반응의 상호작용에서 나온다는 점을 뒷받침한다.
KNN 결과 역시 의미가 있다. 유사 질의의 best model을 가져오는 방식은 가장 자연스러운 retrieval-style router처럼 보이지만, 메인 결과에서는 MLP 기반 supervised router보다 약했다. 이는 diversity routing이 표면 유사도만으로 해결되기보다, 질의의 잠재 구조와 모델 특성을 함께 반영하는 더 추상적 표현이 필요함을 시사한다. 다시 말해 "비슷한 질문은 비슷한 모델이 좋다"는 직관은 부분적으로만 맞고, 그 이상의 학습된 판별 경계가 필요하다는 것이다.
BERT가 MLP보다 강하게 나오지 않는 점도 흥미롭다. 보통 텍스트 분류 문제에서는 사전학습된 encoder가 유리할 것처럼 보이지만, 여기서는 좋은 질의 표현을 주어진 상태에서 가벼운 MLP가 더 효과적으로 작동한다. 이는 문제의 핵심이 복잡한 언어 이해보다는, 이미 추출된 표현을 바탕으로 모델 선택 경계를 학습하는 데 있을 수 있음을 뜻한다. 결과적으로 논문은 diversity routing이 생각보다 무거운 메타모델을 필요로 하지 않을 수 있다는 실용적 메시지도 함께 전달한다.
| 설정 항목 | 논문 기본값 | 의미 |
|---|---|---|
| 생성 예산 | 질문당 50 answers | 모델마다 동일한 answer set budget에서 비교 |
| Temperature | 1.0 | 다양성 탐색 여지를 확보하되 모델 간 비교를 통일 |
| Top-p | 1.0 | 추가적 샘플링 절단 없이 모델 분포를 반영 |
| 최대 생성 길이 | 4096 | 긴 리스트형 answer generation도 수용 |
| 라이터 학습 데이터 | NB-WildChat 1,000 prompts | train/val/test split으로 supervised routing 학습 |
실험 설정을 보면 논문이 일부 모델에 유리한 엔지니어링을 추가하기보다, 가능한 한 공정한 샘플링 예산 아래에서 모델 선택 정책의 가치만 측정하려 했음을 알 수 있다. 또한 prompt regime 비교를 따로 분리해 두었기 때문에, 메인 결과에서 router의 이득을 프롬프트 설계의 우연으로 돌리기 어렵다.
5. 주요 실험 결과: 단일 최고 모델보다 질의별 router가 더 넓은 답공간을 회수한다
5.1 오라클 상한: 질의별 최적 선택의 가치가 얼마나 큰가
메인 결과를 읽기 전에 가장 중요한 표는 오라클 상한을 보여주는 Table 2다. 이 표는 top overall model, top two overall models, random model per query, 그리고 질의별 최적 모델을 고르는 oracle을 비교한다. Simple Questions에서는 top overall과 oracle의 차이가 작지만, NB-Curated와 NB-WildChat으로 갈수록 차이가 크게 벌어진다. 이는 앞서 말한 대로, 닫힌 답공간에서는 모델 간 최적 선택의 여지가 작고, 오픈엔디드 답공간에서는 질의별 상성이 더 크게 작동한다는 점을 재확인한다.
구체적으로 NB-Curated에서는 top overall model이 47.0%의 diversity coverage를 보이지만, 질의별 oracle model은 59.6%까지 오른다. NB-WildChat에서는 23.8%에서 33.0%로 상승한다. 절대값만 보면 WildChat 점수가 낮아 보일 수 있으나, 이 데이터셋이 훨씬 더 개방적이고 노이즈가 큰 사용자형 질의라는 점을 고려해야 한다. 오히려 이 환경에서 9.2포인트 차이가 난다는 것은, 실제 서비스형 오픈엔디드 질의일수록 모델 선택 정책이 중요하다는 뜻에 가깝다.
| 방법 | Simple Questions | NB-Curated | NB-WildChat |
|---|---|---|---|
| Top overall model | 96.9% | 47.0% | 23.8% |
| Top two overall models | 97.1% | 45.6% | 25.6% |
| Random model/query | 92.7% | 37.5% | 18.1% |
| Top model/query oracle | 97.9% | 59.6% | 33.0% |
이 표가 주는 메시지는 간단하다. 단일 최고 모델보다 질의별 최적 모델을 고르는 것이 확실히 낫다. 다만 모든 모델을 전부 돌리는 oracle은 비싸므로, 이 간극을 얼마나 실용적으로 메우는지가 다음 단계의 핵심이 된다. 곧바로 나오는 router 결과는 바로 이 간극을 줄이는 시도다.
5.2 메인 라우터 결과: NB-WildChat에서는 Binary MLP(spec)가 가장 강하다
Table 3은 논문의 중심 결과다. NB-WildChat 인도메인 평가에서 top overall model의 diversity coverage는 23.8%다. 여기에 Binary MLP(spec) router를 적용하면 26.3%까지 오른다. 절대값으로는 2.5포인트 상승처럼 보일 수 있지만, 동일한 모델 풀과 동일한 answer budget 안에서 모델 호출 순서만 바꿔 얻은 개선이라는 점을 생각해야 한다. 즉 모델 파인튜닝도, 복잡한 post-processing도 없이 질문을 어느 모델에 보낼지 바꾸는 것만으로 상당한 이득을 얻는다.
이 결과는 몇 가지 세부 수치를 함께 봐야 더 잘 이해된다. Binary MLP(spec)는 NB-WildChat에서 고유 답 개수, quality, unique answer quality의 균형이 비교적 좋았고, coverage 최종값에서도 가장 높았다. 반면 M-way BERT나 KNN은 top overall보다 조금 나아지거나 비슷한 수준에 머물렀다. 이는 diversity routing이 단순 nearest-neighbor 문제라기보다, 질의와 모델 반응의 상호작용을 더 부드럽게 점수화하는 구조가 유리했음을 시사한다.
또 하나 흥미로운 점은 classification accuracy와 coverage가 완전히 일치하지 않는다는 사실이다. 부록 Table 6에 따르면 오라클 최적 모델을 맞히는 정확도 자체는 M-way MLP(spec)가 더 높을 수 있지만, 실제 diversity coverage는 Binary MLP(spec)가 더 높다. 즉 router에게 중요한 것은 strict top-1 label을 자주 맞히는 능력만이 아니라, 실제 coverage가 비슷한 상위 후보를 안정적으로 높은 순위로 올리는 능력이다. 이는 이후 top-2 routing 결과와도 연결된다.
| 방법 | NB-WildChat Cov. | NB-Curated Cov. | 해석 |
|---|---|---|---|
| Top overall | 23.8% | 38.6% | 전체 평균 최고 모델을 고정 사용 |
| M-way BERT | 24.4% | 40.3% | 일정 개선은 있으나 강한 우위는 아님 |
| M-way MLP(spec) | 25.9% | 40.2% | 모델 특화 표현이 인도메인에서 강함 |
| Binary MLP(agn) | 25.7% | 40.7% | OOD에서는 가장 안정적인 결과 |
| Binary MLP(spec) | 26.3% | 39.3% | 메인 인도메인 최고 성능 |
Table 3을 요약하면, 메인 인도메인 데이터인 NB-WildChat에서는 Binary MLP(spec)가 가장 높은 coverage를, OOD 데이터인 NB-Curated에서는 Binary MLP(agn)가 가장 안정적인 coverage를 제공한다. 즉 model-specific hidden state는 강력하지만 데이터셋 특정성에 민감할 수 있고, agnostic embedding은 일반화 측면에서 더 robust하다. 이 차이는 실제 제품에서 라우터를 설계할 때 학습 도메인과 서비스 도메인의 일치 여부가 중요하다는 점을 시사한다.
NB-WildChat 결과를 더 세밀하게 해석하면, router의 개선은 단지 평균적으로 더 좋은 모델을 고른다는 의미를 넘는다. top overall 모델은 고유 답 수가 많더라도 quality가 고르게 높지 않을 수 있고, 반대로 일부 품질 중심 모델은 quality는 높지만 answer set의 폭이 좁을 수 있다. Binary MLP(spec)는 이러한 상충관계를 질의 표현에서 읽어내어, 어떤 질문에서는 더 탐색적인 모델을, 다른 질문에서는 더 정돈된 모델을 선택하는 식으로 coverage를 끌어올린다. 즉 논문이 보여주는 개선은 "더 자주 맞힌다"가 아니라, 질문이 요구하는 답공간 구조를 더 자주 맞힌다에 가깝다.
이 해석은 Table 3의 보조 지표와도 맞물린다. 예를 들어 #Unq가 높다고 항상 coverage가 높은 것은 아니고, Qual이 높다고 해서 역시 coverage가 최고가 되는 것도 아니다. coverage는 고유 답 개수와 평균 품질의 결합량이며, 따라서 router는 두 축을 동시에 잘 조합하는 모델을 선택해야 한다. 이는 전통적인 품질 라우팅보다 어려운 문제다. 품질 라우팅은 좋은 답 하나를 가장 안정적으로 줄 모델을 찾으면 되지만, diversity 라우팅은 좋은 답 여러 개의 집합적 구조를 예측해야 하기 때문이다.
또한 Binary MLP(spec)의 우위는 모델 특화 은닉표현이 단순한 질의 의미뿐 아니라, 그 모델이 그 질문을 받을 때 보일 잠재적 생성 스타일을 일부 반영하기 때문으로 해석할 수 있다. 예컨대 같은 질문이라도 어떤 모델은 규범적·요약형 답을, 어떤 모델은 아이디어 나열형 답을, 또 어떤 모델은 서사적 확장형 답을 낼 가능성이 있다. final hidden state는 이러한 차이를 일정 부분 압축해 담을 수 있으므로, diversity coverage를 예측하는 데 더 직접적인 힌트가 될 수 있다. 다만 이 장점이 인도메인에서 강하게 나타나는 대신 OOD에서 약해질 수 있다는 점도 논문이 함께 보여준다.
실무적으로 보면 이 결과는 모든 환경에서 하나의 표현만 고집하기보다, 서비스 로그가 충분한 도메인에서는 model-specific router를, 새로운 도메인으로 빠르게 확장해야 할 때는 agnostic router를 택하는 식의 전략 분기를 가능하게 한다. 즉 논문은 단순히 "이 설정이 최고다"라고 끝내지 않고, 표현 선택에도 도메인-일반화 trade-off가 존재한다는 점을 통해 실제 배치 전략까지 생각할 수 있는 단서를 제공한다.
5.3 상위 두 모델 선택: ranking으로 확장되는 router
Table 4는 논문이 top-1 selection에만 머물지 않는다는 점을 보여준다. router가 각 모델 점수를 출력하면, 이 점수를 이용해 상위 두 모델을 골라 답을 모을 수 있다. 흥미롭게도 전체 평균 기준 top-2 모델을 고정 사용하는 방식은 큰 개선을 주지 못하지만, query-specific top-2 router는 NB-WildChat에서 26.7%, NB-Curated에서 42.2%까지 오른다. 이는 라우터가 단순 분기기가 아니라 모델 ranking 모듈로도 쓸 수 있음을 뜻한다.
이 결과는 현실적으로 의미가 크다. 제품에서는 하나의 모델만 쓰기보다, 예산이 허용되는 질의에 한해 두 개 정도의 모델을 조합해 더 풍부한 답을 주고 싶을 수 있다. 논문은 무작정 top overall 모델 두 개를 고르는 것이 아니라, 질의마다 다른 상위 조합을 고르는 편이 더 낫다고 보여준다. 또한 부록 H.2는 top-2 이상으로 모델 수를 계속 늘리는 것이 반드시 좋은 것도 아님을 정리한다. 즉 diversity routing의 핵심은 "더 많은 모델"이 아니라 질의에 맞는 모델 수와 조합이다.
| 선택 방식 | NB-WildChat | NB-Curated | 의미 |
|---|---|---|---|
| Top 2 overall | 23.8% | 38.3% | 고정 조합은 큰 이득이 없음 |
| Top 2 per query oracle | 35.8% | 62.6% | 질의별 최적 조합 상한 |
| Router top-2 | 26.7% | 42.2% | ranking 기반 확장이 실제로 유효함 |
Table 4를 보면 질의별 top-2 routing이 top-1보다 항상 극적으로 좋지는 않지만, 적어도 평균 조합을 고정하는 것보다는 확실히 낫다. 이는 router가 top-1 label classifier를 넘어, diversity를 높이는 후보 집합 선택기 역할을 할 수 있음을 보여준다. 향후 더 큰 모델 풀이나 조합 탐색 문제로 확장할 때도 중요한 기반이 되는 결과다.
6. 추가 분석 및 Ablation Study: 일반화, 프롬프트 의존성, quality-diversity trade-off
6.1 데이터 규모와 OOD 일반화: Infinity-Chat으로 본 라우팅의 확장성
논문은 NB-WildChat 1,000개 프롬프트만으로 얻은 결과에 만족하지 않고, Infinity-Chat을 이용해 데이터 스케일링 실험을 수행한다. Table 5에 따르면 Infinity-Chat에서 500개, 1k, 2k 샘플로 학습한 router는 자기 도메인뿐 아니라 NB-WildChat으로도 어느 정도 전이된다. 또한 WildChat 1k와 Infinity-Chat 2k를 함께 학습하면 NB-WildChat에서 26.40%, Infinity-Chat에서 23.55%까지 올라간다. 이는 질의별 모델 선택 패턴이 특정 데이터셋에만 갇힌 현상이 아니라, 더 많은 오픈엔디드 질의를 통해 점진적으로 일반화 가능한 구조일 수 있음을 시사한다.
다만 개선 폭이 무한정 크지는 않다. 오라클과의 간극은 여전히 남아 있고, 도메인이 바뀌면 representation choice에 따라 성능 차이가 나타난다. 즉 router는 분명 학습 가능한 문제이지만, open-ended diversity 자체가 난도가 높기 때문에 더 큰 데이터만 넣는다고 곧바로 오라클 수준으로 수렴하지는 않는다. 논문은 이 점을 숨기지 않고, 오히려 future work로 더 나은 representation과 prompt-aware routing의 필요성을 암시한다.
| 학습 데이터 | 규모 | NB-WildChat | Infinity-Chat |
|---|---|---|---|
| Top overall | - | 23.83% | 23.13% |
| Router, NB-WildChat | 1k | 26.27% | 22.58% |
| Router, Infinity-Chat | 2k | 25.13% | 23.78% |
| Router, WildChat + Infinity-Chat | 1k + 2k | 26.40% | 23.55% |
Table 5는 라우팅이 데이터에 민감하면서도 데이터 규모 확대의 혜택을 받는다는 점을 정리한다. 인도메인 최고 성능은 혼합 학습에서 나오지만, 단일 도메인 학습도 의미 있는 개선을 제공한다. 따라서 실제 시스템에서는 서비스 로그로부터 질의-최적모델 데이터를 누적할수록 router를 계속 개선할 수 있다는 해석이 가능하다.
특히 Infinity-Chat에서 학습한 router가 NB-WildChat에도 어느 정도 전이된다는 점은, diversity routing이 특정 데이터셋의 얕은 lexical bias만 학습한 것은 아니라는 신호다. 물론 성능 절대값은 인도메인 학습보다 낮지만, 전혀 무너지지 않는다는 사실 자체가 중요하다. 이는 질의별로 어떤 모델이 더 탐색적이고 어떤 모델이 더 정제된 답을 주는지에 관한 패턴이, 도메인을 넘어 일정 수준 반복된다는 뜻일 수 있다.
동시에 혼합 학습이 더 좋은 결과를 보인다는 사실은, diversity routing이 결국 다양한 질의 분포를 보는 것이 유리한 문제임을 시사한다. 이는 검색 랭킹이나 추천 랭킹과도 유사한 측면이 있다. 특정 분포에만 최적화한 선택 규칙은 새로운 분포에서 쉽게 흔들리지만, 다양한 질의 유형을 미리 접한 선택 규칙은 더 완만하게 성능이 떨어진다. 논문은 아주 큰 규모의 mixture-of-queries 실험까지는 가지 않지만, Infinity-Chat과 WildChat을 섞은 결과만으로도 이러한 방향성을 꽤 분명하게 보여준다.
이 실험에서 또 하나 읽을 수 있는 점은 router의 학습 난도가 생각보다 높다는 사실이다. 1k나 2k 수준의 추가 데이터로 성능이 조금씩 오르긴 하지만, 오라클과의 간극은 여전히 크다. 즉 질의별 최적 모델 선택은 학습 가능하지만 쉽지 않은 문제이며, 단순히 더 많은 질문-라벨 쌍만 넣는다고 빠르게 포화되지 않는다. 이는 향후 더 좋은 입력 표현, prompt-conditioned feature, 혹은 response sketch를 이용한 richer router가 필요할 수 있음을 암시한다.
서비스 관점에서는 이 결과가 꽤 현실적이다. 초기에는 간단한 router로 시작하더라도, 실제 사용자 로그와 평가 피드백이 쌓이면 라우터를 지속적으로 업데이트해 점진적으로 diversity 품질을 높일 수 있다. 즉 본 논문은 한 번 완성된 정적 규칙이 아니라, 운영하면서 학습시키는 selection layer라는 관점을 제공한다. 대형 LLM 자체를 매번 fine-tune하지 않고도 제품 경험을 개선할 수 있다는 점에서 특히 실용적이다.
6.2 프롬프트 전략 비교: Generate-all은 다양성에 유리하지만 품질을 갉아먹는다
논문의 가장 실용적인 분석 중 하나는 prompt regime 비교다. Generate-one은 한 개의 답만 요구하므로 각 답의 품질은 높아지기 쉽지만 coverage는 낮다. Generate-two는 두 답의 차이를 강제해 약간의 다양성을 확보한다. Generate-all은 가능한 답을 계속 나열하게 하므로 diversity coverage가 가장 높다. Table 7에서 Random, Frequency, Top overall 모두 Generate-all이 가장 높은 coverage를 얻는 이유가 여기에 있다.
하지만 Generate-all의 장점은 공짜가 아니다. Figure 5와 Table 8은 answer length와 answer quality가 뒤로 갈수록 떨어진다는 점을 보여준다. 하나의 질의 안에서 가능한 답을 계속 나열하게 되면, 초반 답들은 괜찮더라도 뒤로 갈수록 모델이 더 얕고 덜 정제된 제안을 던지는 경향이 있다. 따라서 diversity를 최대화하는 프롬프트와 개별 답의 평균 품질을 최대화하는 프롬프트는 다를 수 있다. 논문은 이 trade-off를 명시적으로 드러내며, router도 결국 어떤 prompt regime 위에서 학습되었는지에 따라 성격이 달라진다고 설명한다.
실제로 cross-prompt generalization 결과는 매우 약하다. Generate-all로 학습한 router를 Generate-one에 적용하면 오히려 해당 프롬프트의 top overall baseline보다 낮은 수치가 나오기도 한다. 이는 질의별 모델 최적성이 프롬프트와 결합된 속성이라는 뜻이다. 즉 "이 질의에서 가장 다양한 모델"이라는 문장은 사실상 "이 프롬프트 형식 아래에서 이 질의에 가장 다양한 모델"을 의미한다. 논문은 이 점을 통해 prompt-aware routing이 필요하다는 후속 문제를 남긴다.
Figure 5: generate-one과 generate-all의 답 품질 분포 차이를 비교하며, diversity 증가가 평균 answer quality 저하를 동반할 수 있음을 보여준다
Figure 5는 coverage만 보면 놓치기 쉬운 문제를 드러낸다. generate-all은 더 넓은 answer space를 회수하지만, 각 answer의 평균 품질은 generate-one보다 낮아지는 경향이 있다. 따라서 제품 맥락에서 중요한 것은 단순히 가장 높은 diversity coverage를 선택하는 것이 아니라, 사용자가 실제로 원하는 경험이 폭넓은 탐색인지 정제된 소수 답변인지 구분하는 일이다. 논문은 diversity routing이 품질을 무시하는 전략이 아니라는 점을 강조하지만, 동시에 coverage를 높이는 과정에서 quality trade-off가 남는다는 사실도 정직하게 보여준다.
| 방법 | G-1 Cov. | G-2 Cov. | G-All Cov. |
|---|---|---|---|
| Random | 9.9% | 13.2% | 18.1% |
| Frequency | 15.6% | 17.1% | 21.0% |
| Top overall | 18.5% | 19.7% | 23.8% |
| Oracle | 25.6% | 28.3% | 33.0% |
| Router | 19.1% | 21.6% | 26.2% |
Table 7을 보면 프롬프트 선택만 바꿔도 diversity coverage가 크게 달라진다. generate-all에서 가장 높은 coverage가 나오지만, 이 숫자는 곧바로 품질 우위로 해석될 수 없다. 따라서 실제 응용에서는 라우터 설계와 프롬프트 설계를 분리해서 생각하면 안 된다. 논문이 보여준 약한 cross-prompt generalization은 diversity 라우팅이 사실상 prompt-conditioned routing 문제라는 점을 뒷받침한다.
이 결과는 연구적으로도 중요한 함의를 가진다. 많은 라우팅 연구는 입력 질의만 보면 충분하다고 가정하지만, 이 논문은 질의와 함께 출력 프로토콜이 바뀌면 최적 모델도 달라진다는 점을 드러낸다. 같은 질문이라도 "하나의 최선 답"을 요구할 때 유리한 모델과, "가능한 대안을 전부 나열"하라고 했을 때 유리한 모델은 다를 수 있다. 따라서 향후 diversity routing은 단순 query routing이 아니라 query plus generation policy routing으로 확장될 필요가 있다.
또한 generate-all이 coverage를 가장 높인다는 사실은 현재 많은 시스템이 채택하는 짧은 one-shot 응답이 오픈엔디드 탐색에는 본질적으로 한계가 있을 수 있음을 보여준다. 예를 들어 사용자가 새로운 사업 아이디어, 학습 전략, 실험 가설, 여행 일정 후보를 요청할 때는, 단 하나의 매끄러운 답보다 여러 갈래의 후보를 빠르게 스캔하는 경험이 더 유용할 수 있다. 논문은 이런 상황에서 프롬프트와 router를 함께 설계하면, 같은 모델 풀에서도 훨씬 넓은 탐색 공간을 제공할 수 있다고 시사한다.
반대로 answer quality 저하는 분명한 경고다. 생성 후반부로 갈수록 품질이 낮아지고 길이가 짧아지는 현상은, coverage만 최적화한 시스템이 사용자에게 과잉 제안과 얕은 제안을 동시에 제공할 위험을 뜻한다. 따라서 실제 응용에서는 coverage를 최대화한 뒤 다시 품질 필터링을 하거나, 상위 몇 개만 정리해 보여주는 second-stage summarizer를 붙이는 방식도 고려할 수 있다. 논문이 직접 이 후처리를 다루지는 않지만, 결과 해석 자체는 이러한 제품 설계 가능성을 자연스럽게 떠올리게 한다.
6.3 시각 자료로 보는 uniqueness, 품질, 모델 크기 관계
부록의 Figure 17부터 Figure 20까지는 메인 표보다 더 미세한 관찰을 제공한다. Figure 17은 프롬프트 종류에 따라 평균 answer quality가 어떻게 달라지는지 보여주고, Figure 18과 Figure 19는 생성 답변 수가 늘어날수록 diversity coverage와 unique answer 수가 어떻게 변하는지를 시각화한다. Figure 20은 작은 모델이 더 많은 unique answers를 생성하는 경향이 있음을 강조한다. 이 결과는 크기가 곧 다양성이라는 직관과 충돌하며, 오히려 모델 규모에 따라 exploration vs refinement 성향이 다를 수 있음을 보여준다.
이 관찰은 왜 top overall model이 모든 질의에서 최적일 수 없는지를 설명한다. 큰 모델은 품질 높은 답을 주지만 answer set을 다소 보수적으로 확장할 수 있고, 작은 모델은 더 많은 unique answer를 낼 수 있으나 품질 분산이 클 수 있다. diversity coverage는 바로 이 두 힘의 균형에서 결정되므로, 질의가 요구하는 것이 창의적 확장인지, 구조화된 대안 제시인지에 따라 최적 모델이 달라진다. 결국 router는 이러한 숨은 요구를 질의 표현에서 읽어내는 장치로 이해할 수 있다.
Figure 6: 어떤 모델이 가장 diverse한 모델이 되는지의 빈도 분포를 보여주며, 모델 우세가 질의별로 분산되어 있음을 시각화한다
Figure 6은 NB-WildChat에서 특정 한 모델이 다양성 1위를 독식하지 못한다는 점을 더 직관적으로 보여준다. 이는 라우터의 존재 이유를 다시 한 번 확인해 준다. 문제는 "가장 큰 모델을 쓰느냐"가 아니라, 지금 이 질문에서 어떤 모델이 가장 넓은 답공간을 열어 줄 것이냐라는 데 있다.
Figure 17: NB-Curated에서 프롬프트 종류별 평균 answer quality를 비교해, generate-all의 품질 희생을 정량적으로 보여준다
Figure 17은 coverage 중심 논의를 quality 차원으로 되돌려 놓는다. generate-all이 항상 유리한 것이 아니라, 어떤 상황에서는 generate-one이 더 높은 품질을 보장할 수 있다는 점이 드러난다. 따라서 diversity routing을 실제 시스템에 도입할 때는 사용자의 과제가 "최대한 많은 대안 탐색"인지 "가장 좋은 몇 개 후보 제안"인지 먼저 구분해야 한다.
Figure 18: 서로 다른 프롬프트와 샘플 수 증가에 따라 diversity coverage가 어떻게 변하는지 보여주는 스케일링 곡선
Figure 18은 단일 모델에서도 generation 수를 늘리면 diversity coverage가 올라가지만, 그 증가 양상이 prompt type과 데이터셋에 따라 크게 달라진다는 점을 보여준다. 이는 더 많은 샘플링만으로 diversity를 해결할 수 없으며, 모델 선택과 프롬프트 설계가 함께 작동해야 한다는 논문의 주장과 맞물린다.
Figure 18 보조 시각화: 데이터셋이 달라지면 generation 수 증가에 따른 coverage 상승 곡선도 달라진다는 점을 보여준다
같은 Figure 18의 보조 곡선은 데이터셋 분포가 바뀌면 샘플 수를 늘렸을 때의 체감 효율도 바뀐다는 사실을 강조한다. 이는 router가 데이터셋 특이성을 어느 정도 흡수해야 한다는 점, 그리고 인도메인/아웃오브도메인 일반화 문제가 왜 어려운지에 대한 추가 설명이 된다.
Figure 19: 생성 답변 수, unique answer 수, diversity coverage 사이의 관계를 분석해 양적 증가가 곧 질적 coverage로 이어지지 않음을 보여준다
Figure 19는 많은 answer를 생성한다고 해서 곧바로 coverage가 선형적으로 증가하지 않음을 보여준다. 특정 지점 이후에는 중복 답이나 품질 낮은 답이 늘어나기 쉽고, 결국 diversity coverage 개선폭이 둔화된다. 이 분석은 라우팅과 샘플링 예산을 함께 최적화해야 한다는 실무적 시사점을 준다.
Figure 20: 작은 모델이 더 많은 unique answers를 생성하는 경향을 보여주며, diversity와 규모의 관계가 단조롭지 않다는 점을 시사한다
Figure 20은 모델 규모와 diversity의 관계가 단조롭지 않다는 논문의 중요한 메시지를 시각적으로 정리한다. 큰 모델이 항상 더 높은 품질을 주더라도, unique answer 생성 수에서는 작은 모델이 유리할 수 있다. 따라서 diversity coverage를 극대화하려면 모델 크기만으로는 충분하지 않고, 질의와 모델 특성의 상호작용을 반영한 router가 필요하다는 결론으로 자연스럽게 이어진다.
6.4 운영 관점 해석: 무엇을 묻느냐에 따라 어떤 모델이 좋은지가 달라진다
이 논문의 결과를 제품 운영 관점으로 번역하면, 다중 모델 시스템의 핵심 경쟁력은 더 비싼 모델을 하나 추가하는 것이 아니라 질문 유형에 맞는 모델을 고르는 정책이 될 수 있다는 뜻이다. 예를 들어 사용자가 "새로운 사이드 프로젝트 아이디어를 20개 제안해 달라"고 말할 때와, "지금 바로 실행 가능한 상위 3개만 압축해 달라"고 말할 때는 같은 질문 주제라도 필요한 생성 분포가 다르다. 전자는 탐색성, 후자는 정제도가 중요하다. 논문이 보여준 diversity routing은 이 차이를 모델 선택 계층에서 먼저 반영할 수 있음을 시사한다.
검색 보조나 추천 시스템에서도 함의가 크다. 어떤 질의는 이미 답공간이 좁아 하나의 정교한 답이면 충분하지만, 어떤 질의는 사용자가 아직 목표를 정하지 못한 상태라 가능한 옵션의 폭이 중요하다. 후자의 경우 단일 최고 품질 모델보다, 조금 더 넓은 answer space를 여는 모델이 실제 만족도를 더 높일 수 있다. 논문은 이 판단을 사람이 손으로 규칙화하는 대신, 과거 질의-모델 성능 데이터를 이용해 학습형 router로 만들 수 있다는 점을 보인다.
브레인스토밍형 애플리케이션에서는 특히 이 접근이 자연스럽다. 연구 아이디어 발굴, 마케팅 카피 변형, 인터뷰 질문 설계, 데이터 증강용 프롬프트 생성처럼 "한 번에 여러 대안을 보고 싶다"는 요구가 강한 곳에서는, diversity coverage가 단순한 연구 지표를 넘어 실제 효용과 가깝게 연결될 수 있다. 이 경우 top overall model을 고정 호출하는 전략은 답변 톤과 제안 공간을 지나치게 균질화할 위험이 있다. 반면 질의별 router는 모델 풀 내부의 성향 차이를 이용해 더 넓은 탐색 공간을 제공할 수 있다.
에이전트 시스템에서도 유사한 해석이 가능하다. planning 단계에서는 다양한 행동 후보가 중요하고, execution 단계에서는 신뢰도 높은 단일 답이 중요할 수 있다. 이런 상황에서 planning prompt에는 diversity-friendly router를, execution prompt에는 quality-focused router를 적용하는 식의 다단 라우팅이 가능하다. 논문 자체는 이를 직접 다루지 않지만, prompt-dependent routing이라는 결과는 곧 단계별 다른 라우터를 쓰는 시스템 설계가 타당할 수 있음을 의미한다.
다만 운영 측면에서 놓치지 말아야 할 것은 diversity의 가치가 언제나 절대적이지 않다는 점이다. 사용자가 의사결정 피로를 느끼는 환경에서는 후보를 너무 많이 보여주는 것이 오히려 해가 될 수 있다. 그래서 논문의 router를 실제 서비스에 넣을 때는, coverage를 높이는 단계와 최종 표면 노출 후보를 줄이는 단계를 분리하는 편이 안전하다. 먼저 diversity-friendly 모델로 넓은 후보군을 만들고, 이후 중복 제거·품질 필터링·카테고리화로 소수 대표 답을 보여주는 구조가 현실적이다.
또한 비용 구조를 함께 고려하면 논문의 결과는 더 흥미롭다. top overall model이 반드시 가장 비싼 모델일 필요는 없고, 실제로 open-ended diversity에서는 작은 모델이 unique answer 측면에서 강할 수도 있다. 이는 질의에 따라 값비싼 대형 모델만 호출하는 것이 항상 최적이 아님을 뜻한다. diversity routing을 cost-aware routing과 결합하면, 어떤 질문은 소형 모델로도 충분히 넓은 answer space를 얻고, 정말 품질 압축이 필요한 질문에만 더 큰 모델을 쓰는 식의 정교한 정책이 가능해진다.
한편 조직 내부 도구 관점에서는 지식 탐색이나 회의 준비에도 적용 가능하다. 예를 들어 한 주제에 대한 반대 의견, 리스크 시나리오, 대체 전략, 사용자 페르소나별 반응을 폭넓게 보고 싶다면, 같은 모델에서 여러 번 샘플링하는 것보다 질의별로 서로 다른 모델을 고르는 편이 더 다양한 사고 경로를 열어 줄 수 있다. 논문은 이를 정성적으로만 말하지 않고, 실제 coverage 개선 수치로 보여 주었다는 점에서 의미가 있다.
결국 이 절은 논문의 메시지를 하나로 압축한다. 좋은 오픈엔디드 생성 시스템은 가장 좋은 답을 잘하는 모델 하나를 고르는 시스템이 아니라, 사용자가 필요로 하는 답공간의 형태를 읽고 그에 맞는 생성 분포를 골라 주는 시스템에 더 가깝다. 이때 라우터는 단순한 트래픽 분산기가 아니라, 생성 경험의 성격 자체를 바꾸는 정책 계층이 된다.
이 관점은 평가 방식 자체를 바꾼다. 전통적인 벤치마크에서 좋은 시스템은 가장 높은 정답률을 내는 시스템이지만, 오픈엔디드 생성에서는 사용자가 탐색할 수 있는 관점의 수와 구조가 중요해진다. 따라서 미래의 모델 평가도 단일 응답 선호도뿐 아니라, 사용자가 후속 탐색을 얼마나 쉽게 이어갈 수 있는지, 서로 다른 전략이 얼마나 풍부하게 제시되는지, 그 후보군이 실제 의사결정에 얼마나 도움이 되는지까지 포함해야 할 가능성이 높다. 논문이 제안한 diversity coverage는 그 첫 번째 시도 중 하나로 읽을 수 있다.
또한 다중 모델 운영이 점점 일반화되는 현재 환경에서, 이 논문은 모델 선택을 단순한 비용 분기 로직으로 취급하지 말고 경험 설계의 일부로 봐야 한다는 메시지를 준다. 사용자가 마주하는 결과의 폭, 정리 방식, 후속 질문 가능성은 어떤 모델을 선택하느냐에 따라 달라지며, 그 차이는 단순한 톤 차이 이상일 수 있다. 곧 라우터는 백엔드의 숨은 최적화 장치가 아니라, 제품이 제공하는 사고 공간의 범위를 결정하는 레이어가 된다.
이 점에서 diversity routing은 검색 랭킹, 추천 큐레이션, 자동 기획 보조와도 닿아 있다. 모두가 하나의 최고 항목을 내세우는 대신, 사용자에게 유의미하게 다른 후보군을 묶어 제시하는 문제를 안고 있기 때문이다. 논문은 언어모델 answer generation을 대상으로 했지만, 핵심 아이디어는 모델 선택뿐 아니라 retrieval source 선택, tool 선택, planning branch 선택으로도 확장될 수 있다. 따라서 이 작업은 좁게 보면 LLM routing 논문이지만, 넓게 보면 다양한 지능형 시스템이 탐색성과 품질을 함께 다루는 방법에 대한 출발점이다.
마지막으로 이 논문은 오픈엔디드 생성에서 "좋다"의 의미가 단일하지 않다는 점을 다시 상기시킨다. 어떤 상황에서는 품질 한 점이 더 중요하고, 다른 상황에서는 서로 다른 세 점이 더 중요하다. 품질 중심 라우팅만으로는 후자를 포착하기 어렵고, 다양성 중심 라우팅만으로는 전자를 놓칠 수 있다. 따라서 장기적으로는 quality, diversity, latency, cost를 함께 다루는 멀티목적 라우터가 등장할 가능성이 높다. 본 논문은 그중 diversity라는 축을 독립된 일급 목표로 설정했다는 점에서 분명한 의미를 가진다.
7. 한계점 및 향후 연구 방향: prompt-dependent routing과 평가 비용의 문제
논문의 가장 큰 한계는 diversity coverage 계산 자체의 비용이 높다는 점이다. 의미적 동등성 판정과 품질 추정을 모두 포함해야 하므로, 메인 결과를 얻기 위해서는 상당한 자동 평가 파이프라인이 필요하다. 이는 연구용 분석에는 적합하지만, 실제 온라인 시스템에서 실시간으로 coverage를 계산해 라우팅을 보정하는 구조와는 거리가 있다. 따라서 논문이 보여준 router는 오프라인 supervised signal에 의존하며, 온라인 피드백 기반으로 바로 학습되는 구조는 아니다.
두 번째 한계는 prompt dependence다. generate-all로 학습한 라우터는 generate-one이나 generate-two에 잘 일반화되지 않는다. 이는 모델의 다양성 우위가 질의 자체뿐 아니라 프롬프트 형식과 강하게 결합되어 있음을 뜻한다. 따라서 실제 제품에서는 단일 router 하나로 모든 UX를 커버하기 어렵고, 사용 시나리오별·프롬프트별 router를 따로 두거나, 입력에 프롬프트 메타정보를 함께 넣는 방식이 필요할 수 있다.
세 번째는 모델 풀의 범위다. 논문은 공개 모델 18개를 사용했지만, 실제 산업 환경에서는 closed API 모델, reasoning-specialized 모델, domain-specific fine-tuned 모델이 함께 존재할 수 있다. 이때 diversity routing의 효과가 더 커질지, 혹은 특정 API 모델이 지나치게 지배적이 될지는 아직 분명하지 않다. 또한 비용과 latency를 함께 최적화하는 멀티목적 라우팅으로 확장할 경우, diversity coverage만을 위한 router와 다른 설계가 필요할 가능성이 높다.
여기에 더해 평가 지표 자체의 규범성 문제도 남는다. diversity coverage는 분명 기존 지표보다 풍부하지만, 결국 quality reward model과 equivalence classifier의 선택에 영향을 받는다. 어떤 응답을 같은 답으로 볼지, 어떤 품질 점수를 높게 볼지는 평가 파이프라인의 설계 철학을 반영한다. 따라서 향후에는 사람 선호나 실제 downstream utility와 diversity coverage의 상관관계를 더 넓은 환경에서 검증할 필요가 있다. 논문은 현재 수준의 자동 평가가 충분히 유용함을 보여주지만, 지표가 곧 절대적 진실이라고 주장하지는 않는다.
또 하나의 한계는 질의 단위 선택에만 집중하고, 답 집합 구성 단계의 상호작용을 깊게 다루지 않는다는 점이다. 예를 들어 첫 번째 모델이 이미 낸 답을 보고 두 번째 모델이 남은 빈 영역을 채우도록 유도하는 적응적 generation policy가 있다면, diversity coverage를 더 크게 높일 수 있을지도 모른다. 현재 논문의 router는 생성 전에 모델을 고르는 정책이므로, 생성 후 피드백을 반영하는 sequential planning과는 다르다. 이런 차이는 향후 multi-agent generation이나 staged decoding과 연결될 수 있다.
실무적으로는 UI 설계 문제도 남는다. coverage가 높아질수록 사용자가 읽어야 할 후보 수는 늘어나고, 후반 답변의 품질 저하도 더 눈에 띌 수 있다. 따라서 diversity routing을 서비스에 붙일 때는 단순히 더 많은 답을 보여주는 것보다, 후보군을 구조화해 묶거나, 관점별로 대표 답을 골라 보여주거나, 사용자가 탐색 깊이를 조절할 수 있게 만드는 인터페이스가 함께 필요하다. 논문은 모델 선택 계층에 집중하지만, 그 결과를 최종 사용자 경험으로 연결하는 단계는 여전히 열려 있다.
향후 연구 방향으로는 세 가지가 특히 중요해 보인다. 첫째, prompt-aware 또는 task-aware router 설계다. 둘째, top-1 모델 선택이 아니라 질의별 최적 모델 수와 혼합 비율까지 함께 예측하는 richer policy다. 셋째, online interaction data를 통해 사용자의 실제 만족도를 반영하는 reward-aware diversity routing이다. 논문은 이 모든 문제를 해결하지는 않지만, 적어도 "다양성은 모델 선택의 대상이 될 수 있다"는 문제를 분명하게 열어 두었다는 점에서 가치가 있다.
8. 결론: 다양성은 샘플링만이 아니라 라우팅의 문제다
이 논문의 가장 큰 기여는 오픈엔디드 생성에서 diversity를 단순한 temperature 조절이나 샘플 수 확대의 문제로만 보지 않고, 질의별 모델 선택 문제로 끌어올렸다는 데 있다. 18개 LLM 비교를 통해 단일 최고 diversity 모델이 없음을 보였고, 질의별 oracle 선택의 상한이 꽤 높음을 측정했으며, 간단한 MLP router만으로도 top overall baseline을 안정적으로 넘어설 수 있음을 실험으로 확인했다.
특히 NB-WildChat에서 Binary MLP(spec)가 23.8%에서 26.3%로, NB-Curated OOD에서 Binary MLP(agn)가 38.6%에서 40.7%로 coverage를 끌어올린 결과는 의미가 분명하다. 이는 기존 모델을 다시 학습시키지 않고도, 질의 분기 정책만 바꿔 더 넓고 질 좋은 답공간을 회수할 수 있음을 뜻한다. 다중 모델 운영 환경에서 이는 비용 효율적인 업그레이드 포인트가 될 수 있다.
또한 프롬프트 전략, 모델 규모, 데이터셋 분포가 모두 diversity coverage에 영향을 준다는 분석은 중요한 후속 과제를 남긴다. 결국 최적의 오픈엔디드 생성 시스템은 단일 최고 모델을 찾는 시스템이 아니라, 질의 유형과 사용자 의도에 따라 어떤 모델과 어떤 프롬프트가 가장 풍부한 대안을 제공할지 선택하는 시스템에 가까울 가능성이 크다. 이 논문은 그 방향으로 가는 첫 단계로서, 다양성을 품질과 함께 측정하고, 그 목표를 위한 router를 실제로 학습하는 프레임을 제시했다.
정리하면, 이 논문은 오픈엔디드 생성의 평가 단위를 한 문장에서 answer set으로 옮기고, 그 answer set의 품질을 높이는 수단으로 모델 선택 정책을 제안한다. 이는 현재의 LLM 활용 방식에 대한 중요한 수정 제안이다. 우리는 종종 더 큰 모델, 더 긴 컨텍스트, 더 강한 프롬프트만을 생각하지만, 실제로는 어느 모델을 언제 부를지 자체가 결과의 폭을 크게 바꿀 수 있다. 특히 아이디어 탐색이나 후보군 제시가 핵심인 워크플로에서는 이 차이가 더욱 직접적으로 체감될 가능성이 높다.
또한 이 연구는 다중 모델 시대의 운영 철학을 바꾸는 단서가 된다. 여러 모델을 보유하는 이유가 단지 비용 계층을 만들기 위해서가 아니라, 서로 다른 생성 성향을 활용해 더 나은 사용자 경험을 설계하기 위해서일 수 있다는 것이다. 그런 의미에서 router는 백엔드 최적화 모듈이 아니라, 모델 다양성을 사용자 가치로 번역하는 인터페이스 역할을 한다. 본 논문은 그 가능성을 정량적 실험으로 보여주었다는 점에서 충분히 주목할 만하다.
만약 앞으로의 LLM 시스템이 하나의 초거대 모델로 수렴하기보다, 목적이 다른 여러 모델과 여러 도구가 협업하는 방향으로 발전한다면, 이 논문의 문제의식은 더 중요해질 것이다. 그 환경에서는 "어느 모델이 가장 똑똑한가"보다 "지금 이 과제의 다음 단계를 가장 풍부하게 열어 줄 모델은 무엇인가"가 핵심 질문이 된다. diversity routing은 바로 그 질문에 대한 초기 해답이며, 생성형 AI가 단일 답 제공에서 대안 공간 설계로 이동할 때 반드시 다시 호출될 아이디어다.
같은 맥락에서 이 논문은 모델 평가와 제품 설계 사이의 거리를 좁힌다. 많은 논문이 벤치마크 숫자를 높이는 데 집중하지만, 여기서는 그 숫자가 곧 사용자 경험의 폭과 연결된다. 사용자가 하나의 답에 갇히지 않고 다음 질문을 떠올릴 수 있게 만드는 것, 서로 다른 방향의 후보를 비교하며 사고를 확장할 수 있게 만드는 것, 그리고 그 과정에서 불필요한 비용을 줄이는 것이 모두 하나의 라우팅 문제로 묶인다. 이런 시각은 앞으로의 생성형 시스템이 단순 응답 엔진을 넘어 탐색형 인터페이스로 진화할 때 더욱 중요해질 가능성이 높다.
결국 본 논문이 남기는 가장 실질적인 메시지는 명확하다. 오픈엔디드 생성에서 품질 좋은 하나의 답만 최적화하는 시대를 지나, 사용자에게 어떤 사고 공간을 열어 줄 것인가를 최적화하는 시대로 가고 있다는 것이다. 그 변화 속에서 router는 단순한 배경 인프라가 아니라, 모델 다양성을 의도적으로 조합해 더 나은 탐색 경험을 설계하는 핵심 모듈이 된다. 이 점 때문에 논문은 수치 자체보다도, 앞으로 어떤 생성형 제품을 만들 것인가에 대한 질문을 던지는 연구로 읽을 가치가 크다.
따라서 이 논문을 한 줄로 요약하면, "최고의 모델을 찾는 문제를 넘어, 가장 풍부한 가능성을 여는 모델을 고르는 문제로 시선을 옮긴 연구"라고 할 수 있다. 오픈엔디드 생성이 점점 더 많은 실제 서비스에 들어갈수록 이 전환은 더 자주 중요해질 것이다.
그 점에서 이 논문은 단순한 routing 논문이 아니라, 생성형 AI의 사용 맥락이 정답 산출에서 선택지 설계로 이동하고 있음을 보여주는 징후로도 읽힌다. 앞으로 더 많은 시스템이 여러 모델과 도구를 함께 운용하게 될수록, 이런 관점은 기술적 선택을 넘어 제품 전략의 문제로 이어질 가능성이 높다.
요컨대 이 연구는 오픈엔디드 생성에서 모델 다양성을 비용이 아니라 자산으로 보는 시각을 제안한다. 그리고 그 자산을 실제 사용자 가치로 바꾸는 방법이 바로 router라는 점을 설득력 있게 보여준다.
이 때문에 본 논문은 단기적으로는 다중 모델 서비스의 운영 힌트를, 장기적으로는 생성형 AI가 사용자와 상호작용하는 방식을 재설계할 실마리를 동시에 제공한다고 볼 수 있다.
그리고 바로 그 점이, 이 논문을 단순한 성능 비교보다 한 단계 더 넓은 문제제기로 읽게 만드는 이유다.
질의별 모델 선택이 다양성까지 바꾼다는 사실은, 앞으로의 생성형 시스템 설계에서 결코 가볍게 넘길 수 없는 관찰이다.
이 논문은 그 변화를 수치와 구조 양쪽에서 동시에 보여준다.
그래서 지금 읽어 둘 가치가 충분하다.
특히 다중 모델 환경이라면 더 그렇다.
실전성이 높은 논문이다.
아이디어도 분명하다.
문제의식도 선명하다.
응용 폭도 넓다.
확장성도 크다.
의미도 분명하다.
시의성도 있다.
지금 필요한 시도다.
주목할 만하다.
흥미롭다.
유용하다.
9. 요약 정리: 오픈엔디드 생성에서 읽어야 할 핵심 포인트
- 논문은 오픈엔디드 질문에서 단일 최고 모델이 아니라 질의별 최적 diversity 모델이 따로 존재할 수 있음을 보여준다.
- diversity coverage는 고유 답 집합의 품질 합을 이상적 최대값으로 정규화한 지표로, 다양성과 품질을 함께 반영한다.
- NB-Curated와 NB-WildChat 같은 open-ended 데이터셋에서는 top overall model과 질의별 oracle model 사이의 간극이 크다.
- NB-WildChat에서 Binary MLP(spec) router는 top overall 23.8%를 26.3%로 끌어올린다.
- NB-Curated OOD에서는 Binary MLP(agn)가 40.7%로 가장 안정적인 일반화 성능을 보인다.
- router는 top-1 분기기뿐 아니라 top-2 모델 ranking 모듈로도 확장 가능하며, query-specific top-2가 고정 top-2보다 낫다.
- Generate-all 프롬프트는 coverage를 가장 잘 올리지만, 개별 answer quality와 길이를 희생할 수 있다.
- 작은 모델이 더 많은 unique answers를 내고 큰 모델이 더 높은 품질을 보이는 경향이 공존해, diversity와 모델 크기 관계는 단조롭지 않다.
- 실무적으로 이 논문은 다중 모델 운영 환경에서 다양성을 높이기 위한 수단이 단순 샘플링이 아니라 라우팅 정책 설계가 될 수 있음을 시사한다.