[논문 리뷰]/[최신 논문]

[arXiv 2604.13016] 온폴리시 증류 재해석: 생각 패턴 정합성과 새 지식이 가르는 LLM 후학습의 성패

연구소장 마농 2026. 4. 15. 14:35

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

https://arxiv.org/abs/2604.13016 | Code

Yaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding | Tsinghua University, ShanghaiTech University, University of Illinois Urbana-Champaign, Renmin University of China | arXiv:2604.13016 | 2026년 4월


1. 서론: 왜 어떤 OPD는 강한 teacher로도 실패하고, 어떤 OPD는 작은 teacher로도 통하는가

온폴리시 증류(On-Policy Distillation, OPD)는 학생 모델이 직접 생성한 응답 궤적 위에서 teacher의 per-token log-probability를 밀도 높은 학습 신호처럼 활용하는 후학습 기법이다. 논문은 이 방식이 단순한 변형이 아니라, 학생이 실제로 방문하는 상태(student-visited states)에서 teacher 분포를 맞추도록 설계된 점에서 기존 off-policy distillation과 다르다고 정리한다. 실제로 산업계에서는 Qwen3, MiMo, GLM-5 같은 계열이 이미 OPD를 채택했고, Thinking Machines Lab도 더 적은 RL 계산량으로 유사한 recipe를 재현했다고 저자들은 배경을 정리한다. 그만큼 OPD는 이제 한두 편의 실험적 제안이 아니라, LLM post-training의 실무 선택지로 올라온 상태라고 보는 편이 정확하다.

하지만 논문이 출발하는 질문은 성능 자랑이 아니라 실패 조건의 해부에 가깝다. 저자들은 더 강한 teacher가 항상 더 좋은 증류 결과를 만드는 것이 아니라, 때로는 약한 teacher가 학생을 개선하는데도 더 큰 teacher는 전혀 개선을 주지 못하는 현상이 나타난다고 보고한다. 이 불일치는 단순히 benchmark score만 보고 teacher를 고르는 관행이 충분하지 않다는 뜻이다. 결국 문제는 teacher가 얼마나 똑똑한가가 아니라, 그 지식을 학생이 자기 궤적 위에서 실제 gradient로 활용할 수 있는가로 이동한다.

이 논문은 그 조건을 두 가지로 압축한다. 첫째는 thinking-pattern consistency로, 학생과 teacher가 유사한 토큰 전개 습관과 후보 토큰 공간을 공유해야 teacher의 token-level 신호가 학생에게 실제로 읽힌다는 주장이다. 둘째는 genuinely new knowledge로, teacher가 학생이 이미 본 데이터와 동일한 recipe의 더 큰 버전이 아니라 학생에게 아직 없는 능력을 주어야 OPD가 의미 있는 이득을 낼 수 있다는 주장이다. 논문 전체는 사실상 이 두 조건을 현상학, 메커니즘, 실전 recipe의 세 층위에서 반복 검증하는 구조로 짜여 있다.

저자들이 던지는 핵심 메시지는 매우 실용적이다. OPD는 dense token-level supervision을 제공하므로 얼핏 보면 outcome reward를 쓰는 RL보다 항상 더 안정적일 것처럼 보인다. 그러나 논문은 밀도 높은 supervision이 곧바로 좋은 optimization geometry를 뜻하지는 않는다는 반례를 제시한다. 다시 말해 teacher가 각 토큰에 대해 많은 정보를 주더라도, 그 정보가 학생의 현재 정책 근처에서 겹치는 고확률 영역에 놓이지 않으면 학습은 매우 쉽게 멈추거나 엉뚱한 방향으로 흐를 수 있다.

이 글에서는 논문이 정리한 사실들을 한국어로 다시 풀어 쓰되, 세 가지 질문에 집중해 보려 한다. 무엇이 OPD의 성공 조건인가, 그 조건이 토큰 수준에서 어떻게 관측되는가, 그리고 실패하는 경우를 어떻게 구조적으로 복구할 수 있는가가 그것이다. 결론부터 말하면 이 논문은 OPD를 “teacher 점수만 높이면 통하는 후학습”으로 보지 않는다. 오히려 학생이 이미 가고 있는 사고 궤도와 teacher가 제공하는 새 정보의 교집합이 있어야만 dense reward가 의미를 가진다는 점을 보여 준다.

Paper overview teaser

개요 그림. 논문 전체를 현상학, 메커니즘, practical recipe 세 축으로 나눈 overview teaser.

이 teaser는 논문이 단순히 실험 결과 몇 개를 나열하는 구조가 아니라는 점을 한 번에 보여 준다. 왼쪽 축은 어떤 teacher가 왜 먹히고 왜 안 먹히는지를 밝히는 phenomenology이고, 가운데 축은 그 차이가 student-visited state에서의 high-probability token alignment로 어떻게 관측되는지를 설명하는 mechanism이며, 오른쪽 축은 실패하는 OPD를 실제로 구하는 recipe다. 구조적으로 보면 이 논문은 한 편의 알고리즘 제안서라기보다, 이미 현업에 들어온 OPD를 대상으로 한 운영 매뉴얼에 가까운 분석 논문이라고 부르는 편이 더 정확하다.

이 구성은 글을 읽는 순서에도 의미를 준다. 저자들은 먼저 특정 teacher가 왜 잘 되는지를 성능 곡선으로 확인하고, 이어서 그 차이가 overlap ratio와 entropy gap 같은 token-level 지표로 재현되는지 본 뒤, 마지막으로 cold start와 prompt alignment처럼 실제로 손댈 수 있는 레버를 제시한다. 즉 논문은 “좋은 teacher를 찾아라”라는 당연한 결론으로 끝나지 않고, 좋은 teacher를 고르는 기준과, 좋지 않은 teacher를 어느 정도 살릴 수 있는 방법까지 이어진다. 이 점이 OPD를 실제 후학습 파이프라인에 넣으려는 팀에게 특히 유용하다.

  • 현상학에서는 더 강한 teacher가 항상 더 나은 증류를 만들지 않는다는 실패 패턴을 먼저 확인한다.
  • 메커니즘에서는 성공적인 OPD가 high-probability token overlap의 점진적 증가로 나타난다고 정리한다.
  • 레시피에서는 off-policy cold start와 teacher-aligned prompts가 왜 실패한 OPD를 다시 살리는지 설명한다.
  • 한계 분석에서는 long-horizon에서 dense reward의 신뢰도가 무너질 수 있음을 길이 실험과 entropy heatmap으로 보여 준다.

2. 배경 및 관련 연구: reverse KL, exposure bias, 그리고 OPD가 서 있는 자리

2.1 학생 궤적 위에서 teacher를 읽는다는 것의 의미

기존 off-policy distillation은 teacher가 미리 생성한 정답 시퀀스나 soft target을 학생이 따라가도록 학습시키는 방식이 많았다. 이런 구조는 구현이 간단하지만, 학습 시점의 분포와 추론 시점의 분포가 다르다는 exposure bias를 피하기 어렵다. 학생은 teacher가 만든 prefix를 보고 다음 토큰을 맞추는 법을 배우지만, 실제 추론에서는 자신의 prefix 위에서 계속 생성해야 하기 때문이다. 논문은 OPD의 가장 직접적인 장점을 바로 여기서 찾는다. 학생이 자기 rollout을 만들고, teacher는 그 rollout의 각 위치에서 다음 토큰 분포를 제공하므로, supervision이 학생이 실제로 방문하는 상태에 놓인다.

이 점은 sequence-level 지식전달과 policy optimization의 경계를 흐린다. 논문이 인용하는 MiniLLM, GKD, 최근의 dense KL-constrained RL 해석은 모두 언어모델 distillation을 사실상 정책 최적화 문제로 다시 읽는 흐름에 속한다. 특히 reverse KL은 mode-seeking 성향 때문에 teacher가 낮게 보는 영역에 학생이 과하게 질량을 퍼뜨리는 것을 억제한다. 따라서 OPD는 “teacher를 흉내 내는 supervised learning”이면서도 동시에 “teacher가 선호하는 토큰 질량으로 학생 정책을 이동시키는 policy update”라는 이중 성격을 가진다.

이 연구가 흥미로운 이유는, 기존 literature가 대체로 OPD가 왜 좋은가에 집중한 반면 이 논문은 언제 깨지는가를 먼저 묻기 때문이다. 이미 업계 적용 사례가 늘고 있기 때문에, 이제 필요한 것은 새로운 성공 사례 한두 개가 아니라 teacher 선택과 데이터 설계의 실패 원인 분석이다. 저자들은 강한 teacher와 약한 teacher의 순위를 다시 매기지 않는다. 대신 학생 기준에서 두 teacher가 얼마나 분포적으로 접근 가능한 생각 패턴을 제공하는지, 그리고 그 teacher가 학생이 아직 못 갖고 있는 새 능력을 실제로 제공하는지를 본다.

2.2 OPD와 관련 연구: RLHF, DPO, capacity gap 논의와의 연결

관련 연구 측면에서 보면, 이 논문은 RLHF와 DPO 사이의 어딘가에 위치한 문제를 다룬다. RLHF는 sparse outcome reward를 통해 정책을 업데이트하고, DPO는 offline preference pair를 재사용해 상대적 선호를 직접 학습 표면으로 바꿨다. 반면 OPD는 teacher가 제공하는 token-level 분포 차이를 dense reward로 사용하면서도, 보상이 학생 rollout 위에서 계산된다는 점에서 online 정책 학습의 성격을 유지한다. 그래서 이 논문은 dense supervision이 항상 더 쉬운 gradient를 준다는 낙관을 깨고, token-level reward 역시 생각 패턴 정합성 없이는 효과를 잃는다고 주장한다.

저자들은 또한 기존의 capacity gap 논의와도 거리를 둔다. distillation literature에서는 너무 강한 teacher가 오히려 학생에게 해롭다는 관찰이 오래 있었지만, 그 설명은 대개 모델 크기 차이 자체나 출력 복잡성에 놓여 있었다. 이 논문은 크기 차이보다 더 직접적인 변수로 초기 overlap ratioteacher가 주는 새 지식의 유무를 제시한다. 즉 동일 family에서 1.5B와 7B teacher가 학생 관점에서는 거의 같은 방향의 분포를 강제할 수 있고, 반대로 benchmark가 비슷해도 GRPO teacher가 non-thinking teacher보다 훨씬 잘 증류될 수 있다는 식이다. 이 재정의는 “teacher가 얼마나 큰가”보다 “teacher가 학생이 현재 고확률로 고려하는 토큰 집합과 얼마나 맞물리는가”를 더 중요한 설명 변수로 만든다.

이 배경을 정리하면 논문의 문제 설정은 다음처럼 요약된다. OPD는 왜 exposure bias를 줄이면서도 때로는 매우 취약한가, dense reward는 왜 때로는 gradient를 만들지 못하는가, teacher의 높은 benchmark가 왜 student 관점의 유효한 supervision으로 바로 환원되지 않는가가 핵심 질문이다. 이후 방법론과 실험은 이 질문을 모두 student-visited state에서의 token alignment dynamics라는 관측 가능한 틀로 바꾸어 해석한다.

3. 방법론: reverse KL 분해와 dynamic metric으로 OPD를 읽는 방법

3.1 OPD의 기본 정의와 sequence-level reverse KL 분해

논문은 먼저 입력 프롬프트를 \(x\), 학생이 생성한 응답을 \(\hat y = (\hat y_1, \ldots, \hat y_T)\)로 둔다. 학생 정책은 \(\pi_\theta\), teacher는 \(\pi_T\)이며, 각 시점 \(t\)에서 학생 prefix \(\hat y_{<t}\) 위의 다음 토큰 분포를 각각 \(p_t(v) = \pi_\theta(v \mid x, \hat y_{<t})\), \(q_t(v) = \pi_T(v \mid x, \hat y_{<t})\)로 정의한다. 이때 OPD의 핵심 목적은 학생 rollout 위에서 teacher 분포에 대한 sequence-level reverse KL을 줄이는 것이다. 논문은 이 목적이 실제 계산에서 token-level KL 합으로 정확히 분해된다는 점을 출발점으로 삼는다.

$$ \mathcal{L}_{\mathrm{OPD}} = \mathbb{E}_{x,\;\hat y \sim \pi_\theta(\cdot \mid x)}\left[\sum_{t=1}^{T} D_{\mathrm{KL}}(p_t \| q_t)\right] $$

이 식의 의미는 단순하다. 학생은 teacher가 실제로 갈 경로를 따라가는 것이 아니라, 자기가 선택한 경로 위에서 teacher의 다음 토큰 분포를 계속 조회한다. 따라서 teacher가 아무리 좋은 모델이어도 학생이 방문한 상태에서 teacher 분포가 학생의 현재 후보 공간과 너무 다르면 학습 신호가 얕아질 수 있다. 저자들이 이후 실험에서 repeatedly 보는 것도 바로 이 지점이다. OPD의 성공 여부는 teacher 점수 자체보다, 학생 rollout 위에서 두 분포가 고확률 토큰 수준으로 점점 겹쳐지는가에 달려 있다.

reverse KL을 택한 이유도 메커니즘과 연결된다. \(D_{\mathrm{KL}}(p_t \| q_t)\)는 학생이 teacher가 거의 주지 않는 토큰들에 질량을 두는 것을 강하게 벌한다는 점에서 mode-seeking 성격을 가진다. 이 때문에 OPD가 성공하는 경우에는 학생이 teacher의 support region 안으로 들어가고 또 그 안에서 질량을 재배치하는 과정이 나타난다. 반대로 초기부터 support 자체가 어긋나 있으면, reverse KL은 그 어긋남을 넓게 탐색해 해결하기보다 이미 겹치는 좁은 부분에서만 신호를 강화하려 하므로 학습이 막힐 수 있다.

3.2 sampled-token, full-vocabulary, top-k OPD의 차이

논문은 실전 구현에서 OPD가 항상 같은 형태로 계산되지 않는다고 분명히 적는다. 가장 가벼운 형태는 sampled-token OPD로, 학생이 실제로 뽑은 토큰 하나만 평가해 teacher와의 로그확률 차이를 loss에 넣는다. 반대로 가장 밀도 높은 형태는 full-vocabulary OPD로, 각 위치의 전체 vocabulary 분포에 대해 KL을 계산한다. 그 사이 절충안이 top-k OPD이며, 이 논문은 기본적으로 학생의 top-\(k\) 토큰 집합을 뽑고 그 안에서 teacher와 student를 renormalize해서 KL을 계산하는 Student Top-k 설계를 중심으로 분석한다.

sampled-token 방식은 계산량이 작고 unbiased estimator라는 이점이 있다. 학생이 뽑은 토큰 \(\hat y_t\)에 대해 \(\ell_t^{\mathrm{sample}} = \log p_t(\hat y_t) - \log q_t(\hat y_t)\)를 사용하면, 그 기대값이 token-level reverse KL과 일치한다. full-vocabulary 방식은 더 조밀한 gradient를 주지만 메모리와 teacher query 비용이 크다. top-k 방식은 학생이 실제로 높은 확률을 둔 영역만 남기므로, 계산 비용을 크게 낮추면서도 학생의 행동 결정에 실제로 중요한 support를 유지하려는 설계라고 볼 수 있다.

이 구분은 단순한 엔지니어링 세부사항이 아니다. 논문 후반부의 실험은 support size를 무한히 키운다고 반드시 더 좋은 OPD가 되는 것은 아님을 보여 준다. 오히려 sampled-token이 top-k 평균과 비슷한 성능을 보이고, Top-1만 유독 불안정하다는 결과는 핵심이 “토큰 수를 많이 보느냐”가 아니라 “teacher가 의미 있는 신호를 주는 고확률 영역을 얼마나 편향 없이 커버하느냐”에 있음을 시사한다.

Table 1. 이 표는 sampled-token, full-vocabulary, top-k OPD가 무엇을 다르게 계산하는지 한눈에 정리한다. 논문은 세 방법을 경쟁 관계의 알고리즘이라기보다, 같은 reverse KL 목적을 서로 다른 밀도와 비용으로 근사하는 구현 스펙트럼으로 본다. 따라서 표를 볼 때는 어느 방식이 절대적으로 우월한가보다, 어떤 방식이 학생의 고확률 support를 가장 효율적으로 포착하는가에 초점을 두는 편이 맞다.

변형 핵심 계산 장점 한계
Sampled-token OPD 학생이 샘플한 토큰 \(\hat y_t\) 하나에 대해 \(\log p_t(\hat y_t)-\log q_t(\hat y_t)\) 계산 가볍고 unbiased estimator로 해석 가능 단일 샘플의 분산이 존재하며 Top-1류의 편향 선택과는 다름
Full-vocabulary OPD 각 prefix에서 전체 vocabulary에 대한 \(D_{\mathrm{KL}}(p_t\|q_t)\) 계산 가장 조밀한 gradient와 정확한 token-level reverse KL 메모리와 teacher query 비용이 큼
Top-k OPD 학생 top-\(k\) 토큰 집합 \(S_t\) 위에서 student와 teacher를 renormalize해 subset KL 계산 중요한 고확률 영역을 남기면서 비용 절감 \(k\) 선택과 support 구성에 따라 근사 오차 존재

표에서 핵심은 세 방식이 서로 다른 목표를 푸는 것이 아니라, 같은 reverse KL 목적을 서로 다른 밀도로 근사한다는 점이다. 이 논문은 어떤 근사가 더 본질적인지를 고확률 토큰 overlap 관점에서 다시 읽는다. 그 결과, 나중에 보게 되듯 overlap 영역이 충분히 잡히면 full support가 없어도 성능이 거의 유지되며, 반대로 Top-1처럼 특정 모드에 지나치게 매달리면 학습이 불안정해진다. 즉 OPD의 계산 granularity 문제도 결국 support alignment 문제로 돌아온다.

3.3 dynamic metrics: overlap ratio, overlap-token advantage, entropy gap

논문이 특히 유용한 이유는 OPD를 단순히 최종 accuracy로만 읽지 않고, 학습 중 분포 변화 자체를 추적하는 동적 지표를 제안했기 때문이다. 가장 핵심은 학생과 teacher의 top-\(k\) 토큰 집합이 얼마나 겹치는지 보는 overlap ratio다. 학생 top-\(k\) 집합을 \(S_t^{(p)}\), teacher top-\(k\) 집합을 \(S_t^{(q)}\)라 할 때, 논문은 이를 \(\mathbb{E}_t[|S_t^{(p)} \cap S_t^{(q)}| / k]\)로 정의한다. 이 값이 낮으면 학생이 보는 고확률 후보 토큰 공간이 teacher와 구조적으로 어긋나 있다는 뜻이고, 높아지면 학생이 teacher support 영역을 찾고 있다는 뜻이다.

둘째 지표는 overlap-token advantage다. 이는 겹치는 토큰들만 남긴 renormalized 분포 안에서 학생과 teacher의 로그확률 차이를 가중 평균한 값으로, 겹침 자체뿐 아니라 겹치는 영역 안에서 질량이 얼마나 teacher 쪽으로 정렬되는지를 본다. 논문은 이 값이 0에 가까워질수록 학생이 teacher가 선호하는 토큰에 적절한 confidence를 주고 있다는 해석을 제시한다. 셋째는 entropy gap으로, 동일한 학생 prefix 위에서 두 모델의 엔트로피 차이 \(\Delta H_t = |H(q_t)-H(p_t)|\)를 본다. 이는 어떤 상태에서 teacher가 매우 날카롭고 학생이 퍼져 있거나, 반대로 teacher가 불확실한데 학생이 과신하는 경우를 모두 잡아내는 지표다.

이 세 지표를 함께 보면 논문이 주장하는 성공 signature가 완성된다. 성공적인 OPD는 학생 rollout 위에서 overlap ratio가 꾸준히 증가하고, overlap-token advantage가 0 쪽으로 개선되며, entropy gap이 줄어드는 형태로 나타난다. 논문은 이를 “학생이 teacher의 고확률 영역을 점진적으로 찾아 들어가고, 그 안에서 질량을 다시 배치하며, teacher의 uncertainty profile까지 닮아가는 과정”으로 해석한다. 반대로 실패 run은 세 지표가 초반부터 정체되거나 불안정하게 출렁이며, 그 결과 dense token-level reward가 있어도 실질적인 교정 신호로 이어지지 않는다.

Table 2. 이 표는 논문이 OPD의 성공과 실패를 어떤 렌즈로 읽는지 정리한 것이다. 최종 accuracy만 보면 teacher 선택 실수가 뒤늦게 드러나지만, overlap ratio와 entropy gap을 함께 보면 실패가 초반부터 보인다는 것이 저자들의 주장이다. 따라서 아래 표는 단순 정의 목록이 아니라, 이후 실험 전부를 해석하는 공통 계기판 역할을 한다.

지표 정의 높거나 낮을 때의 해석
Overlap ratio \(\mathbb{E}_t[|S_t^{(p)} \cap S_t^{(q)}| / k]\) 높을수록 학생이 teacher의 high-probability support를 찾고 있다는 뜻
Overlap-token advantage 겹치는 토큰에 한정한 renormalized 분포에서의 teacher-student 로그확률 차이 평균 0에 가까울수록 겹침 내부 질량 배치가 teacher와 잘 맞음
Entropy gap \(\Delta H_t = |H(q_t) - H(p_t)|\) 낮을수록 동일 상태에서 confidence와 diversity profile이 유사함

이 논문이 좋은 이유는 이 지표들이 단지 보기 좋은 진단 도구에 그치지 않는다는 데 있다. 이후 ablation은 overlap set만 학습해도 거의 동일한 성능이 나온다는 점을 보여 주고, cold start나 teacher-aligned prompt가 실제로 이 지표들을 좋은 방향으로 움직인다는 점을 보인다. 즉 overlap ratio와 entropy gap은 단순 관찰값이 아니라, 어떤 설계가 OPD의 gradient를 살리는지 판단하는 실전 지표로 제안된다.

4. 실험 설정: 수학 벤치마크, 하이퍼파라미터, 그리고 비교 대상

4.1 데이터셋 및 벤치마크

논문은 실험 영역을 수학 추론 post-training에 집중한다. 기본 OPD 데이터셋으로는 DAPO-Math-17K를 사용하고, 평가는 AIME 2024, AIME 2025, AMC 2023 세 벤치마크에서 수행한다. 한 문제당 16개의 해를 샘플링해 평균 정확도를 계산하는 avg@16가 주 지표다. 이는 단일 greedy score보다 reasoning model의 실제 샘플 품질과 안정성을 더 잘 반영하려는 선택으로 볼 수 있다.

평가 디코딩 설정도 논문이 명시한다. validation 시에는 temperature 0.7, top-p 0.95를 사용하고, 최대 validation response length는 31,744 tokens다. 긴 응답을 허용하는 이유는 단순한 짧은 풀이만 보지 않고 reasoning trace가 충분히 뻗어나가는 상태에서 teacher와 student의 행동 차이를 보려는 의도와 연결된다. 이처럼 evaluation budget이 넉넉하다는 점은 OPD의 장단점을 짧은 디코딩에서만 측정한 것이 아니라는 의미도 있다.

cold-start 실험에서는 OpenThoughts3-1.2M의 수학 subset에서 200K 프롬프트를 샘플링해 teacher rollout을 만들고, prompt-content alignment 실험에서는 DAPO-Math-17K와 teacher post-training 데이터에 더 가까운 subset을 비교한다. 따라서 논문의 비교는 단순히 모델 쌍만 바꾸는 것이 아니라, teacher와 student가 어떤 prompt distribution 위에서 만나는가도 실험 설계의 핵심 변수로 다뤄진다.

4.2 구현 세부사항

기본 OPD 설정은 비교적 단순하게 고정된다. 저자들이 appendix에서 제시한 default OPD hyperparameter는 global batch size 64, rollout number 4, LogProb top-K 16, Student Top-K strategy, max prompt length 1024, max response length 7168, learning rate 1e-6, epoch 1, KL coefficient 0.0다. 즉 논문은 과도한 복합 tuning보다 teacher와 prompt 조건의 차이가 어떻게 dynamics를 바꾸는지 보려는 방향으로 설계되어 있다.

GRPO teacher를 만드는 설정도 appendix에 명시되어 있다. Qwen3-4B-Base에서 시작해 rollout n=8, train batch 64, max response 7168, validation max response 31,744, learning rate 1e-6, KL regularization 0.0으로 학습한다. 이 teacher는 단순히 더 큰 base model이 아니라, thinking pattern이 base student와 더 호환적일 수 있는 RL post-trained teacher라는 점에서 실험의 핵심 대조군 역할을 한다.

cold-start SFT 설정 역시 중요하다. Qwen3-4B non-thinking teacher가 생성한 200K 샘플을 이용해 Qwen3-1.7B-Base를 full-parameter SFT로 학습하며, sequence length 14,336, per-device batch size 8, learning rate 1e-5, cosine scheduler, warmup ratio 0.05, BF16를 사용한다. 논문은 이 단계를 단순 warmup이 아니라, teacher의 token-level reward가 학생에게 읽히도록 초기 support를 가까이 맞추는 분포 이동 단계로 해석한다.

Table 3. 기본 OPD 설정은 이 논문의 비교를 공정하게 만드는 기준선이다. 저자들은 teacher 교체나 prompt 정렬 효과를 보려 했기 때문에, batch와 rollout 같은 학습 budget은 가능한 한 고정한다. 아래 표를 보면 논문의 주장이 과한 hyperparameter search가 아니라 teacher-student 관계의 차이에서 나온다는 점을 확인할 수 있다.

항목
Training temperature 1.0
Global batch size 64
Mini batch size 64
Rollout number 4
LogProb top-K 16
Top-K strategy Student Top-K
Top-p 1.0
Max prompt length 1024
Max response length 7168
Learning rate 1e-6
Epoch 1
KL coefficient 0.0

Table 4. 이 표는 thinking-pattern consistency 실험에서 중요한 역할을 한 GRPO teacher가 어떤 예산으로 만들어졌는지 보여 준다. 여기서 중요한 점은 teacher가 무한히 오래 학습된 특별한 모델이 아니라, 비교적 단순한 GRPO 설정으로 만들어졌다는 사실이다. 따라서 이후 결과는 복잡한 teacher engineering보다는 RL post-training이 만든 policy style 변화에서 나온 효과로 해석하는 편이 적절하다.

항목
Base model Qwen3-4B-Base
RL algorithm GRPO
Training epochs 1
Train batch size 64
Micro batch size 64
Rollout n 8
Maximum prompt length 1,024
Maximum response length 7,168
Validation max response length 31,744
Learning rate 1e-6
Temperature / Top-p 1.0 / 1.0
Loss aggregation / KL token-mean / 0.0

Table 5. cold-start SFT는 단순한 예열 단계가 아니라, teacher 신호가 학생에게 읽히도록 분포를 미리 이동시키는 단계다. 그래서 이 설정은 OPD 본체만큼이나 중요하다. 아래 표를 보면 긴 sequence length와 비교적 큰 teacher rollout 코퍼스가 초기 overlap을 얼마나 의도적으로 끌어올리려 했는지 읽을 수 있다.

항목
Student model Qwen3-1.7B-Base
Training objective Full-parameter SFT
Teacher rollout prompts OpenThoughts math subset 200K
Sequence length 14,336
Per-device batch size 8
Gradient accumulation 1
Learning rate 1e-5
LR scheduler Cosine
Warmup ratio 0.05
Precision BF16

4.3 베이스라인

논문은 베이스라인을 단일 수치 비교가 아니라 대조적 teacher-student 쌍 설계로 만든다. thinking-pattern consistency를 볼 때는 Qwen3-1.7B-Base 학생에 대해 Qwen3-4B Non-thinkingQwen3-4B-Base-GRPO를 비교한다. new knowledge 가설을 볼 때는 DeepSeek family에서 R1-Distill-1.5B vs R1-Distill-7B / Skywork-OR1-Math-7B, Qwen family에서 Qwen3-1.7B Non-thinking vs Qwen3-4B / Qwen3-4B-Non-Thinking-RL-Math를 비교한다. reverse distillation에서는 JustRL-1.5B를 학생으로 두고 자신의 pre-RL checkpoint인 R1-Distill-1.5B와 같은 family의 7B teacher를 다시 teacher로 올린다.

이 구성의 장점은 teacher 점수, model size, post-training 여부, prompt alignment를 각기 따로 교차 검증할 수 있다는 점이다. 예를 들어 benchmark가 비슷한데 thinking pattern이 더 잘 맞는 teacher가 OPD에서 이기거나, 더 높은 benchmark를 가진 same-family teacher가 새 지식이 없기 때문에 전혀 이득을 주지 못하는 상황을 분리해 볼 수 있다. 그래서 이 논문은 “baseline A가 baseline B보다 몇 점 높다”는 형태보다, 어떤 조건에서 teacher 신호가 student rollout 위에서 실제로 살아나는가를 더 설득력 있게 보여 준다.

Table 6. 아래 비교표는 논문 실험이 단순 teacher A/B 교체가 아니라, 각 실험이 서로 다른 가설을 겨냥하도록 설계되어 있다는 점을 보여 준다. 읽을 때 중요한 것은 student와 teacher 이름 자체보다, 각 비교가 thinking-pattern consistency, new knowledge, data-side alignment, long-horizon reliability 중 무엇을 검증하기 위한 것인지다. 이 표를 먼저 머릿속에 넣어 두면 이후 결과 섹션이 왜 같은 모델 가족을 여러 번 되풀이하는지 훨씬 쉽게 이해된다.

실험 블록 학생 teacher 비교축 검증하려는 가설
Thinking-pattern consistency Qwen3-1.7B-Base Qwen3-4B Non-thinking vs Qwen3-4B-Base-GRPO 비슷한 점수라도 초기 overlap이 높은 teacher가 더 잘 증류되는지 확인
New knowledge R1-Distill-1.5B / Qwen3-1.7B Non-thinking same-pipeline teacher vs RL post-trained teacher 더 큰 score보다 teacher가 새 능력을 제공하는지가 더 중요한지 검증
Reverse distillation JustRL-1.5B R1-Distill-1.5B vs R1-Distill-7B same-family 고점수 teacher도 새 지식이 없으면 학생을 regression시킬 수 있는지 확인
Cold start Qwen3-1.7B-Base / Qwen3-1.7B-SFT teacher rollout SFT 유무 초기 support를 맞춰 두면 OPD 신호가 더 잘 읽히는지 검증
Prompt alignment R1-Distill-1.5B / Qwen3-1.7B-Base template alignment, content alignment teacher가 익숙한 입력 표면이 overlap과 entropy에 어떤 영향을 주는지 확인
Long-horizon discussion R1-Distill-1.5B 응답 길이 0.5K~15K, prefix continuation depth dense reward가 길어질수록 reliability를 잃는지와 collapse 시작 위치를 검증

이 표를 보면 저자들의 실험 철학이 더 분명해진다. 논문은 한 번의 최고 성능 곡선을 만드는 데 관심이 있는 것이 아니라, teacher 선택과 prompt 선택이 왜 어떤 경우에는 토큰 교집합을 키우고 어떤 경우에는 전혀 못 키우는지 원인별로 분해하려 한다. 그래서 결과를 읽을 때도 “누가 이겼는가”보다 “무슨 가설을 어떻게 격리했는가”를 같이 보는 편이 훨씬 생산적이다.

5. 주요 실험 결과: 생각 패턴, 새 지식, reverse distillation이 말해 주는 것

5.1 생각 패턴 정합성

가장 먼저 확인할 결과는 teacher의 benchmark score가 비슷해도 OPD 효과는 크게 달라질 수 있다는 점이다. 논문은 Qwen3-1.7B-Base 학생에게 두 teacher를 붙인다. 하나는 Qwen3-4B Non-thinking이고, 다른 하나는 Qwen3-4B-Base-GRPO다. GRPO teacher가 벤치마크에서 항상 압도적으로 더 높다고 말하기는 어렵지만, OPD 결과는 일관되게 GRPO teacher 쪽이 낫다.

Thinking-pattern consistency figure

Figure 1. 같은 학생(Qwen3-1.7B-Base)에 대해 서로 다른 thinking pattern을 가진 두 teacher를 붙였을 때의 OPD 결과 비교.

이 그림은 논문의 첫 번째 주장인 thinking-pattern consistency를 직접 보여 준다. GRPO teacher는 시작 시점부터 더 높은 overlap ratio를 보이며, 이후 validation accuracy도 더 강하게 올라간다. 반면 non-thinking teacher는 benchmark상 완전히 약한 모델이 아님에도 학생과의 초기 support 정합성이 낮아, 후속 학습에서 그 손실을 만회하지 못한다. 저자들은 이를 초기 mismatch가 남기는 손실이 나중 overlap이 어느 정도 따라잡혀도 완전히 회복되지 않는다는 증거로 읽는다.

이 결과를 통해 논문은 OPD의 성공 조건을 단순화한다. 학생이 이미 base-style reasoning을 하고 있다면, 그 학생에게 더 잘 맞는 것은 무조건 가장 큰 teacher가 아니라 학생과 유사한 사고 전개 방식을 가진 teacher다. teacher가 만들어 내는 고확률 후보 토큰이 학생의 현재 후보 공간과 크게 다르면, reverse KL은 support 밖을 넓게 탐색하도록 돕기보다 기존 교집합 주변만 강화하는 쪽으로 작동한다. 그래서 초기 overlap이 이후 성능을 예측하는 핵심 진단값으로 등장한다.

저자들이 appendix에서 benchmark별 breakdown까지 제시하는 이유도 여기에 있다. AIME 2024, AIME 2025, AMC 2023로 나눠 보아도 GRPO teacher의 우위가 대체로 유지되기 때문이다. 즉 이 현상은 특정 벤치마크의 우연이 아니라, teacher-student thinking pattern 정합성 자체가 OPD 결과를 좌우한다는 실험적 패턴으로 읽을 수 있다.

Successful versus failing OPD dynamics

Figure 2. 성공하는 OPD와 실패하는 OPD를 같은 학생에 대해 비교한 동역학 그림.

이 그림은 thinking-pattern 일치가 실제로 어떤 동역학으로 나타나는지 보여 준다. 성공 run에서는 overlap ratio가 꾸준히 상승하고 overlap-token advantage가 0 쪽으로 회복되며 entropy gap이 줄어든다. 반대로 실패 run은 세 지표가 초반부터 거의 움직이지 않는다. 논문은 이런 패턴을 두고 성공적인 OPD는 student-visited state에서의 high-probability token alignment가 점진적으로 커지는 과정이라고 정리한다.

여기서 중요한 수치가 두 개 나온다. 성공 run에서는 overlap ratio가 대략 72%에서 91%로 상승하고, 최종 학생은 teacher와의 성능 gap 중 80% 이상을 회복한다. 또한 교집합 토큰들이 student와 teacher 양쪽에서 차지하는 총 확률질량이 97%에서 99% 수준이라, 이 overlap은 단순히 집합 이름만 겹치는 것이 아니라 실제로 확률적으로 지배적인 토큰 영역이라는 점도 함께 확인된다. 이 때문에 overlap dynamics는 장식용 지표가 아니라 OPD의 실제 작동 지점을 가리키는 지표가 된다.

5.2 새로운 지식 대 단순 스케일

논문의 두 번째 큰 메시지는 높은 점수는 새 지식을 뜻하지 않는다는 것이다. 저자들은 DeepSeek family와 Qwen family 각각에서, 동일 pipeline의 더 큰 teacher와 RL post-training을 거친 teacher를 비교한다. DeepSeek family에서는 R1-Distill-1.5B 학생에 대해 R1-Distill-7BSkywork-OR1-Math-7B를 비교하고, Qwen family에서는 Qwen3-1.7B Non-thinking 학생에 대해 Qwen3-4BQwen3-4B-Non-Thinking-RL-Math를 비교한다. 두 family 모두 관찰은 동일하다. same-pipeline teacher는 제한적인 개선만 주고, RL post-trained teacher는 더 큰 improvement와 더 높은 gap recovery를 준다.

DeepSeek family comparison Qwen family comparison

Figure 3. 동일 family에서 same-pipeline teacher와 RL post-trained teacher를 비교한 두 패널 결과. 왼쪽은 DeepSeek family, 오른쪽은 Qwen family이다.

이 그림의 메시지는 teacher score보다 transferable capability가 더 중요하다는 것이다. RL post-training teacher는 student와 family를 공유해 pattern 정합성을 유지하면서도, 학생에게 아직 없는 능력을 추가로 제공한다. 그래서 OPD는 단순 모방이 아니라 학생이 못 보던 고확률 경로를 teacher로부터 끌어오는 과정이 된다. 반면 같은 pipeline의 큰 teacher는 점수가 높아도 학생 관점에서는 새 정보가 적을 수 있다.

논문은 이 차이를 gap recovery rate로도 본다. 이는 \((\mathrm{Acc}_{\text{after}} - \mathrm{Acc}_{\text{before}}) / (\mathrm{Acc}_{\text{teacher}} - \mathrm{Acc}_{\text{before}})\)로 정의되며, post-trained teacher가 학생과 teacher 사이의 성능 간극을 얼마나 실제로 메웠는지 보여 준다. 저자들은 이 수치가 post-trained teacher에서 훨씬 크다고 보고한다. 중요한 점은 이때 thinking pattern이 아예 뒤집힌 것이 아니라는 것이다. 즉 정합성은 유지하되, 지식은 새로워야 한다는 것이 두 번째 조건의 정확한 해석이다.

이 결과는 OPD를 teacher score ranking 문제로 보지 말아야 한다는 점을 다시 확인해 준다. 학생이 이미 학습한 분포와 거의 같은 분포를 조금 더 잘 근사하는 teacher는 OPD에 큰 이득을 주지 못할 수 있다. 반대로 같은 family라도 후학습을 통해 새로운 reasoning habit이나 answer-producing policy를 얻은 teacher는 학생에게 실질적인 이동 방향을 제공한다. 논문이 말하는 new knowledge는 단순히 모델 파라미터 수가 큰 것과 동의어가 아니다.

5.3 Reverse Distillation

논문에서 가장 강한 검증은 reverse distillation이다. JustRL-1.5B는 R1-Distill-1.5B에서 RL을 통해 올라온 모델인데, 저자들은 이 JustRL-1.5B를 다시 학생으로 두고 자기 pre-RL checkpoint인 R1-Distill-1.5B더 큰 same-family model인 R1-Distill-7B를 teacher로 붙인다. 직관적으로는 7B teacher가 더 강해 보이므로 최소한 덜 나쁘거나 약간 더 좋아야 할 것 같지만, 실제 결과는 전혀 그렇지 않다.

Reverse distillation figure

Figure 4. JustRL-1.5B를 학생으로 둔 reverse distillation 결과.

그림의 핵심은 두 teacher가 모두 학생을 거의 같은 수준으로 regression시킨다는 점이다. R1-Distill-1.5B는 pre-RL checkpoint이므로 RL 이득을 되돌리는 역할을 하고, R1-Distill-7B도 점수가 더 높음에도 거의 같은 방향으로 학생을 끌고 간다. 저자들은 이를 통해 OPD가 benchmark score를 복사하는 기법이 아니라 teacher의 thinking pattern을 학생 정책에 주입하는 메커니즘이라고 해석한다.

이 reverse distillation은 논문의 두 조건을 동시에 검증한다. same-family 1.5B와 7B teacher는 학생이 방문하는 상태에서 거의 구별되지 않는 local target distribution을 줄 수 있고, 그 결과 학생은 둘 모두에 대해 비슷한 수준으로 되돌아간다. 즉 teacher의 강함teacher가 학생에게 주는 새로운 방향성은 같은 것이 아니다. OPD에서 필요한 것은 teacher가 더 높은 점수를 가진다는 사실이 아니라, 학생이 아직 도달하지 못한 분포 영역으로 가도록 실질적으로 다른 high-probability token arrangement를 제공하는 것이다.

논문이 reverse distillation을 “validation”으로 부른 이유도 이 때문이다. thinking-pattern consistency만 있고 new knowledge가 없으면, OPD는 improvement가 아니라 과거 패턴으로의 회귀도 충분히 만들 수 있다. 따라서 teacher를 고를 때는 “학생과 너무 다르지 않은가”만 볼 것이 아니라, “학생이 이미 학습한 것의 재확대판은 아닌가”도 같이 봐야 한다는 결론이 자연스럽게 나온다.

6. 추가 분석 및 Ablation Study: overlap-only, cold start, prompt alignment, 그리고 long-horizon 한계

6.1 overlap-only ablation

메커니즘 파트의 가장 중요한 ablation은 교집합 토큰만 최적화해도 거의 충분한가를 묻는 실험이다. 저자들은 성공적인 OPD 설정인 R1-Distill-1.5B 학생과 JustRL-1.5B teacher를 고정한 뒤, Student Top-k 전체를 쓰는 기본형과 Overlap Top-k, Non-Overlap Top-k를 비교한다. Overlap Top-k는 학생과 teacher의 top-\(k\) 교집합만 남기고, Non-Overlap Top-k는 symmetric difference만 남긴다. 결과는 매우 선명하다.

Overlap-only ablation

Figure 5. Student Top-k, Overlap Top-k, Non-Overlap Top-k를 비교한 support ablation.

그림이 말하는 바는 분명하다. Overlap Top-k는 기본 Student Top-k와 거의 같은 성능을 내지만, Non-Overlap Top-k는 확실히 약하다. 이는 OPD의 실제 이득이 teacher와 student가 공통으로 중요하게 보는 고확률 토큰 영역에서 나온다는 뜻이다. 논문은 이때 overlap ratio가 다시 72%에서 91% 이상으로 오르고, Non-Overlap 조건에서는 오히려 초반 감소 후 부분 회복에 그친다고 보고한다. 즉 overlap 영역은 단순 상관관계가 아니라 실제 optimization locus다.

이 결과는 왜 교집합 토큰이 본질적인지까지 설명한다. 논문 appendix에 따르면 overlap 토큰들이 student와 teacher 양쪽에서 차지하는 확률질량은 훈련 내내 97%에서 99% 수준이다. 따라서 overlap-only가 충분하다는 말은 “작은 집합이 우연히 잘 먹힌다”가 아니라, 실제로 확률질량 대부분이 이미 그 집합 안에 있다는 뜻이다. 이 사실은 top-k OPD가 왜 full-vocabulary 없이도 잘 작동하는지에 대한 해석도 제공한다.

저자들은 이를 self-reinforcing dynamic으로 설명한다. 어떤 토큰이 교집합 high-probability region 안으로 들어오면 reverse KL은 그 토큰에 더 많은 질량을 실어 주고, 경쟁하는 non-overlap 토큰은 학생 top-k 밖으로 밀려난다. 그래서 overlap은 결과가 아니라 과정이기도 하다. 성공적인 OPD는 teacher가 제공한 신호를 교집합 영역에서 증폭시키며, 그 결과 교집합 자체를 더 키우는 방향으로 학습이 굴러간다.

6.2 off-policy cold start

thinking-pattern gap을 줄이는 첫 번째 recipe는 off-policy cold start다. 저자들은 Qwen3-1.7B-Base 학생과 Qwen3-4B Non-thinking teacher를 선택한 뒤, 먼저 teacher가 생성한 200K OpenThoughts 수학 응답으로 학생을 SFT해 Qwen3-1.7B-SFT를 만든다. 이후 동일한 teacher와 OPD prompt set으로 본격적인 OPD를 수행하고, 아무 warmup 없이 Base에서 바로 시작하는 pure OPD와 비교한다. 핵심 가설은 간단하다. teacher rollout을 한 번 supervised하게 흡수하면 학생의 초기 support가 teacher 쪽으로 이동하고, 그 위에서 token-level reward가 훨씬 읽히기 쉬워진다는 것이다.

Off-policy cold start

Figure 6. teacher rollout SFT를 먼저 한 뒤 OPD를 수행한 cold-start 실험.

그림대로 SFT cold start는 pure OPD보다 일관되게 더 높은 validation 성능을 낸다. 더 중요한 점은 이 차이가 초반만이 아니라 최종 ceiling까지 유지된다는 것이다. 즉 cold start는 optimization warmup에 그치지 않고, 학생이 이후 OPD에서 도달할 수 있는 상한 자체를 바꾼다. 논문은 이를 초기 overlap ratio 상승과 더 작은 entropy gap으로 해석한다.

이 결과가 중요한 이유는 thinking-pattern inconsistency가 완전히 teacher 선택의 숙명이 아니라는 점을 보여 주기 때문이다. teacher와 학생의 기본 분포가 어긋나 있어도, teacher rollout에 대한 SFT를 먼저 넣으면 학생이 teacher의 후보 토큰 공간을 더 잘 보게 된다. 이후 OPD는 이미 생긴 교집합을 중심으로 teacher signal을 강화하므로, 초기 분포 정렬이 이후 dense reward의 exploitable-ness를 좌우하게 된다. 즉 cold start는 OPD 자체를 바꾸지 않고도 OPD가 읽히는 상태 공간을 바꾸는 전략이다.

이 점은 실제 시스템 설계에도 유용하다. teacher가 아주 강하지만 student와 스타일이 많이 다를 때, 바로 OPD를 거는 것보다 teacher rollout SFT로 student support를 미리 이동시키는 것이 더 안전할 수 있다. 논문은 cold start가 overlap mass와 entropy gap을 동시에 개선한다고 보며, 이는 teacher의 token-level reward가 학생에게 바로 활용 가능한 지역 신호로 변하는 과정으로 이해할 수 있다.

6.3 teacher-aligned prompts

두 번째 recipe는 teacher-aligned prompts다. 저자들은 alignment를 두 수준으로 나눈다. 하나는 동일한 문제를 두고 prompt template만 teacher가 익숙한 형식으로 맞추는 것이고, 다른 하나는 문제 내용 자체를 teacher post-training 데이터에 더 가까운 prompt content로 고르는 것이다. 즉 모델 내부 분포만이 아니라, teacher와 student가 만나는 입력 표면도 OPD 성패를 좌우하는 변수라는 주장이다.

Prompt template alignment

Figure 7. 동일 문제에서 prompt template만 teacher-aligned 형식으로 바꾼 실험.

template alignment 결과는 직관적이다. teacher가 post-training 중 보던 형식에 가까운 템플릿을 쓰면 overlap ratio가 더 높게 시작하고 최종 정확도도 오른다. appendix에 따르면 teacher gap recovery는 대략 80%에서 85% 수준으로 증가한다. 즉 입력 내용이 같아도 포맷이 달라지면 student rollout의 상태 공간이 달라지고, teacher의 per-token guidance가 더 잘 읽힌다.

이 실험은 OPD를 단순히 output-side alignment만으로 보면 안 된다는 사실을 보여 준다. 학생이 생성하는 궤적은 prompt form에 매우 민감하므로, teacher가 익숙한 템플릿을 쓰면 초기 몇 토큰부터 teacher와 student의 high-probability candidates가 더 많이 겹친다. 그리고 reverse KL은 바로 그 초기 교집합을 증폭시키기 때문에, 작은 prompt 차이가 training dynamics 전체를 바꿀 수 있다.

Prompt content alignment

Figure 8. teacher post-training 데이터와 더 가까운 prompt content를 사용할 때의 효과.

content alignment는 template alignment보다 더 미묘하다. 논문은 teacher-aligned content를 사용했을 때 overlap ratio 자체는 오히려 더 낮을 수 있지만, overlap 토큰 위에 student가 올리는 확률질량은 더 높아지고 성능도 개선된다고 보고한다. 이는 support 집합의 크기보다도, 그 집합 안에 얼마나 집중된 질량이 실리느냐가 더 중요할 수 있음을 뜻한다. 다시 말해 적은 수의 토큰만 겹쳐도, 그 토큰들이 정말로 핵심 high-probability tokens라면 OPD는 충분히 작동할 수 있다.

다만 여기서 저자들은 중요한 부작용도 함께 관찰한다. teacher-aligned prompts를 과하게 쓰면 학생 entropy가 크게 낮아져 entropy collapse 위험이 커진다. 그래서 논문은 실전 전략으로 teacher-aligned prompt만 고집하기보다, teacher가 잘 아는 prompt와 teacher 바깥 prompt를 섞는 혼합 배치가 더 안전할 수 있다고 제안한다. 이는 OPD가 alignment를 강하게 밀어 줄수록 탐색성과 다양성을 잃을 수 있다는 사실을 보여 주며, prompt selection이 단순 데이터 정제 문제가 아니라 정렬-다양성 trade-off 문제임을 드러낸다.

6.4 long-horizon reward limitations

논문의 discussion 파트는 OPD를 지나치게 낙관적으로 보지 않게 만드는 부분이다. 저자들은 dense token-level reward가 outcome reward보다 늘 낫다는 믿음을 직접 পরীক্ষা한다. 응답 길이를 0.5K, 1K, 3K, 7K, 10K, 15K로 바꿔 보니, 매우 짧은 응답은 supervised token 수가 부족해 sample efficiency가 낮고, 너무 긴 응답은 오히려 후반부에서 collapse를 일으킨다. 가장 좋은 구간은 3K에서 7K 정도의 중간 길이다.

Response length and teacher continuation

Figure 9. 응답 길이에 따른 성능과, 학생 prefix 깊이에 따른 teacher continuation gain.

이 그림은 OPD의 supervision density가 길이에 따라 품질이 달라진다는 점을 압축해 보여 준다. validation 성능은 3K와 7K 부근에서 가장 좋고, teacher continuation gain은 학생 prefix가 깊어질수록 급격히 감소한다. 논문은 1K prefix에서 teacher의 정확도 이득이 +0.37인데, 16K prefix에서는 +0.02까지 떨어진다고 보고한다. 이는 teacher가 학생이 길게 생성한 prefix 뒤에서는 더 이상 뚜렷한 corrective signal을 주지 못한다는 뜻이다.

이 현상은 OPD의 철학과도 연결된다. OPD는 학생이 실제로 방문하는 상태에서 teacher를 조회한다는 점이 장점이지만, student prefix가 teacher가 자연스럽게 방문하던 경로에서 너무 멀어지면 teacher의 conditional distribution 자체가 불안정해진다. 그러면 dense reward는 존재하더라도 reliability가 낮아진다. 논문은 이 점을 들어 long chain-of-thought나 agentic multi-turn setting에서 OPD를 그대로 늘리는 것은 위험할 수 있다고 본다.

Response length dynamics

Figure 10. 최대 응답 길이를 다르게 했을 때 나타나는 OPD 학습 동역학.

응답 길이별 dynamics를 보면 그 차이가 더 분명해진다. 3K와 7K에서는 overlap이 부드럽게 증가하지만, 10K와 15K에서는 후반에 overlap ratio가 급락하고 student entropy와 gradient norm이 동시에 튄다. 즉 문제는 단지 “길면 느리다”가 아니라, 일정 길이를 넘으면 teacher가 주는 token-level reward가 late-stage collapse를 촉발하는 불안정 신호로 바뀔 수 있다는 것이다. dense supervision이 free lunch가 아니라는 저자들의 표현은 바로 이 상황을 가리킨다.

Student entropy by position

Figure 11. 15K 길이 설정에서 출력 위치별 student entropy가 어떻게 커지는지 보여 주는 heatmap.

이 entropy heatmap은 collapse가 어디서 시작되는지를 보여 준다. 논문은 높은 entropy가 먼저 suffix에서 나타나고, 학습이 진행될수록 점차 앞쪽 prefix로 전파된다고 설명한다. 이는 teacher도 학생이 만든 긴 suffix 상태에서 불확실해지고, 그 불안정한 신호가 다시 학생을 흔든다는 해석과 맞물린다. 즉 OPD의 실패는 전체 시퀀스가 한 번에 무너지는 것이 아니라, 먼 끝 토큰에서 시작된 신호 품질 저하가 앞쪽으로 역전파되는 형태를 띤다.

이 부분은 agentic LLM에도 직접적인 시사점을 준다. 상호작용 턴이 길어질수록 teacher는 학생이 만든 이질적 상태를 더 많이 보게 되고, 그 위에서 계산한 dense token reward는 점점 local guidance로서의 가치가 떨어질 수 있다. 논문은 그래서 long-horizon에서는 짧은 구간의 dense supervision과 outcome-level reward를 섞는 hybrid supervision이 필요할 가능성을 언급한다.

  • 짧은 응답의 실패는 supervised token 수가 부족해 sample efficiency가 낮아지는 방향으로 나타난다.
  • 중간 길이의 성공은 3K~7K 구간에서 overlap growth와 validation accuracy가 가장 부드럽게 유지되는 모습으로 관측된다.
  • 긴 응답의 실패는 10K~15K에서 late-stage collapse, entropy spike, gradient norm 급등 같은 징후로 드러난다.
  • teacher continuation 약화는 prefix가 깊어질수록 teacher가 학생 상태를 더 낯설게 느껴 corrective signal을 거의 못 주는 현상으로 해석된다.

실무 관점에서 보면 이 네 가지 징후는 OPD 디버깅 체크리스트가 될 수 있다. 길이를 늘렸을 때 정확도가 오르지 않는다면 단순히 더 길게 학습해야 하는 것이 아니라, teacher가 해당 prefix 깊이에서 여전히 유효한 조건부 분포를 주는지부터 의심해야 한다. 또한 prompt를 맞춘다고 해서 문제를 모두 해결할 수 있는 것도 아니다. 입력 표면이 teacher와 가까워져도 trajectory가 너무 깊어지면 결국 teacher familiarity 자체가 무너질 수 있기 때문이다.

Reward landscape AUROC

Figure 12. 성공 teacher와 실패 teacher 모두에서 sequence mean reward가 정답/오답을 어느 정도 가르는 모습.

reward landscape 분석은 더 미묘한 사실을 보여 준다. 성공 teacher인 JustRL-1.5B와 실패 teacher인 R1-Distill-7B 모두 correct rollout에 더 높은 sequence mean reward를 주며, AUROC도 각각 0.730.75로 비슷하다. 즉 실패 teacher가 전역적으로는 약한 신호를 주는 것이 아니다. 문제는 전역적으로 informative한 reward가 있어도, 학생 정책 근처에서 그 신호가 gradient로 exploitable한 local geometry를 만들지 못할 수 있다는 점이다.

논문은 여기에 대해 per-token advantage가 크더라도 위치별 방향이 서로 상쇄되어 작은 effective gradient만 남는 anisotropy 가설을 조심스럽게 제시한다. 이는 아직 직접 검증된 결론은 아니지만, dense reward의 정보량과 실제 optimization 가능성이 다를 수 있음을 보여 준다. 이 논문이 OPD에 대해 중요한 이유는, 바로 이런 식으로 “보상은 있는데 왜 안 배우는가”를 signal quality와 optimization geometry의 분리로 설명하기 시작한다는 데 있다.

Effect of support size k

Figure 13. Top-k support size를 바꾸었을 때의 성능 비교.

support size 실험은 OPD 구현의 실전 교훈을 준다. 논문에 따르면 sampled-token OPD는 Top-k 설정 평균과 비슷한 성능을 내며, 명확하게 불안정한 것은 Top-1뿐이다. \(k\)를 4에서 16, 64로 늘려도 추가 이득은 거의 없고, 계산비만 올라간다. 저자들은 sampled-token이 잘 되는 이유를 학생 분포에서 비례적으로 서로 다른 토큰을 계속 뽑기 때문에 high-probability region을 unbiased하게 덮기 때문이라고 설명한다.

반대로 Top-1은 항상 argmax 토큰만 택해 reward를 한 모드에 과도하게 집중시키므로, 작은 정책 변화에도 rank-1 토큰이 뒤집히며 학습 신호가 출렁인다. 그래서 이 결과는 “한 위치에서 토큰을 많이 봐야만 OPD가 된다”는 직관을 부정한다. 핵심은 토큰 수 자체보다 support 선택 규칙이 얼마나 편향 없이 학생의 중요한 영역을 커버하는가다. practical recipe로 번역하면, sampled-token이나 적당한 Top-k는 충분하지만 Top-1은 피하라는 명확한 결론이 나온다.

Table 6. 이 표는 논문 전체를 다시 읽지 않아도 핵심 정량 메시지를 한 번에 잡을 수 있도록 만든 압축본이다. 저자들의 주장은 대부분 이 수치 묶음으로 되돌아온다. overlap이 실제로 커졌는지, gap recovery가 있었는지, 길이가 길어질수록 teacher signal이 약해졌는지, global reward와 local exploitability가 왜 분리되는지를 아래 값들이 요약한다.

관찰 항목 핵심 수치 해석
성공 run의 overlap ratio 약 72% → 91% 성공적인 OPD는 고확률 토큰 교집합이 점진적으로 커짐
Overlap token mass 97% ~ 99% 교집합 토큰이 실제 확률질량 대부분을 차지
Teacher gap recovery 80% 이상 성공 run은 teacher와의 성능 간극 대부분을 회복
Template alignment recovery 대략 80% → 85% prompt template만 맞춰도 teacher 활용도가 증가
Teacher continuation gain 1K prefix에서 +0.37, 16K에서 +0.02 깊은 prefix에서는 teacher reward의 신뢰도가 크게 저하
Reward landscape AUROC 성공 0.73 / 실패 0.75 전역적 정보량과 국소적 exploitable-ness는 다를 수 있음
Support size 결과 sampled-token ≈ Top-k 평균, Top-1만 불안정 핵심은 토큰 수보다 support selection bias

7. 한계점 및 향후 연구 방향: 이 논문이 아직 답하지 않은 질문들

논문이 스스로 인정하는 가장 큰 한계는 실험 도메인이 수학 추론에 집중되어 있다는 점이다. 저자들은 AIME, AMC 중심의 결과를 통해 thinking-pattern consistency와 new knowledge 조건을 매우 설득력 있게 제시하지만, 이것이 코드 생성, 개방형 대화, 장기 계획형 agent setting에서도 그대로 유지된다고 직접 보여 주지는 않는다. 특히 수학 추론은 정답 검증이 비교적 명확하고, 길이가 긴 체인오브소트에서도 평가 지점이 비교적 구조화되어 있다. 따라서 더 자유로운 생성 영역에서 동일한 overlap dynamics가 어느 정도 재현되는지는 여전히 열린 문제다.

둘째 한계는 new knowledge의 근원을 완전히 분리하지 못한다는 점이다. 논문은 same-pipeline teacher와 RL post-trained teacher를 비교하면서 새 지식의 존재를 상당히 그럴듯하게 보여 준다. 그러나 이 차이가 구체적으로 어떤 데이터, 어떤 reward, 어떤 post-training 단계에서 생겼는지를 세밀하게 분해하지는 않는다. 저자들도 conclusion에서 pre-training corpus 차이, tokenizer 차이, architecture 차이와 뒤섞이지 않게 이 효과를 고립하는 것은 매우 비싸고 어렵다고 인정한다.

셋째로, discussion 파트에서 제시한 locally informative gradient geometry 가설은 아직 검증보다 해석에 가깝다. reward landscape AUROC가 비슷해도 실패 teacher에서 gradient norm이 약한 이유로, 저자들은 per-token advantage의 방향 비일관성이나 anisotropy를 가설로 제시한다. 하지만 실제로 gradient covariance를 직접 분석하거나, 어떤 토큰 위치에서 어떤 방향 상쇄가 일어나는지를 정량화하지는 않았다. 따라서 이 논문은 실패 현상을 매우 선명하게 보여 주지만, 왜 global signal이 local update로 이어지지 않는지의 최종 메커니즘은 아직 남겨 둔다.

또 하나의 실무적 한계는, 논문이 제시한 진단 지표들이 꽤 유용함에도 언제 학습을 중단하거나 objective를 전환해야 하는지에 대한 운영 규칙까지는 제공하지 않는다는 점이다. 예를 들어 overlap ratio가 일정 구간 이상 오르지 않을 때 바로 cold start나 prompt mixing으로 넘어갈 임계값이 필요한데, 이 논문은 그 임계값보다 현상 설명에 집중한다. 그래서 실제 학습 파이프라인에 적용하려면, 논문이 제안한 지표들을 기반으로 한 early warning heuristic를 후속 작업에서 따로 정리할 필요가 있다.

그럼에도 향후 연구 방향은 분명하다. 첫째, self-distillation처럼 teacher와 student가 같은 모델이되 privileged information만 다른 상황에서 thinking-pattern consistency가 어떻게 작동하는지 확인할 필요가 있다. 둘째, 긴 trajectory 전체를 한 번에 dense reward로 덮기보다, 짧은 구간의 OPD와 outcome reward를 결합하는 hybrid objective가 유망하다. 셋째, prompt selection을 단순 데이터 전처리가 아니라 정렬과 entropy 보존을 동시에 제어하는 curriculum 문제로 다루는 연구가 필요하다. 논문은 완성된 해답보다, OPD를 성능 기법에서 연구 문제로 되돌린 출발점에 가깝다.

8. 내 해석: 약점 1 + 후속 제안 1

내가 이 논문을 연구자 관점에서 읽을 때 가장 크게 남는 약점 하나는, 메커니즘 설명이 매우 설득력 있음에도 불구하고 여전히 토큰 교집합의 관찰값에 크게 의존한다는 점이다. overlap ratio, overlap-token advantage, entropy gap은 실패와 성공을 잘 갈라 주지만, 그것이 곧바로 어떤 update direction이 실제로 살아 있고 어떤 direction이 상쇄되는지를 완전히 설명해 주지는 않는다. 특히 reward landscape AUROC가 실패 teacher에서 오히려 약간 더 높은 0.75를 보인다는 결과는, 정보가 없어서 실패하는 것이 아니라 정보가 학습 가능한 방향으로 정렬되지 않아서 실패한다는 뜻인데, 이 부분은 아직 직접 측정되지 않았다. 그래서 이 논문은 현상을 뛰어나게 정리했지만, gradient geometry까지 닫아 주는 마지막 한 걸음은 남겨 둔 상태라고 본다.

이 지점에서 나는 기존 DPO 문맥과의 연결도 자연스럽다고 본다. DPO가 offline preference data의 재사용성을 통해 학습 표면을 단순화했다면, 이 논문은 반대로 dense token-level supervision이 항상 쉬운 방향의 gradient를 주지 않는다는 반례를 제시한다. 즉 supervision의 밀도가 높다고 optimization이 쉬워지는 것은 아니다. 오히려 online 상태 분포와 local support alignment가 어긋나면, 더 촘촘한 신호가 더 나은 학습이 아니라 더 복잡한 기하학을 만들 수 있다. 이 비교는 정렬 연구에서 “더 많은 신호”보다 “더 잘 정렬된 신호”가 중요하다는 점을 잘 드러낸다.

그래서 내가 제안하고 싶은 후속 연구 하나는, OPD를 전체 시퀀스에 균일하게 적용하지 말고 blockwise curriculum + geometry probe 형태로 재설계하는 것이다. 예를 들어 초기에는 512~1024 토큰 블록 단위로만 OPD를 적용하고, 각 블록에서 teacher-student overlap과 gradient covariance를 함께 측정해 local exploitability score를 추정할 수 있다. exploitability가 높은 블록에는 OPD weight를 키우고, 낮은 블록에는 outcome reward나 off-policy target을 섞는 식으로 가면, 이 논문이 드러낸 long-horizon collapse와 global-vs-local mismatch를 동시에 다룰 수 있다. 나는 이런 방식이 단순히 성능을 더 내기 위한 tweak가 아니라, 왜 어떤 dense reward는 학습되고 어떤 dense reward는 죽는지를 메커니즘 수준에서 검증하는 더 직접적인 실험 설계라고 본다.

  • teacher 선택 기준을 benchmark 점수에서 초기 overlap, entropy gap, prompt familiarity로 옮겨야 한다.
  • recipe 선택 기준은 “더 오래 OPD를 돌릴까”보다 “teacher signal이 학생 정책 근처에서 실제 gradient를 만드는가”가 되어야 한다.
  • long-horizon 확장은 단순 토큰 수 증가가 아니라, 어느 구간까지 dense reward가 믿을 만한지를 재는 문제로 다시 정의할 필요가 있다.
  • 정렬 연구와의 연결에서는 DPO류의 간결한 목적함수와 OPD류의 dense online signal 사이에서 어떤 조건이 더 안정적인지를 비교할 수 있다.

이렇게 보면 이 논문은 OPD를 둘러싼 실전 의사결정의 기준을 꽤 많이 바꾼다. teacher가 큰가, reward가 조밀한가, prompt가 in-domain인가 같은 질문을 각각 따로 볼 것이 아니라, 결국 학생이 지금 방문하는 상태에서 teacher와 얼마나 생산적인 교집합을 만들 수 있는가라는 하나의 질문으로 다시 묶게 만든다. 나는 이 재정의가 앞으로의 OPD 연구에서 가장 오래 남을 부분이라고 본다.

9. 결론: OPD는 강한 teacher의 문제가 아니라, 맞는 teacher와 살아 있는 교집합의 문제다

이 논문이 남기는 결론은 명확하다. OPD의 성공은 teacher의 절대 점수보다 student와 teacher의 thinking-pattern compatibility에 더 크게 좌우된다. 학생이 이미 보는 고확률 토큰 공간과 teacher가 강조하는 고확률 토큰 공간이 맞물려야 reverse KL이 의미 있는 방향으로 작동한다. 이 교집합이 초기부터 너무 작으면, dense token-level reward가 있어도 학생은 teacher support 안으로 충분히 진입하지 못한다.

동시에 논문은 새 지식의 필요성을 강조한다. teacher가 같은 family의 더 큰 버전이더라도 학생에게 새로운 능력을 주지 못하면, OPD는 큰 개선을 만들지 못하거나 심지어 regression을 일으킬 수 있다. reverse distillation이 강하게 보여 주듯, OPD는 benchmark score를 흡수하는 기계가 아니라 teacher의 local policy pattern을 학생에게 이식하는 메커니즘에 가깝다. 따라서 teacher 선택의 기준은 “더 큰가”가 아니라 “학생과 충분히 맞으면서도 아직 없는 것을 주는가”가 되어야 한다.

또한 이 논문은 OPD의 실전 recipe도 꽤 구체적으로 남긴다. off-policy cold start는 초기 overlap을 올려 teacher 신호를 읽을 수 있게 만들고, teacher-aligned prompts는 teacher가 잘 아는 상태 공간으로 학생 rollout을 이동시킨다. 반면 지나치게 긴 trajectory와 과도한 teacher-aligned content는 entropy collapse나 reward reliability 저하를 부를 수 있어, mixing과 curriculum이 필요하다는 경고도 함께 준다.

특히 내가 중요하게 본 대목은, 저자들이 OPD를 무턱대고 폐기하지도, 만능 해법처럼 포장하지도 않는다는 점이다. 이 논문은 어떤 경우에 dense token-level reward가 outcome reward보다 효율적인지 인정하면서도, 그 효율이 teacher familiarity, support overlap, trajectory depth 같은 조건 위에서만 유지된다고 선을 긋는다. 그래서 실무적으로도 “OPD를 쓸 것인가 말 것인가”보다 “어떤 teacher와 어떤 길이 구간에서 어떤 prompt 표면으로 쓸 것인가”라는 더 정교한 설계 질문으로 넘어가게 만든다.

정리하면 이 논문은 OPD를 “RL보다 싸고 잘 되는 dense distillation 기법”으로만 다루지 않는다. 그보다는 어떤 teacher signal이 학생의 현재 정책 근처에서 실제 gradient가 되는가라는 더 근본적인 질문을 던진다. 이 점에서 본 논문은 OPD 연구를 성능 경쟁에서 한 걸음 빼내어, 현상학-메커니즘-실전 처방의 언어로 재정리한 작업이라고 평가할 수 있다.

그래서 이 논문을 읽고 나면 OPD의 체크리스트도 달라진다. teacher 점수, 데이터 양, 계산 예산만 볼 것이 아니라 초기 overlap, entropy gap, prompt alignment, trajectory depth를 함께 봐야 한다는 점이 가장 실질적인 교훈으로 남는다. 이 네 축은 실제 운영 지표로도 바로 옮길 수 있다.

10. 요약 정리

마지막으로, 이 논문의 논지를 실전 관점에서 다시 압축하면 아래와 같다. 요약은 단순 숫자 나열이 아니라, teacher 선택, prompt 설계, 길이 제어, 신호 해석의 네 층위로 읽는 것이 적절하다. 특히 OPD를 이미 쓰고 있는 팀이라면, 더 큰 teacher를 찾는 것보다 초기 overlap과 새 지식의 존재를 먼저 점검하는 편이 합리적이라는 점이 핵심이다.

  • OPD의 기본 정의는 학생 rollout 위에서 teacher의 per-token 분포를 읽어 sequence-level reverse KL을 줄이는 것이다.
  • 성공 조건 1은 student와 teacher의 thinking-pattern consistency이며, 초기 overlap ratio가 높을수록 OPD가 잘 작동한다.
  • 성공 조건 2는 teacher가 학생이 아직 가지지 못한 genuinely new knowledge를 제공해야 한다는 점이며, 단순한 스케일 차이는 충분조건이 아니다.
  • 성공적인 OPD dynamics는 overlap ratio가 약 72%에서 91%로 증가하고, overlap-token advantage가 개선되며, entropy gap이 줄어드는 형태로 나타난다.
  • 교집합 토큰만 최적화해도 거의 full Student Top-k와 같은 성능이 나오며, overlap 토큰은 student와 teacher 양쪽에서 97%~99%의 확률질량을 차지한다.
  • reverse distillation은 JustRL-1.5B 학생이 자기 pre-RL checkpoint와 same-family 7B teacher 모두에 대해 비슷하게 regression함을 보여 주며, score보다 pattern과 new knowledge가 중요함을 검증한다.
  • off-policy cold start는 200K teacher rollout SFT로 초기 overlap과 entropy gap을 개선해 이후 OPD ceiling까지 끌어올리는 실전 recipe다.
  • teacher-aligned prompts는 template alignment에서 gap recovery를 대략 80%에서 85%로 높이고, content alignment에서는 overlap mass를 높이지만 entropy collapse 위험도 함께 키운다.
  • long-horizon 한계는 teacher continuation gain이 1K prefix에서 +0.37, 16K prefix에서 +0.02로 줄어드는 결과와, 10K·15K 길이에서의 late-stage collapse로 드러난다.
  • reward informativeness와 optimization 가능성은 다르다. 성공 teacher와 실패 teacher의 AUROC가 각각 0.73, 0.75로 비슷하다는 결과는, OPD 실패를 전역 정보량 부족이 아니라 국소적 exploitable-ness 부족으로 읽게 만든다.