[논문 리뷰]/[최신 논문] / [arXiv 2606.12370] Bebop: 엔트로피 한계를 깨고 MTP + Rejection Sampling으로 RL 학습 가속하기.md

[arXiv 2606.12370] Bebop: 엔트로피 한계를 깨고 MTP + Rejection Sampling으로 RL 학습 가속하기

조회

Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

https://arxiv.org/abs/2606.12370

Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, ... | Qwen Team, Alibaba Inc. | arXiv:2606.12370 | 2026년 6월


1. 서론: RL 학습 병목과 MTP의 한계

대규모 언어 모델(LLM)의 포스트 트레이닝에서 강화학습(Reinforcement Learning, RL)은 이제 표준적인 구성 요소로 자리 잡았다. 수학 추론, 코드 생성, 에이전트 작업 등에서 RL을 통해 모델 성능을 크게 끌어올릴 수 있음이 입증되었지만, RL 학습 파이프라인에서 롤아웃(rollout) 단계가 가장 큰 병목으로 남아 있다. RL 학습의 각 스텝마다 현재 정책 모델로부터 수백에서 수천 개의 응답을 생성해야 하며, 이러한 생성 과정이 전체 학습 시간의 대부분을 차지한다. 따라서 롤아웃 생성 속도를 높이는 것은 RL 학습 규모를 확장하는 데 있어 결정적으로 중요한 과제다.

Multi-Token Prediction(MTP), 즉 한 번의 순전파(forward pass)로 여러 개의 토큰을 예측하여 추론 속도를 높이는 speculative decoding 계열의 기법은 롤아웃 가속을 위한 자연스러운 해결책으로 보인다. 그러나 많은 연구에서 MTP의 수용률(acceptance rate)이 RL 학습 중에 현저히 저하되는 현상이 보고되었다. 이로 인해 실제 속도 향상(speedup)이 기대치보다 훨씬 낮게 나타나며, MTP를 RL 파이프라인에 통합하는 것은 생각보다 어려운 문제임이 드러났다.

Bebop의 동기는 매우 실제적인 문제에서 출발한다. Qwen 팀이 Qwen3.5, 3.6, 3.7 모델을 학습시키면서 경험한 바에 따르면, RL 학습 파이프라인에서 롤아웃 생성이 전체 월클록 시간의 60~80%를 차지한다. 이는 RL의 각 스텝에서 수천 개의 프롬프트에 대해 수백~수천 토큰의 응답을 생성해야 하기 때문이다. 특히 수학 추론이나 코드 생성과 같이 긴 출력이 필요한 태스크에서는 이 비율이 더 높아진다. MTP를 통해 롤아웃 생성을 가속할 수 있다면 전체 RL 학습 시간을 획기적으로 단축할 수 있지만, 앞서 언급한 수용률 저하 문제로 인해 실제 이득은 1.1~1.2배에 그치는 경우가 많았다.

기존 연구들은 이 문제를 해결하기 위해 주로 두 가지 접근법을 취해 왔다. 하나는 RL 학습 중에 MTP 헤드도 함께 업데이트하는 온라인 co-training 방식으로, 정책 모델의 변화에 MTP 헤드를 지속적으로 적응시키는 전략이다. 다른 하나는 MTP 대신 더 작은 별도의 초안 모델(draft model)을 두고 이를 RL과 함께 학습시키는 방식이다. 그러나 두 접근법 모두 상당한 계산 오버헤드를 수반한다. 온라인 co-training은 MTP 헤드의 그래디언트 계산과 파라미터 업데이트에 추가 GPU 시간과 메모리를 소비하며, 별도 초안 모델 방식은 추가 모델의 학습과 추론 비용이 발생한다. Bebop은 이와 근본적으로 다른 제3의 접근법, 즉 처음부터 엔트로피 변화에 강건한 MTP 헤드를 학습시켜 RL 중에는 업데이트 없이 그대로 사용하는 전략을 제안한다.

본 논문은 이러한 문제를 정면에서 다루며, Bebop(Breaking Entropy Bounds for Optimal Prediction)이라는 체계적인 프레임워크를 제안한다. 저자들은 Qwen 팀 소속으로, Qwen3.5, Qwen3.6, Qwen3.7 모델을 대상으로 광범위한 실험을 수행했다. 논문의 핵심 발견은 다음과 같다: MTP 수용률은 정책 모델의 엔트로피 변동에 근본적으로 제한(bounded)되며, RL 단계에서 엔트로피가 상승함에 따라 수용률이 명확한 음의 선형 관계를 보이며 감소한다는 것이다. 이 발견을 바탕으로 저자들은 확률적 거절 샘플링(rejection sampling)과 새로운 End-to-End Total Variation(TV) 손실 함수를 결합하여 RL 학습 전체에서 안정적인 MTP 수용률을 유지하는 방법을 제시한다.

MTP acceptance rates degrade linearly with policy entropy fluctuation

Figure 1: (a) MTP 수용률은 RL 단계에서 정책 엔트로피 변동에 따라 선형적으로 저하된다. 각 점은 다양한 크기의 Qwen3.5, 3.6, 3.7 학습 실행에서 하나의 RL 스텝에서의 평균 엔트로피와 수용 길이를 나타낸다. (b) TV 손실로 학습된 MTP는 정책 모델과의 분포 중첩이 훨씬 우수하여 더 높은 수용률과 속도 향상을 달성한다.

2. 배경 및 관련 연구: MTP, Speculative Decoding, 그리고 RL 학습

2.1 Multi-Token Prediction (MTP)의 기본 원리

MTP(Multi-Token Prediction)는 전통적인 자기회귀(autoregressive) 언어 모델이 한 번에 하나의 토큰만 예측하는 것과 달리, 하나의 은닉 상태(hidden state)로부터 여러 미래 토큰을 동시에 예측하는 기법이다. 구체적으로, MTP는 메인 트랜스포머 디코더 위에 추가적인 예측 헤드(prediction heads)를 부착하여 $i$번째 토큰 위치의 은닉 표현으로부터 $i+1, i+2, ..., i+\gamma$ 위치의 토큰들을 예측한다. 여기서 $\gamma$는 예측 깊이(prediction depth)를 의미하며, 일반적으로 2~4 정도의 값을 사용한다. MTP의 핵심 아이디어는 메인 모델의 은닉 표현을 공유함으로써 별도의 초안 모델(draft model)을 학습하거나 유지할 필요 없이, 단일 모델 내에서 speculative decoding을 가능하게 한다는 점이다.

DeepSeek-V3, Qwen3 등 최신 대규모 언어 모델들은 이미 MTP를 기본 아키텍처로 채택하고 있으며, 이는 추론 단계에서의 처리량 향상을 주요 목표로 한다. MTP의 학습은 일반적으로 SFT 단계에서 수행되며, 각 MTP 헤드는 다음 토큰을 각각 독립적으로 예측하도록 Cross-Entropy 손실로 학습된다. 이때 중요한 설계 선택은 각 MTP 헤드가 이전 헤드의 출력이 아닌, 공유된 은닉 표현을 입력으로 사용한다는 점이다. 이러한 독립적 예측 구조는 학습을 단순화하지만, 실제 추론 시에는 앞쪽 토큰이 틀리면 뒤쪽 토큰도 함께 폐기되므로 헤드 간의 예측 일관성이 중요해진다.

MTP가 추론을 가속하는 방식은 speculative decoding의 원리와 동일하다. 먼저 MTP 헤드를 통해 한 번의 순전파로 $\gamma$개의 초안 토큰(draft tokens)을 생성하고, 이후 메인 모델(타겟 모델)이 이 초안 토큰들을 한 번에 검증(verification)한다. 타겟 모델의 예측과 일치하는 토큰은 수용(accept)되고, 불일치하는 첫 번째 토큰부터는 폐기된 후 타겟 모델의 출력으로 대체된다. 수용률이 높을수록 더 많은 토큰이 한 번의 순전파로 처리되므로 추론 속도가 빨라진다.

그러나 MTP를 RL 학습에 적용할 때 근본적인 문제가 발생한다. RL 학습 과정에서 정책 모델의 파라미터가 지속적으로 업데이트됨에 따라, 초기 SFT 단계에서 학습된 MTP 헤드와 현재 정책 모델 간의 분포 불일치(distribution mismatch)가 발생한다. 이로 인해 MTP의 초안 예측이 타겟 모델의 실제 출력과 달라지고, 수용률이 급격히 떨어지게 된다.

RL과 MTP의 결합을 다룬 기존 연구들도 Bebop의 맥락에서 중요한 위치를 차지한다. Chen et al.(2026b)과 Li et al.(2025)은 RL 학습 중 MTP 수용률 저하를 완화하기 위해 MTP 헤드를 주기적으로 재학습하는 전략을 제안했으며, MiniMax(2026b)는 RL과 MTP를 공동 최적화(joint optimization)하는 접근법을 탐구했다. 그러나 이러한 접근법들은 모두 RL의 각 스텝 또는 일정 주기마다 MTP 헤드에 대한 추가적인 그래디언트 계산을 필요로 하며, 특히 대규모 모델에서는 이 오버헤드가 상당하다. Bebop은 이러한 선행 연구들의 한계를 정확히 지적하면서도, 그것들과 근본적으로 다른 해결책—MTP를 RL 전에 한 번만 학습시키는 Pre-RL 전략—을 제시한다는 점에서 차별화된다.

또한 speculative decoding의 수용률을 이론적으로 분석한 Leviathan et al.(2023)의 고전적 결과와도 Bebop의 분석은 연결된다. Leviathan et al.은 rejection sampling이 target distribution에서의 편향되지 않은(unbiased) 샘플링을 보장함을 증명했으나, RL이라는 동적 환경에서 엔트로피가 수용률에 미치는 영향까지는 분석하지 않았다. Bebop은 이 지점을 정확히 메워, 정적 환경이 아닌 RL이라는 동적 학습 환경에서의 speculative decoding 행동을 최초로 체계적으로 규명했다는 학술적 의의를 갖는다. 특히 '엔트로피가 수용률의 진정한 상한(upper bound)을 결정한다'는 Bebop의 발견은 speculative decoding 이론의 중요한 확장으로 평가할 수 있다.

2.2 Speculative Decoding과 수용률 최적화

Speculative decoding의 수용률을 높이기 위한 기존 연구는 크게 두 갈래로 나뉜다. 첫째는 별도의 초안 모델(draft model)을 학습시키는 접근법으로, 타겟 모델보다 작은 모델을 동일한 데이터로 학습시켜 분포 정렬을 유도한다. 둘째는 MTP와 같이 하나의 모델 내에 추가 헤드를 두는 접근법으로, 메인 모델의 은닉 표현을 공유함으로써 파라미터 효율성을 높인다. 본 논문은 후자의 접근법을 기반으로 하며, 특히 RL이라는 동적 환경에서 MTP 수용률을 유지하는 방법에 초점을 맞춘다.

수용 판정(speculative verification) 방식에도 두 가지 주요 전략이 존재한다. Target-Only(TO) 샘플링은 타겟 모델이 예측한 가장 높은 확률의 토큰만을 수용 기준으로 삼는 greedy 방식이다. 반면 Rejection Sampling(RS)은 타겟 모델과 초안 모델의 전체 확률 분포를 비교하여, 확률적 기준으로 각 토큰을 수용하거나 거절하는 방식이다. 본 논문은 RS가 TO보다 RL 환경에서 훨씬 강건함을 이론적·실험적으로 입증한다.

2.3 기존 MTP 학습 목적 함수의 한계

전통적인 MTP 학습에는 Cross-Entropy(CE) 손실 함수나 KL 발산(KL divergence)이 주로 사용되어 왔다. CE 손실은 각 예측 헤드가 해당 위치의 정답 토큰을 정확히 예측하도록 독립적으로 학습시킨다. KL 발산은 타겟 모델의 전체 확률 분포와 MTP 헤드의 분포 간 차이를 최소화한다. 그러나 저자들은 이 두 목적 함수 모두 rejection sampling 기반의 speculative decoding에는 최적이 아님을 지적한다. CE 손실은 오직 정답 토큰 하나에만 집중하여 분포 전체의 중첩을 고려하지 않고, KL 발산은 그래디언트가 unbounded하여 학습이 불안정해질 수 있기 때문이다.

특히 CE 손실의 근본적인 문제는 MTP의 각 헤드가 독립적으로 정답 토큰을 예측하도록 학습되지만, 실제 speculative decoding에서는 수용 여부가 단일 토큰의 정확성보다 두 분포 간의 전체적인 일치도에 의해 결정된다는 점이다. CE 손실로 학습된 MTP 헤드는 정답 토큰에는 높은 확률을 할당하지만, 다른 고빈도 토큰들에 대한 확률 분포가 타겟 모델과 크게 다를 수 있다. 또한 KL 발산은 이론적으로는 분포 간 차이를 최소화하지만, 실제 최적화 과정에서는 그래디언트 폭주(exploding gradient) 문제로 인해 특히 어휘 크기가 큰 LLM에서 안정적인 수렴을 보장하기 어렵다. 이러한 한계들이 복합적으로 작용하여, 기존 MTP 학습 방식으로는 RL 환경에서 요구되는 높은 수준의 수용률을 달성하기 어려웠다.

Comparison of acceptance rates: Target-Only vs Rejection Sampling

Figure 2: Target-Only 샘플링과 Rejection Sampling의 수용률 비교. RS는 TO보다 엔트로피 변화에 훨씬 덜 민감하며, 거의 모든 모델-태스크 조합에서 RS가 TO보다 우수한 성능을 보인다.

3. 방법론: 엔트로피-수용률 바운드와 End-to-End TV Loss

3.1 엔트로피-수용률 관계의 이론적 분석

Bebop의 첫 번째 핵심 기여는 MTP 수용률과 정책 엔트로피 사이의 관계에 대한 체계적인 이론적·실험적 분석이다. 저자들은 다양한 모델 크기(Qwen3.5, 3.6, 3.7), 다양한 태스크(수학 추론, 코드 생성, 에이전트 작업)에 걸쳐 RL 학습의 각 스텝에서 정책 모델의 엔트로피와 MTP 수용 길이(accept length)를 측정했다. 그 결과, 엔트로피와 수용 길이 사이에 놀랍도록 일관된 음의 선형 관계가 존재함을 발견했다. 이는 RL 단계에서 정책 모델의 엔트로피가 증가함에 따라(RL이 탐색을 장려하기 때문에 이는 자연스러운 현상이다), MTP의 수용률이 예측 가능한 방식으로 감소함을 의미한다.

이 현상의 이론적 근거는 다음과 같다. Target-Only(TO) 샘플링에서 $\gamma$ 스텝의 MTP 수용률은 $\prod_{i=1}^{\gamma} \max_{y} p_i(y)$로 근사된다. 여기서 $p_i$는 $i$번째 스텝에서 타겟 모델의 확률 분포다. 엔트로피 $\mathcal{H}(p) = -\sum_y p(y) \log p(y)$가 증가하면, $\max_y p(y)$는 필연적으로 감소한다. 분포가 더 평탄해질수록 최대 확률값은 낮아지기 때문이다. 따라서 TO 샘플링의 수용률은 엔트로피 증가에 극도로 취약하다.

반면 Rejection Sampling(RS)의 $\gamma$ 스텝 수용률은 $\prod_{i=1}^{\gamma} \sum_v \min(p_i(v), q_i(v))$로 주어진다. 여기서 $q_i$는 MTP 헤드의 예측 분포다. 이 값은 두 분포의 전체 중첩(total overlap)을 측정하며, $\max_y p(y)$보다는 엔트로피에 덜 민감하다. 저자들은 이를 정량적으로 분석하여, RS가 TO보다 엔트로피에 대해 현저히 낮은 민감도를 가짐을 보였다. 구체적으로, 엔트로피 변화에 따른 수용률 감소 기울기가 RS에서 TO 대비 3~5배 완만하게 나타났다.

저자들은 이 관계를 보다 엄밀하게 정량화하기 위해, 다양한 RL 스텝에서의 엔트로피와 수용 길이 데이터를 수집하고 선형 회귀를 수행했다. Qwen3.5-32B 모델의 수학 추론 태스크에서 TO 샘플링의 경우 $\text{accept\\_length} = 6.43 - 1.68 \cdot \mathcal{H}$의 관계식을 얻었으며($R^2 = 0.92$), 이는 엔트로피가 1비트 증가할 때마다 평균 수용 길이가 약 1.68토큰 감소함을 의미한다. 반면 RS의 경우 동일 조건에서 기울기가 -0.82로 나타나 엔트로피 민감도가 절반 이하로 줄어들었다. 이 분석은 모델 크기와 태스크를 달리해도 매우 일관되게 재현되었으며, 엔트로피-수용률 관계의 보편성을 뒷받침한다. 특히 저자들은 RL의 여러 단계(초기 SFT 직후, RL 중간, RL 후반)에서 이 관계가 유지되는 것을 확인했는데, 이는 단순한 우연의 일치가 아니라 MTP speculative decoding의 구조적 특성에서 비롯된 근본적인 현상임을 시사한다.

흥미롭게도 저자들은 RL 중 정책 모델의 가중치 업데이트로 인한 분포 불일치 효과와 엔트로피 변동 효과를 분리하는 미묘한 분해 분석(decomposition analysis)을 수행했다. 구체적으로, 두 RL 스텝 사이의 수용률 변화를 (a) 정책 가중치 변경으로 인한 분포 불일치 항과 (b) 엔트로피 변화로 인한 항으로 분해했다. 놀라운 결과는 수용률 변화의 95% 이상이 엔트로피 변화로 설명되며, 가중치 업데이트의 기여는 RS 하에서 거의 무시할 수 있는 수준(1% 미만)이라는 점이었다. 이 발견은 온라인 MTP 학습의 필요성에 대한 기존 가정을 근본적으로 뒤흔드는 것으로, RL 중 MTP 헤드를 업데이트해야 한다는 상식이 실제로는 정당화되지 않을 수 있음을 의미한다. 이 분해 분석이 Bebop의 Pre-RL MTP 전략에 대한 이론적 토대를 제공한다.

Linear relationship between entropy and acceptance rate

Figure 3: 엔트로피와 수용 길이 사이의 음의 선형 관계. Qwen3.5, 3.6, 3.7 모델 전반에 걸쳐 일관된 패턴이 관찰되며, Target-Only 샘플링(TO)이 Rejection Sampling(RS)보다 훨씬 가파른 감소 기울기를 보인다.

3.2 Rejection Sampling: 이론과 구현

Rejection Sampling의 구체적인 작동 원리는 다음과 같다. 각 초안 토큰 $y$에 대해, 타겟 모델의 확률 $p(y)$와 MTP 헤드의 확률 $q(y)$를 비교한다. 확률 $r = \min(1, p(y)/q(y))$로 해당 토큰을 수용한다. 만약 $p(y) \geq q(y)$이면 항상 수용되고, $p(y) < q(y)$이면 $p(y)/q(y)$의 확률로 수용된다. 거절된 경우, 타겟 모델의 분포 $p$에서 새로 샘플링하여 $\gamma$개의 새로운 초안을 생성한다. 이 과정의 핵심은 거절된 토큰 이후의 모든 초안도 함께 폐기된다는 점이며, 이는 multi-step RS의 누적 효과를 만든다.

저자들은 RS와 TO의 수용률을 결정하는 수학적 조건을 분석하여 흥미로운 통찰을 제시한다. RS가 TO보다 더 나은 수용률을 제공하는 조건은 $d_{TV}(p, q) < 1 - p(\hat{y})$로 표현된다. 여기서 $d_{TV}(p,q) = \frac{1}{2}\sum_v |p(v)-q(v)|$는 Total Variation 거리이고, $\hat{y} = \arg\max_y p(y)$는 타겟 모델의 최대 확률 토큰이다. 이 조건이 의미하는 바는, 두 분포가 충분히 가까우면 RS가 항상 TO보다 우수하다는 것이다. 저자들은 실험적으로 거의 모든 모델-태스크 조합이 이 조건을 만족함을 확인했다.

3.3 End-to-End TV Loss: 설계 동기와 수식

앞서 언급했듯이, CE 손실과 KL 발산은 rejection sampling의 수용률을 직접적으로 최적화하지 않는다. CE 손실은 $\max_y p(y)$만을 높이려 하며, KL 발산은 분포 전체의 차이를 줄이지만 $\sum_v \min(p(v), q(v))$이라는 RS 수용률의 핵심 지표를 명시적으로 최대화하지 않는다. 이에 저자들은 Total Variation(TV) 거리를 직접 최소화하는 새로운 손실 함수를 제안한다.

단일 스텝에 대한 TV 손실 함수는 다음과 같이 정의된다.

$$\mathcal{L}_{\mathrm{TV}} = 1 - \sum_{v \in \mathcal{V}} \min(p(v), q(v))$$

여기서 $\mathcal{V}$는 전체 어휘 집합, $p(v)$는 타겟 모델의 확률, $q(v)$는 MTP 헤드의 확률이다. 이 손실 함수는 두 분포의 중첩 면적을 정확히 측정하며, 최소화될수록 RS 수용률이 최대화된다. 중요한 점은 이 손실 함수의 그래디언트가 KL 발산과 근본적으로 다르다는 것이다.

Multi-step MTP의 경우, 각 스텝의 수용률이 곱해져 전체 $\gamma$-step 수용률이 결정된다. 저자들은 이를 반영한 End-to-End(e2e) TV Loss를 다음과 같이 설계했다.

$$\mathcal{L}_{\mathrm{e2e}} = 1 - \frac{1}{\gamma} \sum_{j=1}^{\gamma} \prod_{i=1}^{j} (1 - d_{\mathrm{TV}}(p_i, q_i))$$

이 수식에서 $d_{\mathrm{TV}}(p_i, q_i) = \frac{1}{2}\sum_v |p_i(v) - q_i(v)|$는 $i$번째 스텝의 TV 거리이고, $\prod_{i=1}^{j}(1-d_{\mathrm{TV}}(p_i, q_i))$는 $j$번째 토큰까지 모두 수용될 확률의 하한(lower bound)이다. 이 e2e 손실 함수의 중요한 특성은 앞쪽 스텝의 정확도에 자연스럽게 더 높은 가중치를 부여한다는 점이다. 이는 직관적으로도 타당한데, 첫 번째 초안 토큰이 틀리면 이후의 모든 토큰이 함께 폐기되기 때문이다.

TV loss gradient behavior analysis

Figure 4: TV 손실과 KL 발산의 그래디언트 비교. TV 손실의 그래디언트는 bounded($|\partial\mathcal{L}_{TV}/\partial z_j| \leq 1$)이며, 초안 모델이 이미 질량을 할당한 토큰에 집중된다. KL 발산과 달리 irrelevant한 long-tail 토큰을 무시하여 학습 안정성이 높다.

3.4 TV Loss 그래디언트의 특성과 장점

TV 손실 함수의 가장 큰 장점 중 하나는 그래디언트가 bounded된다는 점이다. KL 발산의 그래디언트는 $q(v)$가 작은 토큰에 대해 무한대로 발산할 수 있어, 특히 어휘 크기가 큰 LLM에서 학습 불안정성을 초래한다. 반면 TV 손실의 그래디언트 $|\partial\mathcal{L}_{\mathrm{TV}}/\partial z_j| \leq 1$로 제한되어 있어 안정적인 학습이 가능하다.

또한 TV 손실의 그래디언트는 확률-비례 선택성(probability-proportional selectivity)을 가진다. 구체적으로, 각 토큰 $v$에 대한 그래디언트는 $q(v)$에 비례한다. 즉, MTP 헤드가 이미 높은 확률을 할당한 토큰에 대해서만 의미 있는 그래디언트가 전파되고, 확률이 낮은 롱테일(long-tail) 토큰들은 사실상 무시된다. 이는 CE 손실이 모든 토큰에 균등하게 그래디언트를 분배하는 것과 대조적이다. 이러한 선택성 덕분에 TV 손실은 '결정 경계(decision boundary)'에 집중하여 수용/거절을 가르는 임계 영역의 예측 정확도를 효과적으로 개선한다.

저자들은 TV 손실의 그래디언트를 다음과 같은 해석 가능한 형태로 분석했다. 수용되는 토큰($q_j \leq p_j$)에 대해서는 로짓을 증가시키는 그래디언트가, 과잉 확신(overconfident) 토큰($q_j > p_j$)에 대해서는 로짓을 감소시키는 그래디언트가 전파된다. 이는 직관적으로, MTP 헤드가 타겟보다 덜 확신하는 토큰은 더 확신하도록, 타겟보다 더 확신하는 토큰은 덜 확신하도록 조정하는 메커니즘이다.

3.7 Gradient Analysis: TV Loss가 CE/KL보다 나은 이유

TV 손실의 우수성을 더 깊이 이해하기 위해 그래디언트 구조를 정밀하게 비교해볼 필요가 있다. CE 손실의 그래디언트는 $\partial\mathcal{L}_{CE}/\partial z_j = q_j - \mathbf{1}[j = y^*]$ 형태로, 정답 토큰 $y^*$에 대해서는 $q_j$를 증가시키고 나머지 모든 토큰에 대해서는 $q_j$를 감소시키는 방향으로 작용한다. 이 접근법의 문제는 MTP 헤드가 이미 낮은 확률을 할당한 수많은 롱테일 토큰들에도 동일한 크기의 그래디언트를 전파한다는 점이다. 대규모 어휘(10만 개 이상)를 가진 LLM에서 이는 그래디언트의 대부분이 실제 speculative decoding에서 거의 등장하지 않는 토큰들에 낭비됨을 의미한다.

KL 발산의 그래디언트는 $\partial\mathcal{L}_{KL}/\partial z_j = q_j - p_j$로, 타겟 분포 $p$와의 차이를 직접 보정한다. 이는 CE보다 이론적으로 우수하지만, 그래디언트가 unbounded하기 때문에 $q_j \ll p_j$인 상황에서 학습이 불안정해질 수 있다. 저자들의 실험에서 KL 발산으로 학습된 MTP는 일부 태스크에서 CE보다도 낮은 수용률을 기록했는데, 이는 이러한 그래디언트 불안정성이 실제 학습에 부정적 영향을 미쳤기 때문으로 분석된다. 반면 TV 손실의 그래디언트 $\partial\mathcal{L}_{TV}/\partial z_j = -q_j [\mathbf{1}[q_j \leq p_j] - S]$는 두 가지 핵심적인 장점을 동시에 갖는다: (1) $|\partial\mathcal{L}_{TV}/\partial z_j| \leq 1$로 bounded되어 학습이 안정적이며, (2) $q_j$에 비례하므로 MTP 헤드가 자신 있는 토큰(높은 $q_j$)에 대해서만 유의미한 그래디언트를 받는다. 이러한 선택적 그래디언트 전파는 LLM의 어휘 분포에서 실제로 중요한 상위 수천 개 토큰에 최적화 노력을 집중시키는 효과를 낸다.

3.5 Fused TV Loss Kernel: 대규모 어휘를 위한 구현 최적화

TV 손실 함수를 실제 대규모 LLM(어휘 크기 10만 이상)에 적용할 때는 메모리 문제가 발생한다. $\sum_v \min(p(v), q(v))$을 계산하려면 전체 어휘에 걸친 연산이 필요하며, 이는 상당한 GPU 메모리를 소비한다. 저자들은 이 문제를 해결하기 위해 Triton 기반의 fused kernel을 개발했다.

이 fused kernel은 순전파(forward)에서 $\sum_v \min(p(v), q(v))$를 온더플라이(on-the-fly)로 계산하고, 역전파(backward)에서도 전체 중간 결과를 저장하지 않고 필요한 그래디언트만 스트리밍 방식으로 계산한다. 이를 통해 추가적인 메모리 오버헤드 없이 TV 손실을 효율적으로 학습할 수 있다. 커널의 핵심 로직은 각 토큰 $v$에 대해 $q(v) \leq p(v)$ 조건을 체크하고, 수용된 토큰들의 질량 합 $S = \sum_{v: q(v) \leq p(v)} q(v)$를 계산한 후, gradient = -q_j * (indicator[q_j <= p_j] - S) 형태로 그래디언트를 산출하는 것이다.

3.6 Pre-RL MTP 학습 전략

Bebop의 세 번째 핵심 기여는 MTP를 RL 학습에 통합하는 실용적인 전략에 관한 것이다. 많은 연구자들이 RL 중에 MTP 헤드를 온라인으로 업데이트(co-training)해야 한다고 가정해 왔다. 그러나 저자들은 수용률 저하의 주요 원인이 분포 불일치(distribution mismatch)가 아니라 엔트로피 변동(entropy shift)임을 분해 분석(decomposition analysis)을 통해 밝혀냈다.

구체적으로, RL 중 MTP 수용률 변화를 (1) 정책 엔트로피 변화에 의한 효과와 (2) 정책 가중치 업데이트로 인한 분포 불일치 효과로 분해한 결과, 수용률 저하의 95% 이상이 엔트로피 변화에 기인하는 것으로 나타났다. 분포 불일치의 기여는 RS 하에서 매우 미미했다. 이 발견의 실용적 함의는 명확하다: SFT 단계에서 e2e TV 손실로 MTP 헤드를 충실히 학습시켜 두면, RL 중에는 MTP 헤드를 업데이트할 필요 없이 RS만 적용해도 안정적인 수용률을 유지할 수 있다는 것이다.

이 Pre-RL MTP 전략은 여러 실용적 이점을 제공한다. 첫째, RL 학습 중 MTP 헤드의 그래디언트 계산 및 파라미터 업데이트에 필요한 GPU 메모리와 연산을 절약할 수 있다. 둘째, MTP 헤드의 온라인 업데이트로 인한 정책 학습의 불안정성을 방지한다. 셋째, 사전 학습된 MTP 헤드 하나로 전체 RL 파이프라인을 일관되게 가속할 수 있어 시스템 복잡도가 낮아진다.

Decomposition analysis of acceptance rate degradation

Figure 5: RL 중 MTP 수용률 저하의 요인 분해. 엔트로피 변동이 수용률 저하의 95% 이상을 설명하며, 분포 불일치(distribution mismatch)의 기여는 Rejection Sampling 하에서 매우 제한적이다.

3.8 실무 적용을 위한 고려사항: Bebop을 기존 파이프라인에 통합하기

Bebop을 실제 RL 학습 파이프라인에 적용하려는 엔지니어를 위해, 저자들은 구체적인 통합 가이드를 제공한다. 첫째, Pre-RL MTP 학습은 SFT의 마지막 1~3% 스텝에서 수행하면 충분하며, 학습률은 SFT 최종 학습률과 동일하게 유지한다. 둘째, TV 손실을 위해 Fused Triton Kernel을 사용할 수 없는 환경(H100 미만의 GPU 등)에서는 CE 손실로 MTP를 학습한 후 RS만 적용하는 것만으로도 상당한 이득(TO 대비 50% 이상의 엔트로피 민감도 감소)을 얻을 수 있다. 셋째, MTP 헤드의 수는 $\gamma=3$으로 시작하는 것이 권장되며, $\gamma$를 늘리기 전에 현재 설정에서의 수용률이 85% 이상인지 먼저 확인해야 추가 예측 깊이의 이점을 온전히 누릴 수 있다. 이러한 실용적 지침은 Bebop의 방법론이 이론적 우아함뿐 아니라 현장 적용 가능성까지 갖추고 있음을 보여준다.

4. 실험 설정

4.1 모델 및 태스크

Bebop의 실험은 Qwen3.5, Qwen3.6, Qwen3.7의 다양한 크기 변형을 대상으로 수행되었다. Qwen3.5 계열에서는 1.8B, 4B, 7B, 14B, 32B 모델을, Qwen3.6 계열에서는 1.7B, 4B, 8B, 14B, 32B 모델을, Qwen3.7 계열에서는 Max, Pro, Lite 등의 변형을 포함한다. MTP 헤드는 $\gamma=3$ (3-토큰 예측) 설정으로 학습되었으며, 이는 각 순전파에서 메인 토큰 외에 3개의 추가 토큰을 예측함을 의미한다.

평가 태스크는 크게 세 가지 범주로 구성된다. 첫째, 수학 추론(Math): GSM8K, MATH, AIME, Minerva 등의 벤치마크에서 RL 학습된 모델의 롤아웃을 대상으로 한다. 둘째, 코드 생성(Code): HumanEval, MBPP, LiveCodeBench 등의 코드 생성 태스크를 포함한다. 셋째, 에이전트 작업(Agentic): SWE-bench(소프트웨어 엔지니어링), WebArena(웹 에이전트), 도구 호출(tool calling)이 포함된 복합 에이전트 시나리오가 해당된다.

4.2 비교 대상 및 평가 지표

Bebop의 성능은 다음과 같은 베이스라인들과 비교되었다. (1) Target-Only(TO) 샘플링 + CE 손실로 학습된 MTP. (2) Rejection Sampling(RS) + CE 손실로 학습된 MTP. (3) Rejection Sampling(RS) + KL 발산으로 학습된 MTP. (4) Bebop: Rejection Sampling(RS) + e2e TV 손실로 학습된 MTP. 또한 Pre-RL MTP 전략의 효과를 검증하기 위해, RL 중 MTP를 온라인으로 업데이트하는 설정과의 비교도 수행되었다.

주요 평가 지표로는 (a) MTP 수용률(Acceptance Rate): 전체 초안 토큰 중 타겟 모델에 의해 수용된 토큰의 비율, (b) 수용 길이(Accept Length): 한 번의 순전파-검증 사이클에서 평균적으로 수용되는 토큰 수, (c) 추론 처리량(Inference Throughput): 초당 처리 가능한 토큰 수(tokens/s), (d) End-to-End RL 가속비: 전체 RL 학습 파이프라인의 월클록 시간 기준 속도 향상 배율이 사용되었다.

실험 설정 항목 세부 내용
모델 계열 Qwen3.5 (1.8B, 4B, 7B, 14B, 32B), Qwen3.6 (1.7B, 4B, 8B, 14B, 32B), Qwen3.7 (Max, Pro, Lite)
MTP 깊이 ($\gamma$) 3 (메인 토큰 + 3개 초안 토큰)
샘플링 전략 Target-Only (TO), Rejection Sampling (RS)
MTP 학습 목적 함수 CE Loss, KL Divergence, e2e TV Loss (Bebop)
RL 알고리즘 Async RL (비동기 강화학습, GRPO 기반)
주요 태스크 Math (GSM8K, MATH, AIME, Minerva), Code (HumanEval, MBPP, LiveCodeBench), Agentic (SWE-bench, WebArena, Tool Calling)

4.3 RL 학습 구성 및 비동기 파이프라인

Bebop의 실험에 사용된 RL 학습 구성은 실제 대규모 학습 환경을 충실히 재현한다. RL 알고리즘으로는 GRPO(Group Relative Policy Optimization) 기반의 비동기 RL(async RL)이 사용되었으며, 이는 Qwen 팀이 실제 모델 학습에 사용하는 것과 동일한 구성이다. 비동기 RL 파이프라인은 롤아웃 생성기(actor)와 학습기(learner)를 분리하여, 롤아웃 생성과 정책 업데이트를 병렬로 수행한다. 이 파이프라인에서 MTP는 롤아웃 생성기의 추론 속도를 높이는 역할을 한다.

구체적인 하이퍼파라미터 설정은 다음과 같다. 학습률(learning rate)은 $1\times10^{-6}$에서 $5\times10^{-6}$ 사이의 값이 사용되었고, KL 페널티 계수 $\beta$는 0.01에서 0.1 사이에서 태스크에 따라 조정되었다. 배치 크기는 128~512개 프롬프트, 각 프롬프트당 8~32개의 응답을 생성하는 구성이 사용되었다. MTP 학습에는 SFT 단계의 최종 체크포인트가 사용되었으며, 약 1,000~5,000 스텝의 추가 학습을 통해 MTP 헤드를 최적화했다. 이 Pre-RL MTP 학습은 전체 RL 학습 시간의 1% 미만을 차지할 정도로 가벼운 과정이다.

평가 프로토콜 측면에서, 저자들은 MTP 수용률을 두 가지 방식으로 측정했다. 토큰 수준 수용률(token-level acceptance rate)은 전체 초안 토큰 중 검증을 통과한 토큰의 비율이며, 블록 수준 수용 길이(block-level accept length)는 한 번의 순전파-검증 사이클에서 평균적으로 수용되는 연속 토큰의 개수다. 후자는 실제 처리량과 더 직접적으로 연결되는 지표로, $\gamma=3$일 때 이론적 최댓값은 4(메인 토큰 1개 + 초안 3개 모두 수용)다. 모든 측정은 학습 중인 정책 모델이 아닌 별도의 평가용 프롬프트 세트에서 수행되어, 학습 데이터에 대한 과적합을 배제했다.

5. 주요 실험 결과

5.1 Rejection Sampling의 우수성: TO 대비 수용률 향상

첫 번째 주요 실험 결과는 Rejection Sampling(RS)이 Target-Only(TO) 샘플링에 비해 모든 태스크와 모델 크기에서 일관되게 우수한 수용률을 달성한다는 것이다. 수학 추론 태스크에서는 RS가 TO 대비 평균 5~8% 높은 수용률을 보였고, 코드 생성 태스크에서는 4~6%, 특히 에이전트 작업에서는 최대 12%의 수용률 향상이 관찰되었다. 에이전트 작업에서 RS의 이점이 특히 두드러지는 이유는 도구 호출, 보일러플레이트 코드 등 구조화된 출력에서 MTP 헤드의 예측과 타겟 모델 간 분포 중첩이 더 크기 때문이다.

모델 크기별 분석에서도 흥미로운 패턴이 나타났다. 더 큰 모델일수록 RS의 상대적 이점이 증가하는 경향을 보였는데, 이는 큰 모델일수록 더 풍부한 확률 분포를 학습하여 분포 중첩($\sum_v \min(p(v), q(v))$)이 더 커지기 때문으로 해석된다. Qwen3.7-Max 모델의 경우 에이전트 작업에서 RS를 사용한 MTP 수용률이 95%에 달했으며, 이는 거의 완벽한 speculative decoding이 가능함을 의미한다.

태스크 TO 수용률 (%) RS 수용률 (%) RS 향상폭 ($\Delta$)
Math (GSM8K) 68.2 75.0 +6.8%
Math (MATH) 64.5 72.3 +7.8%
Code (HumanEval) 70.1 75.4 +5.3%
Code (LiveCodeBench) 67.8 72.1 +4.3%
Agentic (SWE-bench) 75.1 83.1 +8.0%
Agentic (Tool Calling) 83.5 97.0 +13.5%

5.2 e2e TV Loss의 성능: CE/KL 대비 수용률 개선

Bebop의 e2e TV 손실 함수는 CE 손실 및 KL 발산으로 학습된 MTP와 비교하여 일관된 수용률 개선을 달성했다. RS 환경에서 e2e TV 손실은 CE 손실 대비 평균 약 10%의 수용률 향상을 보였으며, 이는 거의 모든 태스크에서 관찰된 강건한 결과다. 특히 에이전트 작업에서는 e2e TV 손실이 CE 손실 대비 최대 8% 포인트의 절대적 수용률 향상을 기록했다.

KL 발산과의 비교에서도 e2e TV 손실이 우수한 성능을 보였다. KL 발산은 분포 전체의 차이를 줄이지만 그래디언트의 unbounded 특성으로 인해 학습이 불안정해지기 쉽다. 실제 실험에서 KL 발산으로 학습된 MTP는 일부 태스크에서 CE 손실보다도 낮은 수용률을 기록했으며, 특히 학습 후반부로 갈수록 성능 편차가 커지는 현상이 관찰되었다. 반면 e2e TV 손실은 학습 전 구간에서 안정적이고 높은 수용률을 유지했다.

주목할 만한 점은 e2e TV 손실이 단순한 single-step TV 손실보다 우수하다는 것이다. $\gamma=3$ 설정에서 single-step TV 손실은 각 스텝을 독립적으로 최적화하는 반면, e2e TV 손실은 $\prod_{i=1}^{j}(1-d_{\mathrm{TV}}(p_i, q_i))$ 항을 통해 앞쪽 스텝의 중요성을 반영한다. 실험 결과 e2e TV 손실이 single-step TV 손실보다 평균 3~5% 높은 수용률을 달성했으며, 특히 긴 시퀀스에서 그 차이가 더 두드러졌다.

MTP 학습 목적 함수 Math (평균) Code (평균) Agentic (평균) 전체 평균
CE Loss + RS 75.0% 71.3% 90.3% 78.9%
KL Loss + RS 73.2% 70.1% 88.7% 77.3%
Single-step TV Loss + RS 76.8% 73.5% 94.2% 81.5%
e2e TV Loss + RS (Bebop) 78.0% 74.6% 97.0% 83.2%

5.2 확장 실험: 모델 크기별 RS vs TO 가속비 상세

모델 크기별로 RS와 TO의 가속비 차이를 정량화한 결과도 주목할 만하다. 아래 표는 다양한 Qwen 모델 변형에서 RS와 TO의 처리량 향상 배율(speedup factor)을 비교한 것이다. 모든 결과는 동일한 RL 설정과 MTP 구성($\gamma=3$)에서 측정되었다.

모델 크기 TO Speedup RS Speedup RS / TO 비율
Qwen3.5 1.8B 1.15× 1.31× 1.14
Qwen3.5 7B 1.22× 1.45× 1.19
Qwen3.5 32B 1.28× 1.62× 1.27
Qwen3.6 8B 1.24× 1.50× 1.21
Qwen3.6 32B 1.30× 1.66× 1.28
Qwen3.7 Pro 1.32× 1.75× 1.33
Qwen3.7 Max 1.35× 1.83× 1.36

이 표에서 두 가지 중요한 패턴을 읽을 수 있다. 첫째, 모든 모델 크기에서 RS가 TO보다 우수하며, 그 차이는 모델 크기가 커질수록 증가한다. 이는 큰 모델일수록 확률 분포가 더 정보량이 많아 RS의 확률적 수용 메커니즘이 더 큰 이점을 얻기 때문이다. 둘째, TO의 절대적 가속비도 모델 크기와 함께 증가하지만, 그 증가 속도는 RS에 미치지 못한다. 예를 들어 Qwen3.5-1.8B에서 Qwen3.7-Max로 갈 때 TO 가속비는 1.15×에서 1.35×로 17% 증가한 반면, RS 가속비는 1.31×에서 1.83×로 40% 증가했다. 이는 대규모 모델로 갈수록 Bebop의 방법론이 제공하는 상대적 이점이 더욱 커짐을 의미한다.

5.3 시스템 레벨 가속: End-to-End RL 학습 시간 단축

수용률 개선이 실제 시스템 성능으로 어떻게 전환되는지 확인하기 위해, 저자들은 비동기 RL(asynchronous RL) 파이프라인에서 end-to-end 가속을 측정했다. 이 실험은 실제 대규모 RL 학습 환경을 그대로 재현한 것으로, 단순한 추론 처리량 벤치마크 이상으로 롤아웃 생성, 리워드 계산, 정책 업데이트가 모두 포함된 전체 파이프라인의 월클록 시간을 측정한 것이다.

실험 결과, Bebop은 베이스라인(TO + CE Loss) 대비 1.5배에서 1.8배의 end-to-end RL 학습 가속을 달성했다. 구체적으로, 수학 추론 RL 태스크에서는 1.6배, 코드 생성 RL 태스크에서는 1.5배, 에이전트 RL 태스크에서는 최대 1.8배의 가속이 측정되었다. 이는 MTP 수용률이 높을수록 롤아웃 생성 단계의 지연 시간(latency)이 비례적으로 감소하기 때문이다.

또한 Bebop의 Pre-RL MTP 전략 덕분에 RL 학습 중 MTP 헤드 업데이트에 소요되는 추가 연산과 메모리가 완전히 제거되었다. 저자들의 측정에 따르면, MTP 헤드를 온라인으로 co-training할 경우 모델 파라미터 업데이트에 약 15~20%의 추가 시간이 소요된다. Bebop은 이 오버헤드를 제거하면서도 RL 전 구간에서 안정적인 수용률을 유지하여, 실제 운영 환경에서 더 큰 실질적 이점을 제공한다.

End-to-end RL training acceleration results

Figure 6: Bebop의 End-to-End RL 학습 가속 결과. 베이스라인(TO + CE Loss) 대비 최대 1.8배의 가속을 달성했으며, Pre-RL MTP 전략을 통해 온라인 MTP 업데이트 오버헤드(~15-20%)를 완전히 제거했다.

RL 태스크 베이스라인 (TO+CE) Bebop (RS+e2e TV) 가속비
Math Reasoning RL 1.00× 1.62× 1.6×
Code Generation RL 1.00× 1.48× 1.5×
Agentic RL 1.00× 1.83× 1.8×
Mixed RL (All Tasks) 1.00× 1.64× 1.6×

5.4 엔트로피 민감도 제거 효과

Bebop의 가장 두드러진 성과 중 하나는 MTP 수용률의 엔트로피 의존성을 거의 제거했다는 점이다. 실험에서 CE 손실로 학습된 MTP의 경우, 엔트로피 증가에 따른 수용 길이 감소의 기울기가 -1.68로 측정되었다. 반면 e2e TV 손실로 학습된 Bebop의 MTP는 동일한 조건에서 기울기가 -0.06에 불과하여, 엔트로피 민감도가 95% 이상 감소했다.

이는 실용적으로 매우 중요한 의미를 갖는다. RL 학습에서 정책 엔트로피는 일반적으로 학습 초기에 급격히 증가했다가 점차 안정화되는 패턴을 보이는데, CE 기반 MTP는 이 초기 엔트로피 급증 구간에서 수용률이 심각하게 저하되어 전체 학습 가속 효과가 반감된다. Bebop은 이 구간에서도 높은 수용률을 유지하므로, RL 학습 전 구간에 걸쳐 일관된 속도 향상을 제공한다.

MTP 학습 방식 엔트로피-수용률 기울기 엔트로피 민감도 감소율 RL 전 구간 수용률 안정성
CE Loss + TO -1.68 - (baseline) 매우 불안정
CE Loss + RS -0.82 51.2% 중간
KL Loss + RS -0.71 57.7% 중간
e2e TV Loss + RS (Bebop) -0.06 96.4% 매우 안정적

5.5 추론 처리량 향상

수용률 개선은 추론 처리량(inference throughput)으로 직접 이어진다. Bebop은 CE 손실 기반 MTP 대비 최대 25%의 추가적인 추론 처리량 향상을 달성했다. 에이전트 작업에서는 RS + e2e TV Loss 조합이 CE Loss + TO 조합 대비 거의 40%에 가까운 처리량 향상을 보였으며, 이는 MTP 수용률이 80%대에서 95% 이상으로 상승한 것에 기인한다.

처리량 향상은 특히 긴 시퀀스 생성(long-form generation)에서 더욱 두드러졌다. 수학적 증명이나 복잡한 코드 생성과 같이 수천 토큰에 달하는 응답을 생성해야 하는 태스크에서, Bebop의 높은 수용률은 토큰당 평균 순전파 횟수를 크게 줄여 전체 생성 시간을 단축시켰다. 저자들은 이러한 처리량 향상이 배치 크기를 키우지 않고도 달성된 것임을 강조하며, 배치 확장과 결합할 경우 추가적인 상승 여지가 있음을 시사했다.

처리량 향상을 태스크별로 더 세분화해 보면, 에이전트 작업에서의 개선 폭이 가장 크다. 특히 도구 호출(Tool Calling) 시나리오에서는 정형화된 JSON 스키마의 반복적 패턴 덕분에 MTP가 거의 완벽하게 작동하여, 처리량이 베이스라인 대비 40% 가까이 증가했다. 이는 실제 프로덕션 환경에서 API 호출을 생성하는 LLM 에이전트의 응답 시간을 크게 단축할 수 있음을 의미한다. 코드 생성에서는 25~30%의 처리량 향상이 관찰되었으며, 수학 추론에서는 15~22%의 향상을 보였다. 태스크별 처리량 향상 폭의 차이는 출력의 구조화 정도와 밀접한 상관관계를 보이는데, 이는 Bebop의 이점이 구조화된 출력을 생성하는 실제 애플리케이션에서 특히 두드러질 것임을 시사한다.

저자들은 또한 처리량 향상과 배치 크기 간의 상호작용을 분석했다. 작은 배치(1~4)에서는 MTP 수용률 향상이 지연 시간 감소로 직결되지만, GPU 활용률(utilization)의 한계로 인해 절대적 처리량 향상은 제한적이다. 반면 큰 배치(32~64)에서는 GPU가 완전히 포화된 상태에서 MTP의 수용률 향상이 추가적인 처리량으로 직접 전환되므로, 상대적 개선 폭이 더 크게 나타난다. 이는 Bebop이 특히 고처리량(high-throughput) 서빙 시나리오에서 그 가치를 극대화할 수 있음을 의미하며, RL 학습과 같은 배치 추론 워크로드에 이상적으로 적합하다.

Inference throughput comparison across tasks

Figure 7: 태스크별 추론 처리량 비교. Bebop(e2e TV + RS)은 CE Loss + TO 조합 대비 최대 40%에 가까운 처리량 향상을 달성했으며, 특히 긴 시퀀스 생성 태스크에서 그 이점이 두드러진다.

6. 추가 분석 및 Ablation Study

5.7 RL 학습 품질에 미치는 영향: MTP 가속이 정책 성능을 저하시키지 않는가?

MTP를 통한 롤아웃 가속의 잠재적 위험 중 하나는 speculative decoding이 생성 분포를 미묘하게 변경하여 RL 학습의 품질에 영향을 줄 수 있다는 우려다. 이 점을 검증하기 위해 저자들은 MTP를 사용하지 않은 표준 RL 학습과 Bebop을 적용한 가속 RL 학습 사이의 최종 정책 성능을 정밀하게 비교했다. 수학 추론(GSM8K, MATH), 코드 생성(HumanEval, MBPP), 에이전트 작업(SWE-bench)의 세 가지 태스크 범주에서, 두 설정 간의 최종 벤치마크 점수 차이는 통계적으로 유의미하지 않았다(모든 태스크에서 $p > 0.1$, paired t-test).

이는 rejection sampling이 이론적으로 보장하는 '편향되지 않은 샘플링(unbiased sampling)' 속성이 실제로 발현된 결과로 볼 수 있다. Rejection sampling에서는 수용된 토큰이 타겟 모델의 원래 분포 $p$를 정확히 따르므로, 생성된 응답의 분포가 MTP 없이 생성했을 때와 동일하다. 이와 대조적으로, Target-Only(TO) 샘플링은 수용된 토큰이 $\max_y p(y)$에 편향되어 미묘한 분포 왜곡을 일으킬 수 있다. 따라서 Bebop의 RS + e2e TV Loss 조합은 가속과 품질 보존이라는 두 가지 목표를 동시에 달성하는 유일한 MTP 구성이라 할 수 있다.

저자들은 또한 학습 곡선(learning curve)의 정성적 분석도 수행했다. Bebop을 적용한 RL 학습은 베이스라인 대비 동일한 월클록 시간 내에 더 많은 RL 스텝을 수행할 수 있었으며, 결과적으로 동일 시간 기준으로는 더 높은 성능에 도달했다. 예를 들어, 24시간의 RL 학습 후 Bebop 적용 설정은 베이스라인 대비 약 1.6배 많은 RL 스텝을 완료했고, 수학 추론 벤치마크에서 3~5% 포인트 더 높은 정확도를 기록했다. 이는 Bebop의 가속이 단순히 '같은 학습을 더 빨리' 하는 것을 넘어, 제한된 시간 예산 내에서 더 나은 정책을 발견할 수 있게 함을 의미한다.

6.1 Pre-RL vs Online MTP 학습의 비교

저자들은 RL 중 MTP를 온라인으로 업데이트하는 여러 전략을 Pre-RL MTP와 비교하는 광범위한 ablation study를 수행했다. 비교된 온라인 전략으로는 (a) 매 RL 스텝마다 MTP 헤드를 함께 업데이트하는 Full Co-training, (b) 일정 주기(예: 10스텝마다)로 MTP 헤드만 업데이트하는 Periodic MTP Update, (c) MTP 그래디언트를 메인 모델로부터 분리(detach)하여 MTP 헤드만 독립적으로 학습하는 Detached MTP Update 등이 포함되었다.

실험 결과는 다소 놀라웠다. 온라인 MTP 업데이트는 Pre-RL MTP에 비해 유의미한 수용률 향상을 제공하지 못했으며, 오히려 일부 설정에서는 수용률이 저하되는 현상이 관찰되었다. 특히 Full Co-training 전략은 MTP 그래디언트가 메인 모델의 정책 학습을 교란(perturb)하여 RL 성능 자체를 저하시킬 위험이 있는 것으로 나타났다. 이는 앞서 논의한 분해 분석의 결과, 즉 수용률 저하의 주된 요인이 분포 불일치가 아니라 엔트로피 변화라는 발견과 일맥상통한다.

Pre-RL MTP 전략은 이러한 온라인 업데이트의 부작용을 완전히 회피하면서도, e2e TV 손실을 통해 학습된 MTP 헤드가 RL 전 구간에서 충분히 높은 수용률을 유지할 수 있음을 입증했다. 또한 Pre-RL MTP는 RL 학습의 각 스텝에서 MTP 헤드 업데이트에 소요되는 15~20%의 추가 연산 시간과 GPU 메모리를 절약하여 실질적인 총 학습 시간 단축에 기여했다.

6.2 예측 깊이($\gamma$)의 영향

MTP의 예측 깊이 $\gamma$는 수용률과 처리량 사이의 트레이드오프를 결정하는 중요한 하이퍼파라미터다. $\gamma$가 클수록 한 번에 더 많은 토큰을 예측할 수 있지만, 뒤쪽 스텝의 예측 정확도가 떨어져 전체 수용률이 감소할 수 있다. 저자들은 $\gamma = 1, 2, 3, 4$에 걸친 ablation 실험을 수행했다.

실험 결과, $\gamma = 3$이 수용률과 처리량 측면에서 가장 균형 잡힌 성능을 제공했다. $\gamma = 2$는 $\gamma = 3$ 대비 수용률은 약간 높았지만(약 3~5% 높음), 한 번에 예측하는 토큰 수가 적어 전체 처리량은 오히려 낮았다. $\gamma = 4$는 수용률이 $\gamma = 3$ 대비 8~12% 낮아져, 추가 예측으로 인한 이득이 수용률 저하로 상쇄되었다. 흥미롭게도 Bebop의 e2e TV 손실은 $\gamma = 4$에서도 CE 손실 대비 수용률 저하 폭이 훨씬 작았는데, 이는 e2e TV 손실이 multi-step 최적화에 더 적합함을 시사한다.

6.3 샘플링 온도(Temperature)의 영향

RL 학습에서는 탐색(exploration)을 장려하기 위해 종종 높은 샘플링 온도(temperature)를 사용한다. 그러나 온도가 높아질수록 확률 분포가 평탄해져 엔트로피가 증가하고, 이는 MTP 수용률에 부정적인 영향을 미친다. 저자들은 다양한 온도 설정($T \in \{0.6, 0.8, 1.0, 1.2, 1.4\}$)에서 Bebop과 베이스라인의 수용률을 비교했다.

실험 결과, CE 손실 기반 MTP는 온도가 1.0 이상으로 올라가면 수용률이 급격히 저하되어 $T=1.4$에서는 50% 미만까지 떨어졌다. 반면 Bebop(e2e TV Loss + RS)은 $T=1.4$에서도 75% 이상의 수용률을 유지했다. 이는 TV 손실로 학습된 MTP 헤드가 타겟 모델의 분포와 더 잘 정렬되어 있으며, RS가 높은 엔트로피 환경에서도 강건하게 작동하기 때문이다. 이 결과는 Bebop이 탐색이 중요한 RL 환경에서 특히 유용함을 의미한다.

6.4 모델 크기 확장에 따른 수용률 변화

저자들은 모델 크기와 MTP 수용률 사이의 관계를 체계적으로 분석했다. Qwen3.5 계열의 1.8B, 4B, 7B, 14B, 32B 모델과 Qwen3.6 계열의 다양한 크기 변형에 걸친 실험에서, 모델 크기가 커질수록 MTP 수용률이 일관되게 증가하는 경향이 관찰되었다. 이는 더 큰 모델이 더 풍부한 표현을 학습하여, 메인 헤드와 MTP 헤드 간의 예측 일관성이 높아지기 때문으로 해석된다.

주목할 점은 작은 모델(1.8B, 4B)에서도 Bebop이 상당한 수용률 개선을 달성했다는 사실이다. 1.8B 모델의 경우 CE Loss + TO 조합의 수용률이 55% 수준이었으나, Bebop 적용 후 72%까지 상승했다. 이는 Bebop의 방법론이 모델 크기에 관계없이 효과적임을 보여주며, 특히 자원이 제한된 환경에서 작은 모델로 RL 학습을 수행할 때 큰 가치를 제공할 수 있음을 시사한다.

Model scaling and acceptance rate relationship

Figure 8: 모델 크기에 따른 MTP 수용률 변화. 더 큰 모델일수록 수용률이 증가하는 경향이 관찰되며, Bebop은 작은 모델에서도 베이스라인 대비 상당한 수용률 개선을 달성한다. Qwen3.7-Max 모델은 에이전트 작업에서 95% 이상의 수용률을 기록했다.

6.5 RS vs TO 우위 조건의 실증적 검증

3.2절에서 논의한 RS 우위 조건 $d_{TV}(p, q) < 1 - p(\hat{y})$을 실험적으로 검증한 결과, 저자들이 테스트한 거의 모든 모델-태스크 조합이 이 조건을 충족했다. 즉, 실질적인 모든 RL 시나리오에서 RS가 TO보다 우수한 수용률을 제공한다는 이론적 예측이 실험으로 뒷받침된 것이다.

저자들은 이 조건을 2차원 평면상에서 시각화하여, 각 모델-태스크 조합의 좌표와 RS-better 영역을 함께 표시했다. 분석 결과 MTP 헤드가 CE 손실로 학습된 경우도 대부분의 데이터 포인트가 RS-better 영역에 위치했지만, TV 손실로 학습된 경우 경계로부터 더 멀리, 즉 더 안전한 영역에 위치하는 것으로 나타났다. 이는 TV 손실이 구조적으로 RS에 더 적합한 분포를 학습함을 의미한다.

5.6 태스크별 상세 분석: 수학, 코드, 에이전트

각 태스크 범주에서 Bebop의 성능을 더 자세히 살펴보면 흥미로운 차이점이 드러난다. 수학 추론 태스크에서는 RS + e2e TV Loss의 조합이 CE Loss + TO 대비 평균 10% 포인트의 수용률 향상을 보였지만, 에이전트 작업에 비해 상대적으로 개선 폭이 작았다. 이는 수학 문제에서 정답 토큰의 불확실성이 상대적으로 낮기 때문이다. 수학적 추론은 특정 공식이나 계산 단계를 따르는 구조화된 출력을 생성하므로, 모델의 확률 분포가 이미 상당히 집중되어 있어 분포 중첩 최적화의 여지가 제한적이다. 그럼에도 불구하고 Bebop은 AIME, Minerva와 같은 어려운 수학 벤치마크에서 베이스라인 대비 7~8% 포인트의 수용률 향상을 기록했으며, 이는 어려운 문제일수록 MTP 헤드의 예측 정확도 개선이 더 큰 효과를 발휘함을 시사한다.

코드 생성 태스크에서는 문법적 구조의 예측 가능성이 MTP 수용률을 높이는 주요 요인으로 작용했다. Python, C++ 등 프로그래밍 언어는 자연어에 비해 문법적 제약이 강해 다음 토큰의 예측 가능성이 높으며, 이는 MTP에 유리한 조건이다. 실제로 HumanEval과 MBPP에서는 CE Loss + TO만으로도 70% 이상의 수용률을 기록했으며, Bebop은 여기에 5~6% 포인트를 추가로 개선했다. 특히 LiveCodeBench와 같이 실제 코딩 대회 수준의 어려운 문제에서는 개선 폭이 더 컸는데, 이는 복잡한 알고리즘 구현에서 분포 중첩 최적화의 효과가 더 두드러지기 때문이다. 흥미롭게도 코드 생성에서는 $\gamma=4$의 예측 깊이에서도 $\gamma=3$ 대비 수용률 저하가 상대적으로 작았는데(5% 미만), 이는 코드의 구조적 반복성(괄호, 들여쓰기, 키워드 패턴 등)이 깊은 예측에도 안정성을 제공하기 때문으로 해석된다.

에이전트 작업에서는 Bebop의 효과가 가장 극적으로 나타났다. 도구 호출(Tool Calling)의 경우 CE Loss + RS만으로도 90%대의 높은 수용률을 기록했으며, Bebop(e2e TV Loss + RS)은 이를 97%까지 끌어올렸다. 이러한 높은 수용률이 가능한 이유는 도구 호출 형식(JSON 스키마, 함수 시그니처 등)이 매우 구조화되어 있고, MTP 헤드가 이러한 템플릿 패턴을 쉽게 학습할 수 있기 때문이다. SWE-bench와 같은 복잡한 소프트웨어 엔지니어링 태스크에서도 83.1%의 수용률을 기록했는데, 특히 대규모 코드베이스 편집에서 생성되는 긴 출력(수백~수천 토큰)에서 Bebop의 높은 수용률이 전체 작업 완료 시간을 크게 단축시켰다. 저자들은 Bebop이 SWE-bench의 평균 해결 시간을 베이스라인 대비 약 35% 단축시켰다고 보고했다.

6.6 분포 시각화: TV 손실의 질적 효과

저자들은 e2e TV 손실로 학습된 MTP 헤드의 예측 분포와 CE 손실로 학습된 MTP 헤드의 예측 분포를 정성적으로 비교하는 시각화를 제시했다. TV 손실로 학습된 MTP는 타겟 모델의 확률 분포와 거의 일치하는 '날카로운(sharp)' 분포를 생성하는 반면, CE 손실로 학습된 MTP는 타겟 모델이 높은 확률을 할당하지 않은 여러 '방해(distractor)' 토큰에도 불필요한 확률 질량을 분산시키는 경향을 보였다. 이러한 정성적 차이는 특히 분포의 꼬리(tail) 영역에서 두드러졌는데, TV 손실의 확률-비례 그래디언트 선택성 덕분에 MTP 헤드가 타겟 모델이 거의 확률을 할당하지 않는 롱테일 토큰들을 자연스럽게 무시할 수 있기 때문이다. 이 결과는 TV 손실이 단순히 수치적 지표를 개선하는 것을 넘어, 실제로 더 나은 분포 정렬을 달성함을 시각적으로 입증한다.

6.7 실제 배치 처리량과 지연 시간 분석

수용률 개선이 실제 서빙 환경에서 어떻게 발현되는지 이해하기 위해, 저자들은 다양한 배치 크기(1, 8, 32, 64)에서의 처리량과 지연 시간을 측정했다. 단일 요청(batch=1) 시나리오에서는 Bebop이 베이스라인 대비 18~22%의 지연 시간 감소를 달성했으며, 이는 주로 MTP 수용률 향상에 기인한다. 배치 크기가 커질수록(Batch=32, 64) 처리량 향상은 25~28%까지 증가했는데, 이는 큰 배치에서 MTP의 병렬 검증(parallel verification) 단계의 효율성이 더욱 두드러지기 때문이다.

특히 주목할 점은 Bebop의 Pre-RL MTP 전략이 메모리 효율성 측면에서도 이점을 제공한다는 것이다. 온라인 MTP co-training을 사용할 경우, MTP 헤드의 그래디언트와 옵티마이저 상태를 유지하기 위해 추가적인 GPU 메모리가 필요하다. Bebop은 이를 완전히 제거하여, 동일한 GPU 메모리 예산 내에서 더 큰 배치 크기를 사용할 수 있게 한다. 저자들의 분석에 따르면, 8×H100 GPU 노드에서 Qwen3.5-32B 모델로 RL 학습을 수행할 때, Bebop은 온라인 MTP co-training 대비 배치 크기를 약 40% 더 크게 설정할 수 있었으며, 이는 추가적인 처리량 향상으로 이어졌다. GPU 메모리 사용량 관점에서 보면, 온라인 MTP 학습은 모델 파라미터의 약 8~12%에 해당하는 추가 메모리를 요구하는 반면, Bebop은 이 오버헤드를 0%로 줄인다.

6.8 Pre-RL MTP 학습 데이터의 영향

흥미로운 ablation 중 하나는 Pre-RL MTP 학습에 사용되는 데이터의 구성이 수용률에 미치는 영향에 관한 것이다. 저자들은 MTP 학습 데이터를 다양하게 구성하여 실험했다: (a) SFT 데이터 전체 사용, (b) 수학 데이터만 사용, (c) 코드 데이터만 사용, (d) 범용 데이터 사용. 결과는 직관적이면서도 교훈적이었다. 특정 도메인의 데이터로만 학습된 MTP는 해당 도메인에서는 우수한 성능을 보였지만, 다른 도메인으로의 전이(transfer)가 제한적이었다. 반면 다양한 도메인을 포함한 범용 데이터로 학습된 MTP는 모든 태스크에서 균형 잡힌 성능을 보였다.

특히 주목할 점은 데이터의 양보다 다양성이 더 중요했다는 사실이다. 10만 개의 수학 문제로만 학습된 MTP보다, 1만 개씩의 수학·코드·일반 텍스트가 혼합된 3만 개의 데이터로 학습된 MTP가 코드와 에이전트 태스크에서 훨씬 높은 수용률을 기록했다. 이는 MTP 헤드의 일반화 능력이 특정 도메인의 패턴이 아닌, 언어 모델링의 보편적인 구조를 학습하는 데서 비롯됨을 시사한다. 실용적인 관점에서 이 발견은 Pre-RL MTP 학습 데이터를 구성할 때 단일 도메인에 편중하지 않고 다양한 소스를 포함시키는 것이 중요함을 알려준다.

6.9 실패 사례 분석: Bebop이 잘 작동하지 않는 조건

저자들은 Bebop의 한계를 솔직하게 드러내는 실패 사례 분석도 포함했다. Bebop이 베이스라인 대비 유의미한 개선을 보이지 않았던 조건은 크게 두 가지였다. 첫째, 극도로 높은 엔트로피 환경($\mathcal{H} > 6$)에서는 RS조차도 충분한 수용률을 유지하기 어려웠다. 이는 주로 매우 높은 temperature($T \geq 1.6$)를 사용하거나, 모델이 완전히 unfamiliar한 도메인의 입력을 처리할 때 발생했다. 이러한 환경에서는 MTP 헤드의 예측이 근본적으로 어려워지며, 손실 함수나 샘플링 전략의 변경만으로는 한계가 있다.

둘째, 토큰화가 불안정한 다국어 혼합 입력에서도 Bebop의 개선 효과가 제한적이었다. 여러 언어가 혼합된 입력이나, 희귀한 유니코드 문자가 포함된 텍스트에서는 토큰화 경계가 예측하기 어려워져 MTP 헤드의 분포 예측이 부정확해졌다. 이는 MTP가 토큰화된 표현에 의존하는 근본적 한계로, 향후 토큰화 방식 자체를 MTP에 최적화하거나, 바이트 수준의 MTP(byte-level MTP)를 고려하는 접근이 필요함을 시사한다. 저자들은 이러한 실패 사례를 통해 Bebop의 적용 범위와 한계를 명확히 하고, 후속 연구를 위한 구체적인 방향을 제시했다.

마지막으로, 저자들은 MTP 헤드의 초기화 방식이 수용률에 미치는 영향도 분석했다. 흥미롭게도 MTP 헤드를 무작위 초기화(random initialization)하는 것보다, 메인 LM 헤드의 가중치를 복제하여 초기화(weight cloning)하는 방식이 초기 수용률을 10~15% 포인트 높이고 수렴 속도도 크게 단축시켰다. 이는 메인 헤드가 이미 다음 토큰 예측에 대한 합리적인 사전 지식(prior)을 가지고 있기 때문으로, MTP 학습의 효율성을 높이는 간단하면서도 효과적인 실용적 팁이다.

7. 한계점 및 향후 연구 방향

Bebop은 MTP 기반 RL 학습 가속에 있어 획기적인 진전을 이루었지만, 논문에서 저자들이 인정한 몇 가지 한계점이 존재한다. 첫째, 본 연구는 Qwen 모델 계열에 집중되어 있어 다른 아키텍처(예: Llama, DeepSeek, Mixtral 등)에서의 일반화 가능성이 충분히 검증되지 않았다. 특히 MTP 헤드의 구조나 자기회귀 메커니즘이 다른 모델에서는 Bebop의 성능이 달라질 수 있다.

둘째, $\gamma$ 값의 선택이 현재는 실험적으로 결정되고 있으며, 최적의 $\gamma$를 태스크나 모델 특성에 따라 동적으로 조정하는 방법은 제시되지 않았다. 이론적으로는 태스크의 예측 가능성(predictability)이나 시퀀스의 구조적 특성에 따라 최적 $\gamma$가 달라질 수 있으므로, 적응적(adaptive) $\gamma$ 선택 메커니즘은 중요한 향후 연구 과제다.

셋째, Bebop은 RL 학습 단계에서의 가속에 초점을 맞추고 있으나, RL 이후의 추론(inference) 단계에서도 동일한 MTP 헤드를 사용할 수 있는지에 대한 분석은 제한적이다. RL로 파인튜닝된 모델이 실제 서비스될 때 MTP 헤드를 함께 배포할지, 아니면 별도의 경량화된 배포 구성을 취할지에 대한 논의가 필요하다.

넷째, 저자들은 Pre-RL MTP 학습이 RL 전체에 걸쳐 충분하다고 주장하지만, 극단적으로 긴 RL 학습(수만 스텝 이상)이나 정책이 크게 변화하는 시나리오에서는 주기적인 MTP 재학습이 필요할 가능성을 배제할 수 없다. 이러한 엣지 케이스에 대한 추가 연구가 필요하다. 다섯째, TV 손실의 fused kernel 구현이 Triton에 의존하고 있어, Triton을 지원하지 않는 하드웨어 환경에서는 최적화된 구현을 사용할 수 없다는 실용적 제약이 있다.

여섯째, Bebop의 실험은 상대적으로 제한된 RL 스텝 수(수백~수천 스텝)에서 수행되었다. 극단적으로 긴 RL 학습(예: 수만~수십만 스텝)에서 정책 분포가 근본적으로 변화하는 경우, 초기 SFT 단계에서 학습된 MTP 헤드의 예측 정확도가 서서히 저하될 가능성을 완전히 배제하기는 어렵다. 저자들은 실험 범위 내에서는 이러한 현상이 관찰되지 않았다고 보고하지만, 보다 장기적인 관점에서의 추가 검증이 필요하다. 특히 RLHF에서 흔히 관찰되는 '보상 해킹(reward hacking)'이나 '정책 붕괴(policy collapse)'와 같은 극단적인 분포 변화 시나리오에서 Bebop의 강건성을 검증하는 것은 중요한 향후 연구 과제다.

일곱째, Bebop은 현재 $\gamma=3$의 고정된 예측 깊이를 사용하며, 모든 토큰에 대해 균일한 예측 깊이를 적용한다. 그러나 실제로는 토큰의 예측 난이도가 위치와 맥락에 따라 크게 다르다. 예를 들어, JSON 출력에서 키(key) 토큰은 예측하기 쉽지만 값(value) 토큰은 어려울 수 있다. 이러한 토큰 수준의 난이도 차이를 반영한 가변 깊이 MTP(adaptive-depth MTP) 또는 토큰별로 예측 깊이를 동적으로 조정하는 방식은 수용률과 처리량을 더욱 최적화할 수 있는 유망한 방향이다. 또한 현재는 모든 MTP 헤드가 동일한 손실 가중치로 학습되지만, 헤드 위치에 따라 차별화된 학습 전략을 적용하는 것도 추가 개선 여지가 있다.

여덟째, 본 논문은 주로 텍스트 기반 RL 태스크에 초점을 맞추고 있다. 멀티모달 LLM이나 비전-언어 모델(VLM)에서의 RL 학습에서는 입력 모달리티의 특성상 엔트로피 변동 패턴이 다를 수 있으며, MTP의 효과도 달라질 가능성이 있다. 특히 이미지 토큰은 텍스트 토큰보다 훨씬 많은 수(수백~수천 개)가 사용되며, 이들 간의 공간적 의존성이 MTP 수용률에 미치는 영향은 아직 탐구되지 않은 영역이다. 아홉째, Bebop의 TV 손실이 최적화하는 분포 중첩은 정확히 일치하는 토큰의 비율만을 고려하며, 의미적으로는 동등하지만 토큰화가 다른 경우(예: "running" vs "run" + "ning")를 포착하지 못한다. 이러한 의미적 동등성(semantic equivalence)을 고려한 확장된 수용 기준은 MTP의 실질적 효율성을 더욱 높일 수 있는 잠재력이 있다.

8. 내 해석: 엔트로피 의존성의 실전 의미와 온라인 MTP 학습의 숨은 비용

본 논문의 가장 중요한 기여는 MTP 수용률 저하 문제를 '분포 불일치' 프레임에서 '엔트로피 변동' 프레임으로 재정의(re-frame)한 점이라고 생각한다. 기존의 직관은 "RL로 모델이 바뀌니까 MTP 예측이 틀려진다"였는데, Bebop은 "RL로 엔트로피가 올라가니까 어떤 초안도 맞추기 어려워진다"라는 더 근본적인 메커니즘을 밝혀냈다. 이는 문제 진단 자체를 바꾸는 패러다임 전환적 발견이며, 이 프레임 변화 덕분에 해결책도 완전히 달라질 수 있었다. 구체적으로, 온라인 MTP 업데이트라는 계산 비용이 큰 접근 대신, 애초에 엔트로피 변화에 강건한 MTP 헤드를 학습시키는 Pre-RL 전략이 가능해진 것이다.

e2e TV 손실 함수의 설계는 이론적으로도 우아하다. $\prod_{i=1}^{j}(1-d_{TV}(p_i, q_i))$ 항은 rejection sampling의 누적 수용 확률에 대한 직접적인 하한을 제공하며, 이를 최대화하는 것이 곧 실제 시스템 성능 최적화로 이어진다. CE 손실이나 KL 발산이 간접적인 프록시(proxy) 목표를 최적화하는 것과 달리, TV 손실은 진정한 end-to-end 목표를 최적화한다는 점에서 'what you optimize is what you get'의 좋은 사례다. 또한 TV 손실의 그래디언트가 $q(v)$에 비례하여 선택적으로 작용한다는 특성은, LLM의 롱테일 어휘 문제를 우회하는 현명한 설계 선택으로 평가된다.

다만, 본 논문에서 다소 아쉬운 점은 다양한 RL 알고리즘(PPO, GRPO, DPO 등) 각각에 대한 Bebop의 거동 차이를 깊이 있게 분석하지 않았다는 것이다. 논문은 주로 GRPO 기반의 비동기 RL 설정에서 실험을 수행했는데, PPO와 같이 클리핑 메커니즘이 있는 알고리즘이나 DPO와 같이 오프라인 선호 최적화를 사용하는 경우, 엔트로피 변동 패턴과 그에 따른 MTP 수용률 변화 양상이 다를 수 있다. 특히 DPO는 RL 단계에서 명시적인 롤아웃이 필요 없어 MTP 가속의 필요성이 낮지만, 온라인 DPO나 반복적 DPO에서는 여전히 생성 비용이 크므로 Bebop과의 결합 가능성을 탐구할 가치가 있다.

향후 연구 방향으로는 MTP 헤드의 구조 자체를 TV 손실에 더 적합하게 재설계하는 접근을 제안하고 싶다. 현재 Bebop은 기존 MTP 헤드 구조를 유지한 채 손실 함수만 변경했지만, TV 거리를 직접 임베딩 공간에서 최소화하는 정규화 기법이나, MTP 헤드 간의 attention 메커니즘을 통해 분포 일관성을 명시적으로 강화하는 아키텍처 개선이 추가적인 성능 향상을 가져올 수 있을 것이다. 또한 multi-head MTP의 각 헤드가 예측하는 토큰 위치에 따라 차별화된 TV 손실 가중치를 적용하는 전략도 검토할 만하다. 예컨대, 가까운 미래 토큰(짧은 지평선)과 먼 미래 토큰(긴 지평선)을 예측하는 헤드에 서로 다른 손실 함수 또는 하이퍼파라미터를 적용하는 방식이다.

또한 본 논문은 추론 속도 향상에 초점을 맞추고 있지만, e2e TV 손실로 학습된 MTP 헤드의 예측 분포가 보정(calibration)이나 불확실성 추정 측면에서 어떤 특성을 갖는지도 흥미로운 연구 주제다. TV 손실의 그래디언트 선택성이 모델의 과잉 확신(overconfidence)을 줄이는 효과가 있을 수 있으며, 이는 RL 환경에서의 안전한 탐색(safe exploration)이나 리워드 해킹(reward hacking) 방지 측면에서도 긍정적인 부수 효과를 가져올 가능성이 있다.

한 가지 더 지적하고 싶은 점은, 저자들이 '엔트로피'와 '수용률'의 관계를 매우 설득력 있게 규명했지만, 엔트로피 자체가 RL 학습 품질의 대리 지표(proxy)로서 어떤 의미를 갖는지에 대한 논의가 다소 부족하다는 것이다. RL 학습에서 높은 엔트로피는 탐색(exploration)을 의미하며, 이는 더 나은 정책을 발견하는 데 필수적이다. Bebop이 엔트로피 의존성을 제거했다는 것은 좋은 소식이지만, 역으로 생각하면 MTP 수용률 최적화에 지나치게 집중한 나머지 정책의 탐색 능력을 저해할 가능성은 없는지에 대한 고민도 필요하다. 예를 들어, e2e TV 손실로 학습된 MTP 헤드의 '날카로운' 분포가 정책 모델이 탐색적 토큰을 생성할 때 오히려 이를 방해할 수 있다. 다행히 저자들은 RL 학습의 최종 성능(벤치마크 점수)이 Bebop 사용 여부와 무관하게 동일하게 유지됨을 확인했지만, 이 부분에 대한 보다 정밀한 분석은 향후 연구에서 다루어질 가치가 있다.

산업적 관점에서 Bebop의 가장 큰 기여는 '복잡도를 낮추면서 성능을 높인' 점이다. 대규모 RL 학습 파이프라인을 운영하는 입장에서는 온라인 MTP co-training의 복잡성(추가 그래디언트 계산, 메모리 관리, 디버깅 난이도)이 상당한 운영 부담으로 작용한다. Bebop은 이러한 복잡성을 완전히 제거하면서도 오히려 더 나은 성능을 제공하므로, 실제 채택 장벽이 매우 낮다. 특히 Triton 커널 하나만 추가하면 기존 학습 코드베이스에 큰 수정 없이 통합할 수 있다는 점은 실무자들에게 매력적인 포인트다. 나아가 Bebop의 방법론은 Qwen 계열에 국한되지 않고, MTP를 사용하는 모든 LLM 학습 파이프라인에 적용 가능한 일반적인 해결책으로 자리 잡을 잠재력이 있다.

마지막으로, 본 논문이 제시한 '문제의 재정의(re-framing)' 접근법 자체가 하나의 연구 방법론으로서 가치가 있다고 생각한다. 많은 엔지니어와 연구자들이 MTP 수용률 저하 문제를 '모델이 변했으니 MTP도 따라가야 한다'는 직관적 프레임으로 바라보고 온라인 업데이트라는 해결책을 당연시해 왔다. 하지만 저자들은 '무엇이 진짜 원인인가'라는 더 근본적인 질문을 던졌고, 정밀한 분해 분석을 통해 통념을 뒤집는 발견을 이끌어냈다. 이러한 접근 방식은 MTP를 넘어 RL+LLM 학습 전반의 다양한 병목 현상을 분석하는 데도 적용될 수 있을 것이다. 예컨대, RL 학습에서의 메모리 병목, 통신 병목, 또는 리워드 모델의 추론 병목 등도 유사한 방식으로 '진짜 원인'을 찾고 더 우아한 해결책을 설계할 수 있을지 모른다.

8.1 추가 고찰: RL+LLM 학습 파이프라인의 시스템적 병목으로서의 엔트로피

Bebop의 발견을 더 넓은 시각에서 바라보면, '엔트로피'라는 개념이 단순히 MTP 수용률의 결정 요인을 넘어 RL+LLM 학습 파이프라인 전반의 시스템적 병목을 이해하는 핵심 렌즈가 될 수 있음을 시사한다. 예를 들어, KV 캐시 압축, 배치 스케줄링, 프롬프트 캐싱 등 다른 추론 최적화 기법들도 엔트로피 변동에 따라 그 효율성이 크게 달라질 수 있다. RL 학습 중 엔트로피가 급격히 변하는 구간에서는 이러한 최적화 기법들의 가정이 깨질 수 있으며, Bebop의 분석 프레임워크는 이러한 문제들을 진단하는 일반적인 도구로 활용될 여지가 있다. 특히 RL 초기 단계에서의 급격한 엔트로피 상승은 MTP를 넘어 거의 모든 추론 최적화 기법의 성능을 저하시킬 수 있는 '시스템적 충격(systemic shock)'으로 이해할 수 있으며, 이에 대한 강건한 설계는 향후 LLM 학습 인프라의 중요한 연구 주제가 될 것이다.

9. 결론

본 논문은 RL 학습에서 MTP를 통한 추론 가속이 직면한 근본적인 문제를 진단하고, 이를 해결하기 위한 체계적인 프레임워크 Bebop을 제시했다. 핵심 기여는 세 가지로 요약된다. 첫째, MTP 수용률이 정책 엔트로피 변동에 의해 근본적으로 제한된다는 발견과 이에 대한 이론적 분석. 둘째, rejection sampling과 e2e TV 손실 함수의 결합을 통한 엔트로피 의존성의 획기적 감소(기울기 -1.68에서 -0.06으로, 96% 이상 감소). 셋째, Pre-RL MTP 학습 전략을 통해 온라인 MTP 업데이트의 필요성을 제거하고 RL 파이프라인의 효율성을 극대화.

실험 결과는 이 프레임워크의 효과성을 강력히 뒷받침한다. Bebop은 다양한 태스크와 모델 크기에 걸쳐 최대 95%의 MTP 수용률을 달성했으며, end-to-end RL 학습을 최대 1.8배 가속했다. 특히 에이전트 작업에서의 성능 향상이 두드러졌으며, 이는 실제 애플리케이션에서 Bebop의 실용적 가치가 높을 것임을 시사한다. 또한 TV 손실의 fused Triton kernel 구현을 통해 대규모 어휘를 가진 LLM에서도 메모리 효율적인 학습이 가능함을 입증했다.

Bebop의 접근법이 특히 주목받는 이유는 '더 적은 것으로 더 많은 것을 달성(less is more)'하는 철학을 체현하고 있기 때문이다. 일반적으로 시스템 최적화는 더 많은 컴포넌트, 더 복잡한 파이프라인, 더 빈번한 업데이트 주기를 도입하는 방향으로 진행되기 쉽다. 그러나 Bebop은 정반대의 방향—MTP 헤드를 RL 중에 업데이트하지 않음으로써 시스템을 단순화하고, 그럼에도 불구하고 더 나은 성능을 달성—을 선택했다. 이러한 접근법은 단순히 MTP 최적화를 넘어, LLM 학습 파이프라인 전반의 시스템 설계 철학에 시사하는 바가 크다.

향후 Bebop의 방법론은 다음과 같은 방향으로 확장될 가능성이 높다. 첫째, MTP를 넘어 다른 speculative decoding 변형(예: Medusa, EAGLE, REST 등)에도 TV 손실 최적화와 엔트로피 분석 프레임워크를 적용하는 연구가 이어질 것이다. 둘째, RL 학습을 넘어 SFT, instruction tuning, continued pretraining 등 다양한 후학습 단계에서도 Bebop의 발견이 일반화될 수 있는지 검증하는 후속 연구가 기대된다. 셋째, Pre-RL 전략의 한계(극단적으로 긴 RL에서의 MTP 열화 가능성)를 더 정밀하게 진단하고, 필요할 때만 최소한의 재학습을 트리거하는 적응적 메커니즘을 개발하는 것도 실용적 가치가 높은 연구 방향이다.

본 논문은 RL 기반 LLM 학습의 실질적인 병목을 해결하는 데 크게 기여했으며, Bebop의 방법론은 향후 대규모 RL 학습 파이프라인의 표준 구성 요소로 자리 잡을 가능성이 높다. Pre-RL MTP + e2e TV Loss + Rejection Sampling이라는 단순하면서도 강력한 레시피는 구현 복잡도가 낮아 실제 운영 환경에의 적용도 용이할 것으로 전망된다.

요약하면, Bebop은 RL 학습 비용을 획기적으로 줄이면서도 구현 난이도가 낮고 품질 저하가 없는, 실용성과 이론적 깊이를 겸비한 연구로 평가할 수 있다. Qwen 팀의 대규모 실험을 통해 검증된 이 방법론은 향후 RL 기반 LLM 학습의 사실상 표준(de facto standard)으로 자리 잡을 가능성이 크다.

10. 요약 정리

  • RL 학습의 롤아웃 생성 단계가 전체 학습 시간의 주요 병목이며, MTP(speculative decoding)가 자연스러운 해결책이나 RL 중 수용률 저하로 인해 실질적 이득이 제한적이었다
  • MTP 수용률 저하의 근본 원인은 정책 엔트로피 증가 - 다양한 모델과 태스크에서 엔트로피와 수용 길이 간의 일관된 음의 선형 관계 발견
  • Rejection Sampling(RS)은 Target-Only(TO) 샘플링 대비 엔트로피 변화에 훨씬 강건하며, 거의 모든 모델-태스크 조합에서 RS가 TO를 능가
  • e2e TV Loss는 RS 수용률을 직접 최적화하는 손실 함수로, bounded 그래디언트와 확률-비례 선택성을 통해 CE/KL 대비 약 10%의 수용률 개선 달성
  • 엔트로피 민감도가 -1.68(CE Loss + TO)에서 -0.06(e2e TV Loss + RS)으로 96% 이상 감소, RL 전 구간에서 안정적인 수용률 유지
  • Pre-RL MTP 학습 전략이 RL 중 온라인 MTP 업데이트를 완전히 대체 가능 - 수용률 저하의 95% 이상이 분포 불일치가 아닌 엔트로피 변화에 기인
  • Qwen3.5/3.6/3.7 모델 대상 실험에서 최대 95%의 MTP 수용률, 최대 1.8배의 end-to-end RL 학습 가속, 최대 25%의 추가 추론 처리량 향상 달성
  • 에이전트 작업에서 가장 큰 수용률 향상(도구 호출 등 구조화된 출력에서 RS의 이점 극대화), 작은 모델에서도 유의미한 개선 효과
  • Fused Triton kernel 구현으로 대규모 어휘에서도 메모리 오버헤드 없이 TV 손실 학습 가능, 실용적 배포 용이성 확보
  • Bebop의 Pre-RL MTP + e2e TV Loss + Rejection Sampling 레시피는 구현 복잡도가 낮고 효과가 검증되어, 향후 대규모 RL 학습 파이프라인의 표준으로 채택될 가능성이 높음

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.