Self-Distilled Agentic Reinforcement Learning
https://arxiv.org/abs/2605.15155
Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen | Zhejiang University, Meituan, Tsinghua University | arXiv:2605.15155 | 2026년 5월
멀티턴 LLM 에이전트를 강화학습으로 후학습할 때 가장 까다로운 지점은 reward가 보통 trajectory 끝에서만 주어진다는 데 있다. ALFWorld나 WebShop처럼 환경 상태가 매 turn 바뀌는 과제에서는 한 번의 action이 이후 관찰, 다음 reasoning, tool call 선택까지 연쇄적으로 바꾼다. 최종 성공 여부만으로 모든 token과 action에 같은 방향의 advantage를 나누면 어느 선택이 실제로 좋았는지 흐려지고, 긴 horizon에서는 좋은 중간 decision도 실패 trajectory 안에 묻힌다. SDAR 논문은 이 sparse trajectory reward 문제를 token-level teacher signal과 결합하되, teacher를 무조건 신뢰하지 않는 방식으로 풀어낸다.
Self-Distilled Agentic Reinforcement Learning, 줄여서 SDAR의 출발점은 간단하다. GRPO 같은 RL objective는 환경 verifier가 주는 task-level feedback을 잘 반영하지만, token 단위로는 거칠다. 반대로 OPSD, 즉 On-Policy Self-Distillation은 student가 직접 생성한 token 위에서 privileged context를 가진 teacher branch의 log-probability를 조회하므로 훨씬 촘촘한 supervision을 제공한다. 그러나 multi-turn agent에서는 privileged context가 항상 안정적인 정답 교사가 되지 못한다. 논문은 이 불안정한 teacher signal을 sigmoid gate로 걸러 auxiliary loss에만 넣고, RL backbone의 의미는 그대로 보존한다.
이 설계가 중요한 이유는 agentic RL의 최근 흐름과 맞물린다. 기존에 리뷰한 Long-Horizon Agent Training 계열 논문들은 horizon이 길어질수록 sparse reward의 credit assignment가 급격히 어려워진다고 보았고, Shepherd의 Tree-GRPO는 rollout 중간을 fork해 suffix credit을 더 짧게 보려 했다. SDAR는 같은 문제를 다른 레이어에서 다룬다. 환경 interaction을 재구성하기보다, on-policy token sequence 위에서 teacher-student gap을 측정하고 그 gap이 긍정적인 token에 더 강한 distillation을 준다. 그래서 이 논문은 agent training의 구조 변경보다 objective 설계에 관심이 있는 독자에게 특히 읽을 만하다.
Figure 1: GRPO+OPSD와 SDAR의 설계 차이 및 전체 성능 비교
Figure 1은 SDAR가 왜 단순한 GRPO+OPSD 결합과 다른지를 한 장에 요약한다. 왼쪽은 RL을 주 손실로 유지하면서 distillation을 gate로 조절하는 흐름을 보여 주고, 오른쪽은 ALFWorld, Search-QA, WebShop에서 SDAR가 순수 GRPO와 여러 hybrid baseline보다 안정적인 성능을 낸다는 결과를 함께 배치한다. 핵심은 teacher signal을 항상 믿기보다 token마다 신뢰도를 계산한다는 점이다.
1. 서론: 긴 에이전트 trajectory에서 token-level 신호가 필요한 이유
SDAR가 겨냥하는 문제는 long-horizon agent post-training이다. 일반적인 단답형 reasoning benchmark에서는 모델이 하나의 prompt에 대해 답을 만들고, reward model 또는 verifier가 그 답을 채점한다. 하지만 multi-turn agent는 환경 observation을 보고 action을 내고, 그 action의 결과를 다시 context에 포함한 다음 다음 결정을 이어 간다. 따라서 하나의 응답은 독립적인 문장에 머물지 않고 이후 상태를 생성하는 intervention이다. 이 구조에서는 trajectory-level reward가 들어와도 어느 token이 useful action을 만들었고 어느 token이 불필요한 detour를 만들었는지 분해하기 어렵다.
논문은 이 거친 reward signal을 보완하기 위해 OPSD를 가져온다. OPSD는 별도의 강한 teacher model을 쓰는 전통적 distillation과 다르게, 같은 policy가 training-time에만 볼 수 있는 privileged context를 붙인 teacher branch로 작동한다. SDAR에서는 이 privileged context가 주로 retrieved skill이다. 예를 들어 ALFWorld에서는 가정 내 객체 조작 task에 맞는 sub-goal decomposition이나 action template이 skill로 제공될 수 있고, WebShop에서는 상품 속성 검색과 필터링 순서를 skill이 안내할 수 있다. teacher branch는 이런 context를 보고 student-sampled token에 더 높은 또는 더 낮은 확률을 부여한다.
문제는 retrieved skill이 항상 정확하지 않다는 점이다. skill retrieval이 잘못되면 teacher가 오히려 현재 trajectory에 맞지 않는 token을 선호하거나, student가 이미 맞게 고른 token을 낮게 평가할 수 있다. 논문은 이 현상을 Asymmetric Trust in Privileged Guidance로 설명한다. teacher가 student token에 더 높은 확률을 주는 positive gap은 skill이 실제로 도움이 되는 endorsement일 가능성이 크다. 반대로 teacher가 더 낮은 확률을 주는 negative gap은 token이 나쁘다는 뜻일 수도 있지만, skill 자체가 틀렸거나 teacher가 skill을 제대로 활용하지 못한 결과일 수도 있다.
이 관찰은 naive GRPO+OPSD가 왜 위험한지 설명한다. 모든 token에 distillation을 균일하게 적용하면 positive teacher endorsement와 noisy negative rejection이 같은 힘으로 들어온다. 특히 turn이 진행되며 teacher-student mismatch가 커지는 상황에서는 초반의 작은 mismatch가 후반 context drift로 확대된다. SDAR는 이 지점에서 RL을 primary objective로 남긴다. 환경 reward가 주는 GRPO update는 그대로 두고, OPSD는 bounded token-level gate를 거친 보조항으로만 사용한다.
- RL backbone 유지: trajectory reward와 group-relative advantage는 GRPO objective에서 그대로 계산한다.
- Privileged branch 활용: training-time skill context를 붙인 teacher branch가 student-sampled token의 log-probability를 평가한다.
- Token-level gate 적용: teacher-student gap을 sigmoid로 변환해 distillation 강도를 0과 1 사이로 제한한다.
- Inference-time dependency 제거: skill은 training-time teacher context로 쓰이며, 최종 student policy는 외부 skill 없이 실행된다.
논문의 핵심 기여는 그래서 새로운 benchmark 하나를 제안하는 데 있지 않다. 기존 ALFWorld, Search-QA, WebShop에서 agent RL과 OPSD를 결합하는 objective를 정교하게 만들고, naive hybrid 방식이 불안정해지는 이유를 teacher-student gap 분석으로 제시한다. 특히 Qwen2.5와 Qwen3 계열을 함께 사용해 모델 규모가 달라져도 같은 설계 원리가 유지되는지 점검했다는 점이 실험의 중심이다.
Figure 2: 멀티턴 OPSD 불안정성과 RLSD식 gap 재가중의 불안정성
Figure 2는 논문이 해결하려는 실패 모드를 직접 보여 준다. 왼쪽은 multi-turn agent에서 naive OPSD가 turn이 진행될수록 KL divergence를 키우며 성능을 떨어뜨리는 현상을 나타내고, 오른쪽은 RLSD처럼 gap을 advantage 재가중에 직접 넣을 때 loss가 불안정해지는 모습을 보여 준다. SDAR의 gate는 이 두 실패를 모두 피하려는 안전장치로 해석된다. 특히 성능 곡선과 KL 곡선을 함께 놓아, dense guidance 자체보다 update 경로 제어가 병목임을 드러낸다.
2. 배경 및 관련 연구: GRPO, OPSD, privileged skill의 충돌
2.1 GRPO가 주는 trajectory-level 신호
GRPO는 group-relative policy optimization 계열의 RL objective로, 같은 prompt에서 여러 rollout을 뽑고 reward의 상대적 차이를 advantage로 바꾼다. PPO처럼 별도의 value model에 크게 의존하지 않으면서도 clipped surrogate를 사용해 policy update를 안정화한다. LLM reasoning과 agent training에서 GRPO가 널리 쓰이는 이유는 환경 verifier 또는 rule-based reward를 붙이기 쉽고, 여러 sample 간 상대 비교가 sparse reward를 어느 정도 완화하기 때문이다.
하지만 multi-turn agent에서는 group 단위 advantage만으로 충분하지 않다. 한 rollout이 성공했을 때도 모든 token이 성공에 기여한 것은 아니며, 실패 rollout 안에도 실제로는 좋은 중간 action이 포함될 수 있다. Search-QA에서는 좋은 query를 만들었지만 후속 evidence synthesis가 실패할 수 있고, WebShop에서는 올바른 필터링을 했지만 마지막 구매 판단에서 틀릴 수 있다. 이 경우 trajectory reward는 학습 방향을 주지만 token-level credit을 충분히 분리하지 못한다.
이전 위키의 Search Round Credit Assignment 개념은 검색 trajectory 안에서 어느 round가 답변에 기여했는지 따로 보려는 시도였다. SDAR는 retrieval round나 forked branch를 직접 재점수화하지 않고, teacher branch의 token probability 차이를 이용한다. 즉 credit assignment를 environment step 단위로 나누기보다, policy가 이미 생성한 token 위에서 privileged context가 주는 추가 정보를 soft weight로 바꾼다.
2.2 OPSD와 on-policy teacher branch
On-Policy Distillation은 학생이 만든 on-policy sequence 위에서 teacher distribution을 조회한다는 점이 중요하다. offline dataset 위에서 teacher를 흉내 내면 student가 실제 훈련 중 방문하는 state와 teacher supervision이 어긋날 수 있다. OPD와 OPSD는 student rollout을 직접 대상으로 삼기 때문에 distribution mismatch를 줄이고, token마다 더 조밀한 learning signal을 제공한다. 이 장점은 sparse reward가 큰 agent task에서 매력적으로 보인다.
SDAR가 다루는 OPSD는 별도 teacher model보다 privileged context를 가진 같은 policy branch에 가깝다. student context를 $s_t=(x,y_{<t})$라고 하면 teacher context는 $s_t^+=(x,c^+,y_{<t})$로 표현된다. 여기서 $c^+$는 retrieved skill, reference answer, auxiliary information처럼 test-time에는 주지 않는 training-only 정보다. 같은 token $y_t$에 대해 teacher branch가 더 높은 log-probability를 주면 student가 아직 내재화하지 못한 useful pattern일 수 있다.
그러나 OPSD가 multi-turn agent로 넘어오면 teacher branch도 trajectory drift의 영향을 받는다. 첫 turn의 작은 mismatch가 다음 observation과 context를 바꾸고, 그 바뀐 context 위에서 teacher의 skill 활용도 흔들린다. 논문은 Figure 3을 통해 negative-gap token이 50%를 넘는다는 관찰을 제시한다. 이는 teacher가 절반 이상의 token에서 student보다 낮은 확률을 준다는 뜻이며, 모든 negative signal을 억제 대상으로 삼으면 오히려 학습을 망칠 수 있다.
2.3 Skill-conditioned privileged guidance
SDAR의 privileged context는 SkillBank에서 검색된 skill이다. skill은 task-specific demonstration, sub-goal decomposition, action template처럼 agent가 환경을 다루는 절차적 지식을 압축한 단위로 볼 수 있다. ALFWorld에서는 pick, clean, heat, cool 같은 household task category에 맞는 skill이 있고, WebShop에서는 user requirement를 상품 속성으로 분해하는 skill이 있을 수 있다. Search-QA에서는 검색 질의 구성과 evidence synthesis에 관한 skill이 teacher branch에 들어간다.
논문은 retrieval quality를 네 단계로 나눠 robustness를 본다. UCB retrieval은 skill library를 multi-armed bandit으로 보고 reward history에 따라 skill을 고른다. Keyword Matching은 task description의 keyword를 category label에 맞춰 skill을 고른다. Full retrieval은 더 많은 관련 skill을 넣는 설정이고, Random retrieval은 task awareness 없이 skill을 선택한다. 이 구분은 SDAR 성능이 skill retrieval 품질에만 의존하는지 확인하기 위한 장치다.
결과적으로 SDAR는 random retrieval에서도 GRPO baseline을 넘어선다. 이는 gate가 low-quality skill에서 나온 noisy rejection을 상당 부분 걸러낸다는 해석으로 이어진다. 물론 keyword matching처럼 더 나은 retrieval은 WebShop score와 accuracy를 더 높인다. 하지만 핵심은 retrieval이 완벽해야만 동작하는 방법보다, imperfect privileged context를 bounded auxiliary signal로 바꾸는 방법이라는 점이다.
| 구성 요소 | SDAR에서의 역할 | 불안정 요인 | 논문의 대응 |
|---|---|---|---|
| GRPO | 환경 reward를 trajectory-level advantage로 변환 | 긴 horizon에서 token별 credit이 흐려짐 | primary objective로 유지해 task semantics 보존 |
| OPSD | teacher branch의 token-level dense guidance 제공 | multi-turn drift와 negative gap 누적 | auxiliary loss로 제한 |
| Skill context | training-time privileged information 제공 | retrieval 오류와 skill 활용 실패 | sigmoid gate로 token별 신뢰도 조절 |
| Teacher-student gap | teacher endorsement 여부를 측정하는 신호 | raw coefficient로 쓰면 gradient 폭주 가능 | stop-gradient와 bounded gate 적용 |
3. 방법론: SDAR의 gated auxiliary distillation
3.1 문제 설정과 trajectory flattening
논문은 agent가 finite horizon 동안 환경과 상호작용한다고 둔다. 초기 task $x$가 주어지고, turn $k$에서 agent는 observation $o_k$를 받은 뒤 response $a_k$를 생성한다. response 안에는 reasoning token과 executable action token이 함께 들어갈 수 있다. notation을 단순하게 만들기 위해 논문은 한 trajectory 안의 valid response token을 하나의 sequence $y=(y_1,\dots,y_T)$로 flatten한다. 이때 student policy는 $\pi_\theta$이며, token position $t$의 self-student context는 $s_t=(x,y_{<t})$가 된다.
teacher branch는 같은 student policy에 privileged context를 붙여 계산한다. 즉 $s_t^+=(x,c^+,y_{<t})$이다. 여기서 $c^+$는 retrieved skill처럼 학습 중에만 제공되는 추가 정보다. 이 정의가 중요한 이유는 teacher가 완전히 별개의 stronger model이 아니라는 데 있다. teacher는 같은 parameter를 사용하지만 context가 더 풍부하다. 따라서 teacher-student gap은 model capacity 차이라기보다, training-only context가 현재 token에 얼마나 유용했는지를 측정하는 proxy가 된다.
Skill retrieval은 네 가지 방식으로 구현된다. 논문은 UCB retrieval에서 skill library $\mathcal{E}=\{e_1,\dots,e_M\}$를 multi-armed bandit처럼 보고, 각 skill의 과거 reward mean과 선택 횟수에 따라 score를 계산한다. 식은 $\mathrm{score}(e)=\bar r(e)+c\sqrt{\ln N_{\mathrm{ucb}}/n(e)}$ 형태다. Keyword Matching은 task description의 keyword와 predefined category label을 맞춰 skill을 고르는 단순한 전략이고, Full과 Random은 retrieval 품질의 상한과 하한을 보는 비교군이다.
3.2 GRPO 손실과 SDAR auxiliary 손실
SDAR의 전체 objective는 단순하다. 논문은 $\mathcal{L}(\theta)=\mathcal{L}_{\text{GRPO}}(\theta)+\lambda_{\textsc{SDAR}}\mathcal{L}_{\textsc{SDAR}}(\theta)$로 쓴다. 여기서 $\mathcal{L}_{\text{GRPO}}$는 기존 policy optimization loss이고, $\mathcal{L}_{\textsc{SDAR}}$만 새로 추가되는 token-level distillation 항이다. 중요한 설계 선택은 distillation이 advantage 자체를 바꾸지 않는다는 점이다. RLSD처럼 teacher-student gap으로 RL advantage를 재가중하면 reward semantics가 흔들릴 수 있는데, SDAR는 GRPO의 clipped surrogate를 그대로 둔다.
GRPO는 각 input $x$에 대해 $G$개의 response $\{y^{(i)}\}_{i=1}^G$를 sampling하고, 환경 reward에서 group-relative advantage $A^{(i)}$를 계산한다. token별 importance ratio $r_t^{(i)}=\pi_\theta(y_t^{(i)}\mid s_t^{(i)})/\pi_{\theta_{\mathrm{old}}}(y_t^{(i)}\mid s_t^{(i)})$를 사용해 clipped surrogate를 구성한다. SDAR는 이 RL 계산 뒤에 teacher branch forward pass를 추가해, 같은 sampled token에 대한 privileged log-probability를 얻는다.
teacher-student log-probability gap은 $\Delta_t=\log\pi_T(y_t\mid s_t^+)-\log\pi_\theta(y_t\mid s_t)$로 표현된다. $\Delta_t$가 양수면 teacher가 student token을 더 지지한다는 뜻이고, 음수면 teacher가 그 token을 덜 지지한다는 뜻이다. 하지만 음수 gap은 token 자체가 나쁘다는 확정 증거가 아니므로, 논문은 이 값을 직접 loss coefficient로 쓰지 않고 stop-gradient가 적용된 score로 다룬다. 이 stop-gradient는 gate가 self-referential한 추가 최적화 경로가 되지 않게 막는다.
3.3 Token-level sigmoid gate
SDAR의 핵심은 token-level gate $g_t\in[0,1]$이다. 논문은 raw score를 logistic sigmoid $\sigma$에 넣어 bounded weight로 만든다. 기본 gap gating은 $g_t=\sigma(\beta\Delta_t)$이며, $\beta$는 gate가 얼마나 날카롭게 켜지고 꺼질지를 조절한다. $\Delta_t$가 충분히 양수이면 gate가 커져 teacher-endorsed token에 강한 distillation을 주고, 음수이면 gate가 작아져 teacher rejection을 완만하게 attenuate한다.
논문은 세 가지 gating variant를 비교한다. Entropy gating은 student entropy $h_t$가 큰 token, 즉 student가 불확실한 token을 더 강하게 distill한다. Gap gating은 teacher-student gap을 직접 사용해 positive endorsement를 반영한다. Soft-OR gating은 entropy와 gap을 조합해 둘 중 하나가 높을 때 gate를 켜는 방식이다. ablation 결과에서는 gap gating이 가장 좋다. uncertainty만 보는 entropy보다 teacher의 실제 endorsement를 직접 반영하고, soft-OR보다 선택성이 높기 때문이다.
최종 token loss는 $\ell_t^{\textsc{SDAR}}=g_t\cdot(\log\pi_\theta^+(y_t\mid s_t^+)-\log\pi_\theta(y_t\mid s_t))$ 형태로 요약할 수 있다. 여기서 $\pi_\theta^+$는 privileged context를 붙인 branch를 뜻한다. 논문은 이 항을 valid response token에 대해 masked average로 집계한다. 따라서 SDAR는 sequence-level reward를 token-level dense signal로 대체하는 방법보다, RL이 놓치는 token granularity를 보조하는 방법에 가깝다.
Figure 4: SDAR 프레임워크: verifier-driven RL과 token-level OPSD의 결합
Figure 4는 SDAR의 전체 학습 루프를 구조적으로 보여 준다. agent는 on-policy rollout을 만들고, 환경 verifier에서 trajectory reward를 받아 GRPO 손실을 계산하며, 별도 teacher branch는 skill context를 포함한 상태에서 같은 student-sampled token에 대한 log-probability를 계산한다. 두 신호는 같은 policy update 안에 들어가지만, token-level distillation은 sigmoid gate를 거쳐 auxiliary objective로만 작동한다.
| Gate 유형 | 계산 직관 | 장점 | 논문 결과 해석 |
|---|---|---|---|
| Entropy gating | student entropy가 큰 token에 더 높은 weight | student uncertainty를 직접 반영 | teacher endorsement를 보지 못해 불필요한 token에도 켜질 수 있음 |
| Gap gating | teacher-student log-probability gap을 sigmoid로 변환 | positive teacher endorsement를 가장 직접 반영 | Figure 6에서 가장 높은 success rate와 빠른 성능 상승 |
| Soft-OR gating | entropy와 gap을 느슨하게 결합 | 두 신호 중 하나가 강할 때 활성화 | 선택성이 낮아 gap gating보다 성능이 약함 |
이 방법론의 실용적 의미는 privileged skill distillation을 안전하게 쓰는 데 있다. SkillBank가 제공하는 context는 사람이 만든 procedure나 이전 성공 경험을 담고 있을 수 있지만, 검색 품질과 task match가 매번 보장되지는 않는다. SDAR는 skill retrieval을 완벽하게 만드는 문제와 teacher signal을 안전하게 쓰는 문제를 분리한다. retrieval이 imperfect하더라도, token-level gap과 gate가 신호의 일부만 student에 전달한다.
또 하나의 장점은 inference path가 단순하다는 점이다. Skill-Prompt나 Skill-GRPO*처럼 test-time에 skill을 계속 붙이면 외부 memory 또는 retrieval system 품질에 의존한다. 반면 SDAR는 training-time에만 skill을 privileged context로 쓰고, inference-time에는 student policy 자체가 internalized behavior를 실행한다. Table 1에서 Skill-GRPO가 skill 없이 테스트될 때 성능이 크게 떨어지는 것과 비교하면, 이 차이는 agent deployment 관점에서 중요하다.
Figure 3: Teacher-Student gap의 분포와 turn/position별 변화
Figure 3은 privileged teacher가 항상 더 좋은 토큰 확률을 주는 강한 교사로 보기 어렵다는 점을 수치적으로 뒷받침한다. 토큰 gap 분포에서 negative-gap token이 절반 이상 나타나며, turn이 길어질수록 평균 gap이 벌어지는 경향도 보인다. 따라서 skill context가 붙은 teacher branch의 거절 신호를 그대로 distill하면, 실제로는 도움이 되는 guidance와 noise를 섞어 학습하게 된다.
3.4 Algorithm 1을 실행 단위로 풀어 읽기
Algorithm 1은 SDAR를 구현할 때 어떤 값이 어느 시점에 계산되는지 명확하게 보여 준다. 먼저 task batch를 sampling하고, 각 task에 대해 skill library에서 $c^+$를 가져온다. 이후 policy $\pi_\theta$가 $G$개의 response를 on-policy로 생성한다. 이 단계에서 중요한 점은 student가 실제로 만든 token sequence를 그대로 teacher evaluation의 대상으로 쓴다는 것이다. teacher가 따로 정답 trajectory를 생성해 student에게 강제로 맞추는 구조가 아니므로, distribution mismatch가 줄어든다.
다음 단계에서는 환경 interaction으로 reward $R(x,y^{(i)})$를 얻고, group 평균과 표준편차를 이용해 $A^{(i)}=(R(x,y^{(i)})-\mu_G)/\sigma_G$를 계산한다. 이 값은 GRPO loss에 들어가며, token-level gate와 직접 섞이지 않는다. 그래서 SDAR의 RL 부분은 reward가 정의한 task 성공 기준을 그대로 따른다. 이 분리가 없으면 teacher gap이 reward advantage를 왜곡할 수 있고, 논문이 Figure 2에서 지적한 RLSD식 불안정성이 다시 나타날 수 있다.
그 다음 teacher forward pass가 수행된다. 같은 sampled sequence $y^{(i)}$를 두고 student context $s_t$와 privileged context $s_t^+$에서 log-probability를 비교한다. $\Delta_t$는 stop-gradient로 detach되고, $g_t=\sigma(\beta\Delta_t)$로 변환된다. 이때 gate가 $0$ 또는 $1$의 hard mask가 아닌 smooth scalar라는 점이 중요하다. 경계에 있는 token은 완전히 버려지거나 완전히 강제되지 않고, teacher endorsement의 정도만큼 부분적인 auxiliary weight를 받는다.
마지막 update는 $\mathcal{L}_{\text{GRPO}}+\lambda\mathcal{L}_{\textsc{SDAR}}$를 최소화한다. 구현 관점에서 보면 SDAR는 environment rollout loop, reward aggregation loop, teacher scoring loop를 모두 요구한다. 따라서 시스템을 구성할 때는 rollout generation과 teacher scoring을 같은 batch scheduler 안에서 묶을지, teacher branch를 별도 worker로 둘지 결정해야 한다. 논문은 objective를 중심으로 설명하지만, 실제 재현에서는 이 세 loop의 batching 전략이 throughput과 memory footprint를 크게 바꿀 수 있다.
4. 실험 설정: ALFWorld, Search-QA, WebShop에서의 agent 후학습
4.1 데이터셋 및 벤치마크
실험은 세 가지 agent benchmark로 구성된다. ALFWorld는 ALFRED embodied AI benchmark와 연결된 text-based game 환경으로, agent가 household activity를 수행해야 한다. task category는 Pick and Place, Look at Obj in Light, Pick Clean then Place in Recep, Pick Heat then Place in Recep, Pick Cool then Place, Pick Two Obj and Place로 나뉘며, 논문은 총 3,827개 task instance를 언급한다. 이 환경은 action이 다음 observation을 직접 바꾸므로 multi-turn decision quality를 보기에 적합하다.
Search-QA는 search-augmented question answering setting이다. NQ, TriviaQA, PopQA 같은 single-hop QA와 HotpotQA, 2Wiki, MuSiQue, Bamboogle 같은 multi-hop QA를 포함한다. 논문은 Search-R1 설정을 따르고, retriever로 E5를 사용한다. NQ와 HotpotQA에서 training data를 뽑아 in-domain으로 두고, 나머지 dataset은 out-of-domain evaluation으로 사용한다. 이 구성은 SDAR가 단순히 training set answer pattern을 외우는지, 검색과 reasoning을 함께 일반화하는지 보려는 장치다.
WebShop은 현실적인 online shopping scenario를 흉내 내는 web-based interactive environment다. agent는 사용자 요구사항을 읽고 검색, 필터링, 상품 비교, 구매 결정을 순차적으로 수행한다. 논문은 Feng et al. 설정과 맞춰 validation set에서 128개 fixed task를 사용한다. WebShop은 score와 accuracy를 함께 보며, action path가 길고 textual observation이 계속 바뀌므로 skill-conditioned guidance가 실제로 internalized되는지 확인하기 좋다.
| Benchmark | 평가 대상 | 논문 설정 | SDAR와의 관련성 |
|---|---|---|---|
| ALFWorld | text-based household action planning | 3,827 task, 6개 category, success rate 보고 | 긴 환경 상호작용과 action template 활용 능력 평가 |
| Search-QA | single-hop 및 multi-hop search QA | NQ/HotpotQA training, E5 retriever, 7개 dataset 평가 | 검색 round와 reasoning token의 credit assignment 확인 |
| WebShop | 온라인 쇼핑형 web interaction | validation 128 fixed tasks, Score/Acc 보고 | skill 없이 inference하는 internalization 여부 확인 |
4.2 구현 세부사항
논문은 Qwen2.5-Instruct와 Qwen3-Instruct 계열을 사용한다. 구체적으로 Table 1에는 Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen3-1.7B-Instruct가 등장한다. 모든 SDAR 훈련은 150 steps 동안 수행되며, 8개의 H800 GPU를 사용한다고 보고한다. ALFWorld와 WebShop에서는 batch마다 16 tasks를 sampling하고 prompt마다 8 rollouts를 생성한다. Search-QA에서는 batch size가 128 tasks이고 maximum prompt length가 4,096 tokens다.
ALFWorld에서는 GiGPO의 training split을 따르고, maximum prompt length는 2,048 tokens다. WebShop에서는 1,000개 task를 training에 사용하고 maximum prompt length는 4,096 tokens로 둔다. 세 환경 모두 SkillRL의 SkillBank를 사용한다. SDAR의 기본 hyperparameter는 $\lambda_{\textsc{SDAR}}=0.01$, $\beta=5.0$이다. 이 값은 이후 ablation에서 moderate auxiliary signal과 smooth gating 사이의 균형점으로 다시 검증된다.
4.3 베이스라인
비교군은 세 범주로 나뉜다. 첫째, training-free method인 Skill-Prompt는 keyword matching으로 skill을 검색해 inference prompt에 붙인다. 이는 skill context가 단순 prompt augmentation만으로도 효과가 있는지 보는 baseline이다. 둘째, post-training method로 GRPO, OPSD, Skill-GRPO가 있다. Skill-GRPO는 훈련 중 keyword-matched skill을 prompt에 넣어 GRPO를 수행하고, inference 때 skill을 붙인 Skill-GRPO*와 skill 없이 실행한 Skill-GRPO를 함께 비교한다.
셋째, hybrid method로 GRPO+OPSD, Skill-SD, RLSD가 들어간다. GRPO+OPSD는 말 그대로 GRPO 위에 OPSD loss를 단순히 더한 baseline이다. Skill-SD는 retrieved skill을 privileged context로 사용해 distillation을 결합하고, RLSD는 self-teacher gap으로 GRPO advantage를 재가중하는 방식이다. SDAR는 이 hybrid family 안에 있지만, distillation이 RL advantage를 직접 바꾸지 않고 separate auxiliary objective로 유지된다는 점에서 비교군과 갈린다.
| Method | 범주 | Skill 사용 방식 | 핵심 한계 또는 비교 포인트 |
|---|---|---|---|
| Vanilla | base policy | skill 없음 | 후학습 없는 기본 능력 확인 |
| Skill-Prompt* | training-free | inference prompt에 skill 삽입 | skill retrieval 의존성이 큼 |
| GRPO | post-training RL | skill 없음 | trajectory reward만 사용해 token-level credit이 거침 |
| Skill-GRPO / Skill-GRPO* | skill-augmented RL | 훈련 또는 추론 prompt에 skill 사용 | skill 없는 inference에서 성능 drop 가능 |
| GRPO+OPSD | naive hybrid | OPSD loss를 균일하게 추가 | multi-turn instability에 취약 |
| RLSD | gap-weighted hybrid | gap으로 RL advantage 재가중 | 초기 mismatch에서 update가 증폭될 수 있음 |
| SDAR | gated auxiliary hybrid | training-time privileged skill + token gate | RL semantics를 유지하면서 positive guidance만 선택적으로 전달 |
4.4 평가 프로토콜에서 봐야 할 세부 지점
ALFWorld 결과를 읽을 때는 평균 성공률만 보면 일부 정보를 놓친다. Table 1은 Pick, Look, Clean, Heat, Cool, Pick2를 따로 제시한다. SDAR는 Qwen2.5-3B에서 Pick2를 84.2까지 끌어올리며, 이는 GRPO의 47.4보다 크게 높다. Pick2는 두 물체를 다루는 복합 과제라서 단일 action template보다 sub-goal sequencing이 중요하다. 이 차이는 retrieved skill이 단순 prompt 힌트로 남기보다, 여러 action을 이어 붙이는 절차적 bias로 student에 들어갔을 가능성을 시사한다.
Search-QA에서는 dataset별 편차가 중요하다. Qwen2.5-7B에서 SDAR는 PopQA 48.2, 2Wiki 48.4, Bamboogle 73.0을 기록한다. GRPO는 각각 44.0, 43.2, 37.6이다. Bamboogle 상승이 특히 크므로, SDAR가 단순 fact recall보다 multi-hop search와 evidence synthesis에서 효과를 냈을 가능성이 있다. 다만 NQ와 TriviaQA에서는 GRPO+OPSD나 Skill-SD가 일부 더 높은 숫자를 보이므로, SDAR가 모든 dataset column에서 압도적인 방법이라고 읽기보다 평균 안정성과 WebShop/ALFWorld generalization을 함께 보는 편이 정확하다.
WebShop은 Score와 Acc를 함께 봐야 한다. Score는 부분적으로 좋은 상품 선택이나 속성 매칭을 반영할 수 있고, Acc는 최종 성공 여부를 더 강하게 본다. Qwen2.5-7B에서 SDAR는 Score 89.4, Acc 82.8을 기록하며 둘 다 최고다. 이는 final purchase decision만 맞춘 것이 아니라, 탐색과 비교 과정에서 누적되는 선택 품질도 좋아졌다는 신호다. Qwen3-1.7B에서는 Score는 Skill-SD가 81.8로 더 높지만, Acc는 SDAR가 58.6으로 가장 높다. 작은 모델에서 SDAR가 최종 성공 조건을 더 잘 맞춘 셈이다.
이 평가 프로토콜은 한 가지 운영적 질문도 남긴다. SDAR는 inference 때 skill을 쓰지 않지만, training 때는 skill retrieval과 teacher scoring을 사용한다. 그러므로 같은 benchmark에서 training-time retrieval 실패율, teacher branch latency, gate activation 분포를 함께 공개하면 결과 해석이 더 쉬워진다. 예를 들어 WebShop의 높은 accuracy가 특정 상품 category의 skill에 집중되어 있는지, Search-QA의 Bamboogle 상승이 multi-hop question type에서 주로 나오는지까지 분해하면, 방법의 적용 범위를 더 명확히 알 수 있다.
5. 주요 실험 결과: 순수 GRPO보다 크고 naive hybrid보다 안정적인 개선
5.1 Qwen2.5-3B 결과
Qwen2.5-3B-Instruct에서 SDAR는 ALFWorld 평균 84.4를 기록한다. 같은 설정의 GRPO는 75.0이므로 +9.4 point 상승이다. Search-QA 평균에서는 GRPO 36.4에 대해 SDAR 43.4로 +7.0 point가 보고된다. WebShop에서는 GRPO가 Score 79.8, Acc 63.3인 반면 SDAR는 Score 85.0, Acc 68.0을 기록한다. 논문 abstract의 +10.2% WebShop-Acc는 7B 설정 기준이고, 3B에서도 accuracy가 +4.7 point 높다.
흥미로운 비교는 Skill-GRPO와 Skill-GRPO* 사이에서 나온다. Qwen2.5-3B에서 Skill-GRPO는 ALFWorld 평균 60.2에 그치지만, skill을 inference 때 붙인 Skill-GRPO*는 80.5로 오른다. 이는 policy 자체가 skill을 충분히 internalize하지 못하고, inference-time skill prompt에 의존한다는 뜻이다. SDAR는 inference-time skill 없이 84.4를 내므로, training-time privileged guidance가 policy parameter에 더 잘 흡수되었다는 논문의 주장을 뒷받침한다.
| Qwen2.5-3B Method | ALFWorld Avg | Search-QA Avg | WebShop Score | WebShop Acc | 해석 |
|---|---|---|---|---|---|
| Vanilla | 21.9 | 31.7 | 6.7 | 0.8 | 후학습 전 agent 능력은 세 환경 모두 낮음 |
| OPSD | 28.1 | 0.0 | 11.3 | 3.1 | standalone OPSD는 Search-QA에서 사실상 collapse |
| GRPO | 75.0 | 36.4 | 79.8 | 63.3 | trajectory reward 기반 RL의 강한 baseline |
| Skill-GRPO* | 80.5 | 36.1 | 76.3 | 66.4 | skill prompt를 inference에 붙이면 ALFWorld가 크게 상승 |
| RLSD | 79.7 | 43.8 | 84.4 | 66.4 | gap을 RL 쪽에 섞는 hybrid baseline |
| SDAR | 84.4 | 43.4 | 85.0 | 68.0 | ALFWorld와 WebShop Acc에서 가장 강한 결과 |
5.2 Qwen2.5-7B 결과
Qwen2.5-7B에서는 baseline 자체가 강해진다. GRPO는 ALFWorld 81.2, Search-QA 42.0, WebShop Acc 72.6을 기록한다. SDAR는 각각 85.9, 49.0, 82.8을 보인다. 특히 Search-QA 평균은 RLSD와 같은 49.0으로 최고권이며, WebShop accuracy는 82.8로 Skill-GRPO* 81.2와 RLSD 77.3보다 높다. 이 결과는 SDAR가 작은 모델에서만 불안정을 막는 trick에 그치지 않고, 더 큰 7B 모델에서도 inference-time skill dependency를 줄이는 방식으로 작동함을 보여 준다.
다만 ALFWorld에서는 Skill-GRPO*가 88.3으로 SDAR 85.9보다 높다. 이는 skill을 inference에 계속 붙이는 설정이 특정 embodied text game에서는 여전히 강할 수 있음을 뜻한다. 그러나 SDAR의 목적은 test-time skill retrieval을 유지하는 것이 아니라, training-time skill signal을 policy 내부로 옮기는 것이다. deployment 비용과 retrieval failure 위험을 고려하면, 2.4 point 차이만으로 Skill-GRPO*가 항상 더 낫다고 보기 어렵다.
| Qwen2.5-7B Method | ALFWorld Avg | Search-QA Avg | WebShop Score | WebShop Acc | 해석 |
|---|---|---|---|---|---|
| GRPO | 81.2 | 42.0 | 80.9 | 72.6 | 강한 RL baseline |
| Skill-GRPO* | 88.3 | 47.5 | 87.0 | 81.2 | test-time skill을 쓰면 ALFWorld가 최고 |
| GRPO+OPSD | 80.4 | 47.0 | 86.8 | 76.5 | 단순 결합은 Search-QA 일부에서 강하지만 일관성 부족 |
| Skill-SD | 85.1 | 47.8 | 86.1 | 76.5 | hybrid distillation baseline |
| RLSD | 82.0 | 49.0 | 87.4 | 77.3 | Search-QA 평균은 높지만 WebShop Acc는 SDAR보다 낮음 |
| SDAR | 85.9 | 49.0 | 89.4 | 82.8 | Search-QA와 WebShop에서 가장 실용적인 조합 |
5.3 Qwen3-1.7B 결과
Qwen3-1.7B는 작지만 newer family에 속하는 모델로, retrieved skill을 잘 활용하지 못할 때의 취약성이 더 두드러진다. GRPO는 ALFWorld 46.1, Search-QA 40.8, WebShop Acc 38.3을 기록한다. SDAR는 ALFWorld 53.9, Search-QA 41.9, WebShop Acc 58.6이다. WebShop accuracy의 상승 폭이 특히 크며, Skill-GRPO*의 50.0과 Skill-SD의 53.9를 넘어선다. 작은 모델일수록 teacher signal을 그대로 강제하는 방식보다 bounded gate가 더 필요하다는 해석이 가능하다.
이 설정에서 naive GRPO+OPSD는 ALFWorld 32.0으로 GRPO 46.1보다 낮다. 논문은 이를 unbounded distillation gradient가 RL signal을 압도한 사례로 본다. OPSD 단독도 Search-QA 평균 5.8로 붕괴한다. 반면 SDAR는 same teacher branch를 사용하면서도 loss path를 제한하기 때문에, distillation 자체를 버리지 않고도 instability를 피한다. 이 차이가 SDAR의 방법론적 메시지다.
| Qwen3-1.7B Method | ALFWorld Avg | Search-QA Avg | WebShop Score | WebShop Acc | 해석 |
|---|---|---|---|---|---|
| Vanilla | 12.5 | 24.8 | 46.5 | 4.7 | base policy만으로는 interactive success가 낮음 |
| OPSD | 14.1 | 5.8 | 47.4 | 9.3 | dense distillation만으로는 Search-QA가 크게 무너짐 |
| GRPO | 46.1 | 40.8 | 67.3 | 38.3 | 작은 모델에서도 RL은 기본 성능을 회복 |
| GRPO+OPSD | 32.0 | 42.2 | 70.7 | 38.3 | Search-QA는 높지만 ALFWorld에서 RL보다 악화 |
| Skill-SD | 52.3 | 40.8 | 81.8 | 53.9 | 기존 hybrid 중 가장 강한 축 |
| SDAR | 53.9 | 41.9 | 76.8 | 58.6 | ALFWorld 평균과 WebShop Acc에서 최고 |
Figure 5: 훈련 중 평균 Teacher-Student gap과 gate activation ratio
Figure 5는 Qwen2.5-7B-Instruct를 ALFWorld에서 훈련할 때 SDAR gate가 어떻게 움직이는지 보여 준다. 평균 teacher-student gap은 초반에 음수에 머물러 teacher branch가 student sampled token을 낮게 평가하는 상황이 많음을 나타낸다. 동시에 gate activation ratio는 초반에 0.5 미만으로 유지되어 부정확한 negative guidance를 억제하고, 학습이 진행되면서 점차 더 많은 token을 distillation 대상으로 받아들인다.
6. 추가 분석 및 Ablation Study: gate가 실제로 무엇을 거르는가
6.1 Retrieval quality robustness
논문은 SDAR가 skill retrieval 품질에 과도하게 의존하는지 보기 위해 네 가지 retrieval strategy를 비교한다. 기준선은 w/o OPSD, 즉 GRPO만 쓰는 설정이며 ALFWorld 81.2, WebShop Score 80.9, WebShop Acc 72.6이다. Random retrieval을 붙여도 SDAR는 각각 83.1, 82.5, 73.6으로 오른다. task awareness가 없는 skill도 완전히 무해하다고 볼 수는 없지만, gate가 negative guidance를 줄여 최소한 baseline보다 나은 방향으로 auxiliary signal을 남긴다는 결과다.
Keyword Matching은 ALFWorld 85.9, WebShop Score 89.4, Acc 82.8로 가장 실용적인 trade-off를 보인다. UCB는 ALFWorld 86.8로 더 높지만 WebShop score와 accuracy에서는 KM이 더 좋다. Full retrieval은 ALFWorld 83.2, WebShop Acc 78.1로 중간이다. 더 많은 skill이 항상 더 좋은 signal을 주지는 않는다는 점도 드러난다. privileged context가 많아질수록 teacher branch가 참고할 정보는 늘지만, task에 직접 맞지 않는 절차가 섞이면 token-level gap이 더 noisy해질 수 있다.
| Retrieval strategy | ALFWorld | WebShop Score | WebShop Acc | GRPO 대비 의미 |
|---|---|---|---|---|
| w/o OPSD | 81.2 | 80.9 | 72.6 | distillation 없는 기준 |
| Random | 83.1 (+1.9) | 82.5 (+1.6) | 73.6 (+1.0) | low-quality skill에서도 gate가 noise를 완화 |
| Full | 83.2 (+2.0) | 87.2 (+6.3) | 78.1 (+5.5) | 많은 skill을 넣어도 항상 최고는 아님 |
| UCB | 86.8 (+5.6) | 87.5 (+6.6) | 81.2 (+8.6) | 과거 reward 기반 선택이 ALFWorld에서 강함 |
| Keyword Matching | 85.9 (+4.7) | 89.4 (+8.5) | 82.8 (+10.2) | 간단한 retrieval이 WebShop에서 최고 |
6.2 Gate choice, beta, lambda
gating ablation은 SDAR에서 가장 중요한 분석이다. Gap gating은 teacher가 student token을 실제로 더 지지하는지 직접 보기 때문에 가장 높은 성능을 보인다. Entropy gating은 student가 불확실한 token을 잡는 장점이 있지만, 불확실성이 teacher의 correctness와 일치한다는 보장은 없다. Soft-OR는 entropy와 gap 중 하나만 높아도 gate가 열려 selectivity가 낮아진다. 논문은 남은 실험의 default를 gap gating으로 설정한다.
$\beta$ ablation에서는 $\beta=5$가 가장 좋다. $\beta=0$은 gating 제거와 같아 모든 token에 uniform distillation을 적용한다. 이는 naive OPSD의 multi-turn instability를 다시 가져온다. $\beta=10$처럼 너무 큰 값은 gate를 거의 binary decision으로 만들어 borderline token에 대한 partial credit을 잃는다. $\beta=5$는 positive gap을 충분히 키우면서도 transition을 smooth하게 유지하는 값으로 해석된다.
$\lambda_{\textsc{SDAR}}$ ablation도 같은 메시지를 준다. $0.001$은 distillation이 너무 약해 RL이 놓친 token-level correction을 충분히 제공하지 못한다. $0.1$은 auxiliary loss가 policy update를 압도해, teacher가 평균적으로 더 confident하지 않은 multi-turn setting에서 오히려 낮은 품질의 신호를 강하게 밀어 넣는다. $0.01$은 GRPO reward가 주는 task-level 방향성을 유지하면서, positive teacher gap이 있는 token을 보정하는 정도로 작동한다.
Figure 6: Token-level gating 방식별 ablation
Figure 6은 entropy gating, teacher-student gap gating, soft-OR gating을 비교한다. 논문은 gap gating이 가장 높은 asymptotic success rate와 빠른 상승을 보였다고 해석한다. 이는 entropy가 student uncertainty만 보아 teacher endorsement를 직접 반영하지 못하고, soft-OR가 두 신호를 느슨하게 합치면서 선택성을 낮추는 반면, gap은 teacher가 실제로 student token을 더 지지하는지를 가장 직접적으로 측정하기 때문이다.
Figure 7: Distillation coefficient lambda에 대한 민감도
Figure 8은 $\lambda_{\textsc{SDAR}}$ 값을 바꾸었을 때의 성능 변화를 보여 준다. 논문은 $0.01$이 RL objective를 방해하지 않으면서 token-level auxiliary signal을 제공하는 균형점이라고 보고한다. $0.001$은 보정 압력이 약하고, $0.1$은 distillation gradient가 primary RL update를 압도해 multi-turn teacher mismatch를 다시 학습에 주입하는 실패로 이어진다.
6.3 Loss type과 reverse KL의 의미
논문은 token-level matching objective로 reverse KL, forward KL, Jensen-Shannon divergence를 비교한다. 기본값은 reverse KL이며, 이는 student-sampled token 위에서 teacher probability와 student probability의 차이를 계산하기 쉽다. reverse KL은 mode-seeking 성향을 갖기 때문에 teacher가 강하게 지지하는 mode에 student probability를 집중시키는 방향으로 작동한다. SDAR처럼 teacher signal이 부분적으로 약하고 noisy한 상황에서는 이 선택성이 중요하다.
Forward KL은 mode-covering 성향이 있어 teacher가 support하는 여러 token을 더 넓게 반영하려고 한다. 강한 teacher가 전체 distribution을 안정적으로 제공할 때는 장점이 될 수 있지만, skill-conditioned teacher가 자주 흔들리는 multi-turn agent에서는 불필요한 guidance까지 흡수할 수 있다. JSD는 양쪽을 대칭적으로 섞는 타협안이지만, 논문은 이 또한 reverse KL보다 낮은 결과를 보인다고 보고한다. SDAR의 gate와 reverse KL은 모두 selective distillation을 강화하는 방향으로 맞물린다.
Figure 8: 모델·환경별 Teacher-Student gap 진단
Figure 13은 ALFWorld, WebShop, Search-QA에서 여러 Qwen 계열 모델의 teacher-student gap 변화를 함께 보여 주는 appendix 진단 그림이다. 본문 Figure 5가 한 설정의 대표 사례를 보여 준다면, 이 그림은 gap이 단일 benchmark 우연에 머물지 않고 모델 규모와 task 종류를 가로질러 관리해야 할 신호임을 보강한다. SDAR의 장점은 이 gap을 reward 자체로 바꾸지 않고 bounded gate로만 사용한다는 데 있다.
| Hyperparameter / Objective | 논문 기본값 또는 비교값 | 관찰된 역할 | 실무적 해석 |
|---|---|---|---|
| $\beta$ | 0, 1, 5, 10 비교; 기본 5.0 | gate sharpness 조절 | 너무 낮으면 uniform distillation, 너무 높으면 hard filtering |
| $\lambda_{\textsc{SDAR}}$ | 0.001, 0.01, 0.1 비교; 기본 0.01 | auxiliary loss 세기 조절 | GRPO를 보조할 정도가 적절하며, 큰 값은 teacher mismatch를 확대 |
| Reverse KL | 기본 objective | student-sampled token에서 teacher endorsement를 선택적으로 반영 | noisy privileged teacher에 가장 적합한 방향 |
| Forward KL | 비교 objective | teacher support를 넓게 덮으려는 성향 | 불안정한 skill signal까지 흡수할 수 있음 |
| JSD | 비교 objective | 대칭적 절충 | selective distillation 관점에서는 reverse KL보다 약함 |
Appendix의 theoretical analysis는 gate를 stop-gradient로 detach하는 이유를 설명한다. gate가 detached되어 있으면 SDAR loss는 token-weighted log-likelihood와 동치에 가까워지고, gradient는 $0<g_t<1$ 범위의 scalar weight로만 조절된다. 반대로 gate까지 미분하면 $\sigma(\beta\Delta_t)\Delta_t$ 형태의 self-referential coupling term이 생겨, teacher-student mismatch가 큰 초기 훈련 구간에서 불안정한 gradient 경로가 열린다. 이 분석은 Figure 2의 empirical instability와 연결된다.
Algorithm 1도 같은 구조를 따른다. 매 training iteration에서 task batch를 sample하고, task별 skill을 retrieval한 뒤, policy가 $G$개 response를 on-policy rollout한다. 환경 reward로 group-relative advantage를 계산해 GRPO loss를 만들고, privileged teacher forward pass로 token gap을 계산한다. 그 gap은 stop-gradient와 sigmoid gate를 거쳐 SDAR loss가 되며, 마지막 update는 $\mathcal{L}_{\text{GRPO}}+\lambda\mathcal{L}_{\textsc{SDAR}}$를 minimize하는 방식으로 수행된다.
6.4 Gate 진단을 운영 로그로 바꾸는 방법
Figure 10부터 Figure 14까지의 appendix 진단은 SDAR를 단순 성능 향상 방법에서 관측 가능한 training procedure로 바꿔 준다. Gate active ratio, gate mean, OPSD loss, teacher-student gap, reward curve를 함께 보면 auxiliary distillation이 언제 켜지고 언제 약해지는지 추적할 수 있다. 특히 gate active ratio가 초반에 낮게 유지되다가 reward가 오르면서 증가한다면, 모델이 먼저 RL로 안정적인 policy region에 들어간 뒤 teacher signal을 더 많이 수용하는 과정으로 해석할 수 있다.
운영 로그로 옮기면 최소한 네 가지 지표를 남기는 것이 좋다. 첫째, task category별 평균 $\Delta_t$다. 특정 category에서 gap이 계속 음수라면 skill library가 맞지 않거나 teacher branch가 해당 환경을 잘 활용하지 못한다는 뜻일 수 있다. 둘째, action token과 reasoning token의 gate activation 비율이다. reasoning token에서만 gate가 켜지고 실제 action token에서는 꺼진다면, distillation이 환경 제어보다 설명 문체에만 영향을 줄 수 있다. 셋째, 성공 trajectory와 실패 trajectory의 gate 차이다. 넷째, retrieval strategy별 positive-gap token 비율이다.
이런 로그는 SDAR의 failure analysis에도 필요하다. 예를 들어 WebShop에서 score는 높지만 accuracy가 낮은 case가 있다면, 상품 탐색 단계의 token은 잘 distill되었지만 final choice action의 gate가 충분하지 않았을 수 있다. ALFWorld에서 Clean이나 Heat category가 흔들린다면, skill이 action precondition을 잘 설명하지 못했거나, teacher branch가 environment observation의 변화를 잘 반영하지 못했을 수 있다. token-level objective의 장점은 이런 세부 실패를 span 단위로 되짚을 수 있다는 데 있다.
비용 관점에서도 gate 로그는 유용하다. teacher forward pass가 비싼데 gate active ratio가 장기간 낮다면, 모든 token에 teacher scoring을 하는 방식이 비효율적일 수 있다. 이 경우 일정 step 이후에만 teacher scoring을 켜거나, high-uncertainty span만 teacher branch로 보내는 selective teacher evaluation을 설계할 수 있다. 논문은 이 최적화까지 다루지는 않지만, SDAR의 bounded gate는 training cost를 줄이는 adaptive scheduling으로 확장하기 좋은 형태를 갖고 있다.
7. 한계점 및 향후 연구 방향: skill, benchmark, 비용의 세 가지 병목
첫 번째 한계는 skill library의 성격이다. 논문은 SkillRL의 SkillBank를 사용하고 UCB, KM, Full, Random retrieval을 비교하지만, skill이 어떻게 작성되었는지, skill granularity가 환경별로 얼마나 균일한지에 대한 분석은 상대적으로 제한적이다. SDAR가 low-quality skill에서도 baseline보다 낫다는 점은 설계의 robustness를 보여 주지만, 실제 deployment에서는 skill library 자체가 오래되거나 domain drift를 겪을 수 있다. 이때 teacher branch가 만드는 positive gap이 정말 transferable knowledge인지, 단순히 outdated procedure에 대한 과신인지 추가 검증이 필요하다.
두 번째 한계는 benchmark 범위다. ALFWorld, Search-QA, WebShop은 agent training의 대표 과제지만, 모두 비교적 명확한 reward 또는 answer matching 구조를 갖는다. 실제 업무 agent에서는 file system state, long-running task, human-in-the-loop approval, partial credit, non-deterministic tool result가 섞인다. SDAR의 gate가 noisy teacher rejection을 줄이는 데 효과적이라면 이런 환경에서도 유망하지만, verifier reward가 더 느슨하거나 delayed feedback이 많은 setting에서는 $\Delta_t$와 final reward의 상관이 약해질 수 있다.
세 번째 한계는 비용이다. SDAR는 teacher branch forward pass를 추가로 요구한다. 같은 policy라도 privileged context를 붙인 forward를 수행해야 하므로, rollout generation과 reward computation만 있는 GRPO보다 training cost가 커진다. 논문은 8개의 H800 GPU에서 150 steps로 실험했다고 보고하지만, throughput, wall-clock, memory overhead를 baseline별로 자세히 비교하지는 않는다. 실제 대규모 agent training 파이프라인에서는 reward server, environment simulator, retriever, teacher forward가 모두 병목이 될 수 있다.
향후 연구 방향은 gate를 더 구조화하는 쪽으로 열려 있다. 현재 SDAR gate는 token-level scalar weight다. 그러나 agent action은 token sequence로 표현되더라도 실제 의미 단위는 thought span, tool call, search query, environment action처럼 더 큰 chunk일 수 있다. token gate를 action span gate 또는 tool-call gate와 결합하면, teacher signal이 어떤 semantic unit에서 도움이 되었는지 더 명확하게 볼 수 있다. 특히 Search-QA에서는 검색 질의 생성 token과 answer synthesis token을 구분하는 gate 분석이 유용하다.
또 다른 방향은 retrieval policy와 distillation gate를 함께 학습하는 것이다. 논문은 retrieval strategy를 고정 비교하지만, 장기적으로는 teacher gap과 downstream reward를 이용해 어떤 skill을 언제 retrieval해야 하는지까지 policy가 학습할 수 있다. 다만 이 경우 retrieval model이 reward hacking을 하거나, gate가 켜지기 쉬운 skill만 고르는 편향이 생길 수 있다. 따라서 skill selection reward, token-level gate, environment reward를 분리해 관측하는 logging 체계가 함께 필요하다.
8. 내 해석: 약점 1 + 후속 제안 1
나는 SDAR의 가장 설득력 있는 지점이 teacher를 약한 privileged branch로 취급한다는 데 있다고 본다. 이전에 정리한 On-Policy Distillation 페이지에서는 teacher 신호가 학생 rollout 위에서 exploitable한 분포를 줄 때만 강한 update가 된다고 보았다. SDAR는 이 조건을 multi-turn agent로 옮겨, teacher가 항상 우월하다는 가정을 버린다. 이 점은 Shepherd의 Tree-GRPO나 Long-Horizon Agent Training에서 보았던 credit assignment 문제와도 이어진다. 긴 trajectory에서는 reward와 teacher signal이 함께 점점 더 불확실해진다. SDAR는 그 불확실성을 없애려 하기보다 gate로 노출시키는 설계다.
약점으로는 positive gap의 의미 검증이 아직 충분히 분리되어 있지 않다는 점이 걸린다. 논문은 negative gap이 noisy할 수 있다고 잘 설명하지만, positive gap이 항상 task-improving endorsement인지도 별도 검증이 필요하다. skill이 잘못된 방향으로 confident할 때 teacher는 student token에 높은 확률을 줄 수 있고, gate는 그 token을 강하게 distill할 수 있다. Table 2의 random retrieval 결과가 baseline보다 높다는 점은 고무적이지만, 어떤 token span에서 random skill이 positive gap을 만들었는지, 그 span이 실제 success trajectory와 어떻게 연결되는지는 더 세밀한 trace 분석이 필요하다.
내가 이 논문을 확장한다면 token-level gate를 action provenance와 묶어 보고 싶다. 예를 들어 WebShop에서는 query 작성, 상품 클릭, 속성 비교, 최종 구매 판단을 span 단위로 나누고, 각 span의 평균 gap, gate activation, reward contribution을 함께 기록한다. ALFWorld에서는 sub-goal별 action template과 gate를 연결해 어떤 skill이 clean, heat, cool 같은 category에서 실제로 internalized되었는지 본다. 이렇게 하면 SDAR가 성능을 올렸다는 결과를 넘어, 어떤 종류의 privileged knowledge가 policy parameter에 남았는지 설명할 수 있다.
후속 제안은 retrieval과 gate를 독립 평가하는 cost-normalized agent training benchmark다. 같은 reward budget에서 GRPO, Tree-GRPO, SDAR, search-round credit assignment 방법을 비교하고, teacher forward cost와 environment rollout cost를 함께 보고해야 한다. agent 학습에서는 성능 5 point 상승도 중요하지만, 그 상승을 얻기 위해 teacher pass가 두 배로 늘었는지, retriever latency가 병목인지, skill library 유지 비용이 얼마나 되는지가 deployment 결정을 바꾼다. SDAR는 objective 측면의 좋은 답을 제시했으므로, 다음 단계는 이 objective를 운영 예산 안에서 어디까지 밀어붙일 수 있는지 확인하는 일이다.
9. 결론: RL을 중심에 두고 distillation을 조심스럽게 쓰는 방향
SDAR 논문은 agentic RL과 on-policy self-distillation을 결합할 때, dense teacher signal을 많이 넣는 것보다 언제 믿을지를 정하는 것이 더 중요하다고 주장한다. GRPO는 환경 reward를 통해 task-level 방향을 제공하지만 token-level credit이 거칠다. OPSD는 privileged context를 통해 dense guidance를 제공하지만 multi-turn drift와 retrieval noise에 취약하다. SDAR는 두 신호의 역할을 분리한다. RL은 primary optimization backbone으로 두고, OPSD는 stop-gradient가 적용된 sigmoid gate를 거친 auxiliary objective로만 사용한다.
실험 결과는 이 설계를 상당히 일관되게 지지한다. Qwen2.5-3B에서는 GRPO 대비 ALFWorld +9.4 point, Search-QA +7.0 point를 보였고, Qwen2.5-7B에서는 WebShop Acc가 72.6에서 82.8로 올랐다. Qwen3-1.7B에서는 naive GRPO+OPSD가 ALFWorld에서 GRPO보다 악화되는 동안 SDAR는 53.9를 달성했다. Retrieval robustness에서도 random skill조차 baseline을 넘기고, keyword matching은 WebShop Acc +10.2 point를 기록한다.
방법론적으로 보면 SDAR는 agent training에서 privileged information을 쓰는 더 안전한 패턴을 보여 준다. privileged context를 inference-time dependency로 남기지 않고, training-time teacher branch로만 사용한다. teacher가 틀릴 수 있음을 인정하고, negative rejection을 완화하며, positive endorsement를 부드럽게 강화한다. 이 구조는 에이전트 학습을 넘어 retrieval-augmented training, tool-use policy distillation, memory-guided agent adaptation 같은 영역에도 확장될 수 있다.
다만 이 논문을 실제 시스템에 적용하려면 skill library의 품질, teacher forward 비용, gate activation trace의 해석 가능성을 함께 봐야 한다. SDAR는 objective 설계의 답을 제시하지만, agent deployment에서는 그 objective가 어떤 data pipeline과 observability 체계 위에서 동작하는지가 중요하다. 따라서 후속 연구는 성능 평균과 함께 skill provenance, action-span attribution, cost-normalized throughput까지 함께 보고하는 방향으로 가야 한다.
10. 요약 정리: SDAR가 남기는 핵심 포인트
- SDAR는 multi-turn LLM agent에서 GRPO의 trajectory-level reward와 OPSD의 token-level guidance를 결합하는 후학습 방법이다.
- 핵심 문제는 privileged skill context를 가진 teacher branch가 항상 reliable하지 않으며, negative teacher-student gap이 noisy rejection일 수 있다는 점이다.
- 전체 objective는 $\mathcal{L}_{\text{GRPO}}+\lambda_{\textsc{SDAR}}\mathcal{L}_{\textsc{SDAR}}$이며, RL loss는 primary backbone으로 유지된다.
- token-level gate $g_t=\sigma(\beta\Delta_t)$는 positive teacher endorsement를 강화하고 negative guidance를 완만하게 줄인다.
- Qwen2.5-3B에서 SDAR는 GRPO 대비 ALFWorld +9.4 point, Search-QA +7.0 point, WebShop Acc +4.7 point를 기록한다.
- Qwen2.5-7B에서는 WebShop Acc가 GRPO 72.6에서 SDAR 82.8로 오르며, inference-time skill prompt 없이도 Skill-GRPO*보다 높은 accuracy를 보인다.
- Qwen3-1.7B에서는 naive GRPO+OPSD가 ALFWorld에서 32.0으로 악화되는 반면 SDAR는 53.9를 달성해 작은 모델에서 gated distillation의 안정성이 드러난다.
- Retrieval robustness 실험에서 random retrieval도 GRPO baseline을 넘고, keyword matching은 WebShop Acc +10.2 point를 보여 skill retrieval 품질과 gate 설계가 함께 중요함을 시사한다.
- 한계는 positive gap의 의미 검증, skill library drift, teacher forward 비용이며, 후속 연구에서는 action-span provenance와 cost-normalized evaluation이 필요하다.
'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글
| [arXiv 2605.15202] DeepSlide: 산출물 생성에서 발표 전달까지 이어지는 멀티 에이전트 프레젠테이션 시스템 (0) | 2026.05.19 |
|---|---|
| [arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선 (0) | 2026.05.19 |
| [arXiv 2605.15019] GranuRAG: 장면 검색을 시각 요소 증거 검색으로 쪼개는 멀티모달 RAG (0) | 2026.05.19 |
| [arXiv 2605.10913] Shepherd: 메타 에이전트를 실행 추적으로 다루는 런타임 기판 (0) | 2026.05.15 |
| [arXiv 2605.15128] MemEye: 멀티모달 에이전트 메모리의 시각 증거 평가 (0) | 2026.05.15 |