On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
https://arxiv.org/abs/2605.02572
Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo | Department of Artificial Intelligence, Yonsei University; Microsoft Research | arXiv:2605.02572 | 2026년 5월 | ICML 2026
1. 서론: 긴 상호작용이 LLM 에이전트 학습을 흔드는 이유
1.1 문제의 출발점
이 논문은 LLM 에이전트가 왜 긴 작업에서 훈련 중 불안정해지는가를 정면으로 묻는다. 최근의 코드 에이전트, 웹 자동화 에이전트, 도구 사용 에이전트는 모두 하나의 답변으로 끝나는 모델과 달리, 관찰을 받고 행동을 내고 다시 관찰을 받는 반복 구조로 작동한다. 표면적으로는 모델 크기, 프롬프트 설계, 도구 인터페이스, RL 알고리즘이 핵심처럼 보이지만, 논문은 그보다 더 기본적인 변수를 분리한다. 바로 목표까지 도달하기 위해 필요한 행동 수, 즉 horizon length다.
기존 연구들은 긴 과제를 다룰 때 대체로 두 방향으로 움직였다. 하나는 컨텍스트 엔지니어링, 워크플로 오케스트레이션, 계획-실행 루프처럼 시스템 구조를 더 정교하게 만드는 접근이고, 다른 하나는 SFT와 RL을 더 잘 설계해 모델 자체를 후훈련하는 접근이다. 그러나 이런 접근은 긴 과제가 어려운 이유를 한꺼번에 섞어 놓는 경우가 많다. 과제가 길어지면 동시에 추론 난이도도 오르고, 관찰도 복잡해지고, 상태 공간도 커진다. 그러면 실패 원인이 정말 긴 horizon 때문인지, 아니면 더 어려운 reasoning 때문인지 구분하기 어렵다.
저자들의 핵심 기여는 이 얽힘을 끊는 데 있다. 논문은 reasoning complexity는 유지하고 goal distance만 바꾸는 controlled task suite를 만든다. Sudoku에서는 빈 칸의 개수로 원자 행동 수를 조절하되 HoDoKu로 기본 기법만 필요한 퍼즐을 선별한다. Rush Hour에서는 최적 이동 수를 goal distance로 삼고, WebShop에서는 action decomposition으로 effective horizon을 조작한다. 이렇게 해서 모델이 필요한 규칙과 추론 구조는 이미 알고 있다고 가정할 수 있는 조건에서, 오직 목표까지 필요한 행동 수가 길어질 때 학습 동역학이 어떻게 변하는지를 관찰한다.
결론은 매우 직접적이다. horizon length 자체가 훈련 병목이다. Qwen3-1.7B 기반 모델은 GPT-5-mini 등으로 만든 expert trajectory에 대해 SFT를 받은 뒤 RL 4 epochs를 수행한다. 짧은 horizon인 Sudoku L1-L2에서는 RL이 비교적 안정적으로 성능을 끌어올리지만, L3-L4로 goal distance가 길어지면 성능이 무너지고 maximum-length response ratio가 증가한다. 논문은 이를 탐색 난이도, sparse reward에서의 credit assignment, 그리고 실패 trajectory가 만든 negative advantage update의 누적이라는 관점에서 설명한다.
흥미로운 점은 해결책도 복잡한 새 알고리즘보다 horizon reduction이라는 구조적 원칙에 가깝다는 것이다. 저자들은 macro action과 subgoal decomposition을 통해 한 episode 안에서 실제로 필요한 의사결정 횟수인 effective horizon을 줄인다. Sudoku에서는 한 번에 여러 셀을 채우는 flexible macro action을 허용하고, Rush Hour에서는 여러 칸 이동을 하나의 action으로 묶는다. Subgoal decomposition에서는 Sudoku의 subgrid completion처럼 검증 가능한 중간 목표를 이용해 긴 sparse reward 문제를 여러 짧은 segment로 나눈다.
이 연구가 중요한 이유는 단순히 한 벤치마크에서 성능을 올렸기 때문이 아니다. 논문은 긴 과제를 잘 풀려면 더 긴 horizon에서 바로 훈련하면 된다는 직관을 반박한다. 오히려 너무 긴 horizon에서 직접 RL을 시작하면 성공 trajectory를 탐색하기 어렵고, 실패에서 나온 모호한 음의 피드백이 모델을 망가뜨릴 수 있다. 반대로 짧거나 줄어든 horizon에서 먼저 안정적인 행동 정책을 학습한 모델은, 본 적 없는 더 긴 horizon으로 일부 일반화한다. 저자들은 이를 horizon generalization이라고 부른다.
Figure 1: 논문의 전체 기여 요약. 긴 horizon을 독립 변수로 보고, horizon reduction과 horizon generalization을 핵심 원칙으로 제시한다.
이 그림은 논문의 논리 구조를 한 장으로 압축한다. 저자들은 긴 과제 실패를 단순한 성능 부족으로 보지 않고, goal distance가 커질수록 탐색과 보상 할당이 어려워지는 훈련 병목으로 정의한다. 이어 macro action과 subgoal decomposition이 effective horizon을 줄여 RL 안정성을 회복하며, 그 결과 더 긴 unseen horizon으로의 일반화가 나타난다는 흐름을 제시한다. 그림의 화살표는 진단, 처방, 일반화 검증이 한 실험 설계 안에서 연결된다는 점을 분명히 한다.
1.2 이 글에서 볼 핵심 질문
이 리뷰는 논문의 결과를 세 가지 질문으로 정리한다. 첫째, 어떻게 horizon만 분리해 측정했는가다. 둘째, 짧은 horizon에서는 개선되던 RL이 왜 긴 horizon에서는 collapse하는지다. 셋째, macro action이나 subgoal decomposition이 단지 강한 prior를 주는 것인지, 아니면 실제로 effective horizon을 줄였기 때문에 안정화되는 것인지다. 이 세 질문을 따라가면 논문의 메시지는 꽤 선명해진다. 긴 에이전트 과제에서 먼저 설계해야 하는 것은 더 복잡한 optimizer보다, 모델이 감당할 수 있는 길이의 학습 문제다.
2. 배경 및 관련 연구: LLM 에이전트, SFT, RL, 그리고 horizon의 정의
2.1 LLM을 policy로 보는 관점
논문은 LLM을 확률적 policy $\pi_\theta$로 본다. 일반적인 텍스트 생성에서는 prompt $x$와 이전 토큰 $y_{<i}$가 상태이고, 다음 토큰 $y_i$가 action이다. 시퀀스 likelihood는 $\pi_\theta(y|x)=\prod_i \pi_\theta(y_i|x,y_{<i})$로 분해된다. 에이전트 설정에서는 이 구조가 한 단계 더 커진다. 각 step $t$에서 모델은 현재 goal, memory, observation으로 구성된 context $x_t=(g,m_t,o_t)$를 보고 action $a_t$를 생성한다. 환경은 그 action을 실행하고 새 observation을 돌려주며, 이 반복이 trajectory $\tau=(s_0,a_0,s_1,\ldots,s_T)$를 만든다.
이 관점은 중요한 차이를 드러낸다. 단일-turn LLM은 한 번의 긴 답변 안에서 오류가 생겨도 채점은 보통 최종 텍스트에 대해 이루어진다. 반면 LLM 에이전트는 자기 자신의 과거 action이 다음 state를 바꾸는 자기조건화 구조를 갖는다. 초반의 작은 오류가 이후 관찰을 오염시키고, 오염된 관찰은 다시 잘못된 action을 만들 수 있다. 그래서 긴 horizon에서는 per-step accuracy가 조금만 낮아도 전체 성공률이 급격히 떨어진다. 논문은 이 누적 효과를 horizon의 독립적 효과로 측정하려 한다.
2.2 SFT는 왜 필요한가
Supervised Fine-Tuning은 expert trajectory를 imitation하는 방식이다. 저자들은 RL을 바로 적용하는 대신, 먼저 성공 trajectory로 모델을 초기화한다. Sudoku에서는 Qwen3-32B와 GPT-5-mini를 활용해 trajectory를 만들고, 불필요하게 긴 reasoning chain은 GPT-5-mini로 더 효율적인 형태로 distill한다. Rush Hour에서는 GPT-5-mini의 성공 trajectory를 직접 사용한다. 이 단계는 모델이 최소한의 output format, action syntax, 기본 환경 dynamics를 익히게 해 RL이 시작부터 무의미한 탐색에 빠지는 것을 막는다.
부록은 SFT의 필요성을 꽤 실용적으로 설명한다. 저자들은 SFT 없이 RL from scratch를 시도했을 때 reward hacking이 나타났다고 보고한다. 예를 들어 Sudoku에서 모델은 정답 셀을 채우기보다 문법적으로는 valid하지만 의미 없는 candidate action을 반복하는 식으로 penalty를 회피했다. 그래서 SFT는 단순한 성능 향상 기술을 넘어 RL이 유효한 행동 공간 안에서 탐색하도록 하는 안전장치에 가깝다. 다만 지나치게 강한 SFT는 exploration capability를 줄일 수 있어, 논문은 conservative learning rate를 사용한다.
2.3 RL과 advantage 신호의 비대칭성
논문의 RL 부분은 critic-free policy optimization 계열에 가깝다. 기본 아이디어는 REINFORCE다. 성공 보상과 step-level penalty를 사용해 return을 계산하고, baseline을 뺀 advantage로 policy gradient를 만든다. 논문은 trajectory-level reward와 step-level reward를 분리한다. trajectory-level component는 목표 달성 여부를 반영하고, step-level component는 parsing error나 invalid action 같은 지역적 오류를 반영한다. 최종 advantage는 $A_t=\hat{r}^{traj}_t+\alpha \hat{r}^{step}_t$이며, 실험에서는 $\alpha=0.2$를 사용한다.
여기서 중요한 것은 positive advantage와 negative advantage가 토큰 logit에 미치는 영향이 대칭적이지 않다는 분석이다. 샘플된 토큰의 advantage가 양수이면, gradient는 해당 토큰의 logit을 올리고 다른 토큰들의 확률을 낮춘다. 이는 비교적 집중된 학습 신호다. 반대로 advantage가 음수이면 샘플된 토큰의 확률을 낮추지만, 그 확률 질량은 매우 큰 vocabulary 전체로 퍼진다. LLM의 action space는 사실상 $10^5$ 수준의 token vocabulary이므로, 음의 업데이트는 올바른 대안을 가리키지 못하고 수많은 irrelevant token을 조금씩 밀어 올릴 수 있다.
긴 horizon에서 이 문제가 특히 치명적이다. Sparse reward 환경에서 trajectory가 실패하면, 그 안의 많은 step이 실제로는 올바른 중간 행동이었더라도 전체적으로 음의 advantage를 받을 수 있다. 그러면 모델은 정답에 가까웠던 행동까지 억제하고, 의미 없는 token들에 확률 질량을 흩뿌릴 위험이 커진다. 논문은 L3-L4에서 maximum-length response ratio가 증가하는 현상을 이 누적된 negative advantage update와 연결한다. 즉 collapse는 단순한 underfitting을 넘어 잘못된 실패 신호가 policy 분포를 점진적으로 왜곡하는 과정으로 해석된다.
2.4 horizon, goal distance, interaction budget
논문은 horizon이라는 단어를 느슨하게 쓰지 않는다. 핵심 정의는 세 가지다. 첫째, goal distance $d(s_0,g)$는 optimal policy가 목표에 도달하는 데 필요한 최소 atomic action 수다. 둘째, interaction budget $H_{max}$는 환경이 허용하는 최대 step 수다. 셋째, effective horizon $h_\pi(s_0,g)$는 실제 policy $\pi$가 성공 trajectory에서 사용한 step 수다. 성공 trajectory에서는 $d(s_0,g) \le h_\pi(s_0,g) \le H_{max}$가 성립한다.
이 구분이 중요한 이유는 기존 curriculum 연구가 대개 $H_{max}$ 같은 외부 budget을 조정했기 때문이다. 예를 들어 agent에게 허용되는 최대 step 수를 늘리거나 줄이는 것은 환경 constraint를 바꾸는 일이다. 반면 이 논문은 task가 본질적으로 요구하는 최소 행동 수, 즉 intrinsic goal distance에 관심을 둔다. 같은 solver rule과 같은 reasoning family 안에서도 goal distance가 길어질 때 RL이 무너진다면, 이는 긴 horizon이 단순한 부수 효과를 넘어 독립적인 훈련 변수임을 보여준다.
또 하나 중요한 개념은 effective horizon이다. Macro action을 허용하면 atomic action 기준 goal distance는 그대로여도 policy가 환경과 상호작용하는 횟수는 줄어든다. 예를 들어 Sudoku에서 원래는 한 step마다 한 셀만 채워야 했다면, macro action은 한 응답 안에 여러 셀 assignment를 포함한다. Rush Hour에서도 한 칸 이동을 반복하는 대신 여러 칸 이동을 하나의 action으로 묶을 수 있다. 이때 goal distance $d(s_0,g)$는 원자 단위로는 같지만, 실제 학습에서 credit assignment가 걸리는 decision point 수는 줄어든다.
2.5 관련 연구와의 위치
관련 연구 측면에서 이 논문은 LLM agent training, long-horizon RL, critic-free optimization, curriculum learning의 교차점에 있다. 그러나 논문의 초점은 새로운 benchmark score 경쟁보다, 왜 긴 interaction이 훈련을 어렵게 만드는지 실험적으로 분해하는 것이다. 특히 controlled environment를 사용해 visual grounding, external knowledge, stochastic observation 같은 요인을 의도적으로 제거한다. 이 선택은 현실성을 일부 희생하지만, 원인 분석의 선명도를 얻는다.
논문은 또 SFT와 RL의 관계를 현실적으로 다룬다. SFT는 행동 prior를 제공하지만 긴 horizon에서 충분하지 않고, RL은 성능을 끌어올릴 수 있지만 성공 trajectory 탐색과 credit assignment가 막히면 오히려 policy를 붕괴시킬 수 있다. 따라서 저자들의 메시지는 RL 알고리즘을 더 복잡하게 만들기 전에, RL이 학습 가능한 horizon regime을 설계하라는 쪽에 가깝다. 이는 action abstraction, hierarchy, process reward, planner decomposition 같은 여러 에이전트 설계 원칙을 horizon reduction이라는 하나의 lens로 재해석하게 만든다.
3. 방법론: horizon을 독립 변수로 분리하는 controlled task 설계
3.1 reasoning complexity를 고정하는 전략
긴 과제가 어렵다는 말은 너무 넓다. Sudoku 퍼즐에서 빈 칸이 많아지면 보통 필요한 reasoning technique도 어려워질 수 있고, Rush Hour에서 최적 이동 수가 늘어나면 공간적 구조도 더 복잡해질 수 있다. 그래서 단순히 긴 퍼즐을 모아 놓고 실패율을 보면 horizon 때문인지 문제 난이도 때문인지 알 수 없다. 이 논문은 이 문제를 피하기 위해 짧은 proxy task에서 모델이 풀 수 있는 instance만 남기는 필터링을 사용한다. 모델이 짧은 형태에서는 해결할 수 있다면, 적어도 필요한 규칙과 기본 추론 능력은 갖추었다고 볼 수 있다는 가정이다.
Sudoku에서는 long-horizon task를 단일 응답으로 전체 solution board를 생성하는 short-horizon proxy로 바꾼다. Qwen3-8B가 pass@8에서 적어도 한 번 맞춘 puzzle만 유지한다. 이후 빈 칸 수를 기준으로 L1부터 L7까지 나눈다. L1-L4는 training horizon으로 쓰이고, L5-L7은 학습 중 보지 못한 더 긴 horizon 평가에 쓰인다. 또한 HoDoKu로 basic technique 중심의 puzzle만 선별해, horizon이 길어져도 technique difficulty가 크게 변하지 않도록 한다.
Rush Hour에서는 순수 single-turn proxy가 잘 작동하지 않는다. 이 게임은 각 이동 후 board state를 관찰해야 다음 이동을 결정하는 성격이 강하기 때문이다. 그래서 저자들은 compressed-horizon setting을 사용한다. 여러 칸 이동을 한 action으로 허용하고, GPT-5-mini가 pass@1에서 풀 수 있는 instance만 유지한다. 이후 Fogleman solver가 계산한 minimum moves를 goal distance proxy로 삼는다. 이렇게 해서 Rush Hour에서도 모델이 완전히 무지해서 실패하는 경우를 최대한 배제하고, 이동 수 증가가 학습에 미치는 효과를 본다.
3.2 Dataset statistics: Sudoku L1-L7
아래 표는 논문의 Table 1을 Tistory용으로 옮긴 것이다. L1-L4는 파란색으로 표시된 training horizon 영역이고, L5-L7은 빨간색으로 표시된 unseen longer horizon 평가 영역이다. 여기서 $d(s_0,g)$는 최적 policy가 목표까지 필요한 atomic action 수를 뜻한다. Sudoku에서는 빈 칸 수가 이 값의 자연스러운 proxy가 된다.
| 항목 | L1 | L2 | L3 | L4 | L5 | L6 | L7 |
|---|---|---|---|---|---|---|---|
| $d(s_0,g)$ | 11-15 | 16-20 | 21-25 | 26-30 | 31-35 | 36-40 | 41-45 |
| train 수 | 640 (L1-L2) | 640 (L3-L4) | - | - | - | ||
| test 수 | 100 | 100 | 100 | 100 | 100 | 100 | 50 |
이 표에서 중요한 점은 L5-L7이 단순한 held-out split을 넘어 학습 중 보지 못한 더 긴 goal distance라는 점이다. 따라서 L1-L4에서 훈련한 policy가 L5-L7로 성능을 이어간다면, 그것은 같은 horizon 범위 내의 interpolation보다 horizon generalization의 증거가 된다. 특히 L1-L2에서만 학습한 정책이 L3 이후로 어느 정도 확장되는지, L3-L4까지 학습한 정책이 L5-L7까지 얼마나 버티는지가 핵심 평가 축이다.
3.3 Macro action과 subgoal decomposition
Horizon reduction의 첫 번째 구현은 macro action이다. Atomic action setting에서는 Sudoku agent가 한 step에 하나의 cell assignment만 수행한다. Macro action setting에서는 한 응답 안에 여러 assignment를 담을 수 있다. 이때 논문이 특히 강조하는 것은 fixed-length macro보다 flexible macro다. 정확히 5개를 항상 내야 하는 fixed $n=5$ action은 overshooting과 rigidity를 만들 수 있다. 반면 $n \le 5$처럼 모델이 필요한 만큼만 action 수를 정하는 flexible macro는 effective horizon을 줄이면서도 정책의 세밀한 조절 능력을 유지한다.
두 번째 구현은 subgoal decomposition이다. 전체 goal $g$를 한 번에 해결하려 하지 않고, 검증 가능한 중간 goal $(g_1,g_2,\ldots,g_k)$로 나눈다. Sudoku에서는 subgrid correctness가 자연스러운 중간 검증 단위가 된다. 논문은 subgrid completion 시 trajectory를 segment로 나누고, 각 segment에 대해 return을 계산한다. 이렇게 하면 최종 성공 여부만으로 긴 sequence 전체를 평가하는 sparse reward 문제가 완화된다. 중간 단계에서 잘한 action은 더 가까운 reward 신호를 받기 때문에 credit assignment가 쉬워진다.
중요한 점은 macro action과 subgoal decomposition이 서로 다른 방식이라는 것이다. Macro action은 action space를 재정의해 의사결정 횟수 자체를 줄이는 방법이고, subgoal decomposition은 reward와 episode structure를 바꿔 긴 목표를 짧은 학습 문제들로 나누는 방법이다. 그러나 둘 다 긴 sparse trajectory를 그대로 RL에 던지지 않는다는 공통점을 갖는다. 논문은 이 공통점을 horizon reduction으로 묶어, long-horizon agent design의 기본 원칙으로 제안한다.
3.4 통제 설계가 필요한 이유를 다시 정리하기
이 논문의 controlled task 설계는 장문 리뷰에서 특히 길게 봐야 할 부분이다. 에이전트 과제의 실패는 보통 여러 원인이 동시에 섞인다. 모델이 규칙을 모를 수도 있고, 상태 표현이 불충분할 수도 있으며, 도구 호출 형식이 흔들릴 수도 있다. 저자들은 이런 원인을 모두 제거할 수는 없지만, 최소한 모델이 짧은 형태에서는 풀 수 있는 문제만 남긴다는 필터를 통해 reasoning capacity 부족과 horizon 병목을 분리하려 한다. 이 선택은 benchmark의 폭을 좁히는 대신, collapse의 원인을 더 정확히 읽게 만든다.
실험 설계의 핵심 절차는 다음처럼 요약할 수 있다. 첫째, long-horizon task를 가능한 한 짧은 proxy formulation으로 바꾸어 모델의 잠재 solving capability를 확인한다. 둘째, proxy를 통과한 instance만 goal distance별 bucket에 배치한다. 셋째, train bucket과 unseen longer bucket을 분리해 interpolation과 extrapolation을 구분한다. 넷째, action abstraction을 바꾸어 goal distance와 effective horizon이 어떻게 달라지는지 비교한다. 이 네 단계가 합쳐져야 horizon length를 독립 변수처럼 다룰 수 있다.
- Capability filter: 짧은 proxy에서 풀 수 있는 instance만 남겨 기본 규칙 지식 부족을 줄인다.
- Goal-distance buckets: Sudoku L1-L7과 Rush Hour move range처럼 atomic action 기준 길이를 명시한다.
- Train/test split: L1-L4와 L5-L7을 나누어 seen horizon과 unseen horizon을 분리한다.
- Action abstraction: atomic, fixed macro, flexible macro를 비교해 effective horizon의 변화를 관찰한다.
- Collapse diagnostics: success rate와 함께 maximum-length response ratio를 기록해 단순 오답과 생성 붕괴를 구분한다.
이 절차는 실제 에이전트 벤치마크에도 바로 옮길 만하다. 예를 들어 코드 에이전트 benchmark라면 단순히 issue 난이도만 나눌 것이 아니라, 최소 수정 step, 필요한 파일 이동 횟수, 검증 명령 횟수, 실패 복구 횟수를 별도로 기록해야 한다. 웹 에이전트 benchmark라면 click 수, search round 수, form 입력 수, 되돌리기 횟수 같은 action-level goal distance가 필요하다. 이런 metadata가 없으면 긴 과제에서 모델이 실패했을 때 원인을 모델 지식, 관찰 품질, horizon, 도구 안정성 중 어디에 둘지 판단하기 어렵다.
4. 실험 설정: 모델, 데이터, 하이퍼파라미터와 평가 프로토콜
4.1 기본 모델과 훈련 파이프라인
주요 실험의 base model은 Qwen3-1.7B다. 저자들은 먼저 expert trajectory를 이용해 SFT를 수행하고, 그 결과 모델을 초기 policy로 삼아 RL을 4 epochs 진행한다. 훈련 rollout과 inference 모두 temperature 0.8을 사용한다. 평가는 각 instance마다 4개의 trajectory를 sampling해 pass@4와 avg@4를 보고한다. pass@4는 네 번 중 한 번이라도 성공했는지에 가까운 지표이고, avg@4는 네 trajectory의 평균 성공률이므로 안정적인 행동을 더 강하게 반영한다.
RL 구현에서는 practical detail도 중요하다. 논문은 standard text generation API가 문자열을 반환하고, 훈련 단계에서 다시 retokenization을 거치면 log probability 계산에 쓰이는 token이 실제 sampling된 token과 어긋날 수 있다고 지적한다. 이 문제는 긴 multi-turn setting에서 작은 mismatch가 누적되어 심각한 noise가 될 수 있다. 그래서 저자들은 Tokens-In/Tokens-Out workflow를 유지하도록 rllm과 verl 기반 파이프라인을 수정했다고 설명한다. 이 부분은 horizon 효과를 보기 위한 실험 통제와도 연결된다.
4.2 Rush Hour dataset statistics
Rush Hour 데이터는 6×6 board에서 차량 수, 위치, 방향, 크기를 바꾸며 생성하고, Fogleman solver로 solvability와 minimum moves를 확인한다. 아래 표는 논문의 Rush Hour dataset statistics를 옮긴 것이다. Sudoku와 달리 train split을 중심으로 한 표와 달리, goal distance range별 test instance 수를 요약한다.
| $d(s_0,g)$ range | 4-6 | 7-9 | 10-12 | 13-15 | 16-18 | 19-21 |
|---|---|---|---|---|---|---|
| test 수 | 100 | 100 | 100 | 100 | 100 | 100 |
Rush Hour가 보조 실험으로 중요한 이유는 Sudoku와 다른 능력을 요구하기 때문이다. Sudoku는 규칙 기반 deduction과 사전 지식이 중요하고, Rush Hour는 spatial reasoning과 state transition 이해가 더 중요하다. 두 환경에서 모두 긴 horizon이 RL instability를 만들고 macro action이 안정화한다면, 논문의 주장은 특정 puzzle rule에만 묶이지 않는다. 물론 둘 다 text-based controlled environment이므로 real-world agent까지 곧장 일반화된다고 보기는 어렵지만, horizon이라는 변수의 독립성은 더 설득력을 얻는다.
4.3 주요 하이퍼파라미터
아래 표는 논문의 Appendix C에 있는 hyperparameter configuration을 요약한 것이다. Sudoku macro action에서는 maximum response length가 4096까지 늘어난다. 이는 한 step에서 여러 atomic action을 생성할 수 있도록 허용하기 위한 설정이다. Rush Hour에서는 macro action의 경우 $H_{max}$가 20으로 줄어들어, 환경 수준에서도 effective decision horizon이 짧아진다.
| Parameter | Sudoku | Rush Hour |
|---|---|---|
| learning rate | 1e-6 | 1e-6 |
| scheduler | constant | constant |
| KL loss coefficient | 0.0 | 0.0 |
| maximum response length | 2048 / 4096 for macro action | 2048 |
| temperature | 0.8 | 0.8 |
| top_p | 1.0 | 1.0 |
| rollout_is | sequence | sequence |
| rollout_is_threshold | 3 | 3 |
| rollout_rs | geometric | geometric |
| discount factor $\gamma$ | 0.995 | 0.995 |
| advantage mix $\alpha$ | 0.2 | 0.2 |
| $H_{max}$ | 50 | 30 / 20 for macro action |
| turn history $K$ | 2 | 2 |
이 설정에서 또 주목할 부분은 KL coefficient가 0이라는 점이다. 논문은 별도의 value network나 강한 KL regularization보다, trajectory reuse와 inference-training mismatch를 다루기 위한 importance sampling과 advantage normalization에 초점을 맞춘다. 따라서 실험은 복잡한 RLHF식 안정화 장치보다는 horizon 조작과 reward/importance weighting 설계가 어떤 효과를 내는지 보는 구조에 가깝다.
4.4 Sudoku 지식 평가
논문은 Sudoku를 쓰기 전에 모델이 정말 기본 규칙을 모르는 것은 아닌지 확인한다. 이를 위해 Rule Knowledge, Technique Definition Knowledge, Technique Identification으로 나눈 manual evaluation을 수행한다. 결과는 Qwen3-1.7B도 rule knowledge는 100%이고, technique 관련 지식도 완벽하지는 않지만 기본적인 familiarity를 갖고 있음을 보여준다.
| Task | Qwen3-1.7B Acc | Qwen3-8B Acc |
|---|---|---|
| Rule Knowledge | 100.00% | 100.00% |
| Technique Definition Knowledge | 66.67% | 93.33% |
| Technique Identification | 80.00% | 90.00% |
이 표는 논문의 논증에서 방어적인 역할을 한다. 만약 모델이 Sudoku 규칙 자체를 모른다면, 긴 horizon에서 실패한 이유를 horizon 병목이라고 주장하기 어렵다. 그러나 rule knowledge가 완벽하고 basic technique familiarity가 확인된 상태에서, 짧은 goal distance에서는 RL이 잘 되고 긴 goal distance에서는 collapse한다면 설명은 달라진다. 실패는 지식 부재라기보다 긴 상호작용을 학습하는 과정의 불안정성에 더 가깝다.
5. 주요 실험 결과: 짧은 horizon은 안정적이지만 긴 horizon은 collapse한다
5.1 L1-L2와 L3-L4의 훈련 동역학
가장 중요한 첫 결과는 Figure 2에 있다. SFT로 초기화한 Qwen3-1.7B policy에 대해 RL을 적용하면, Sudoku L1-L2처럼 goal distance가 짧은 구간에서는 training success rate와 test success rate가 안정적으로 개선된다. 그러나 L3-L4처럼 goal distance가 길어지면 상황이 바뀐다. 초기에는 성능이 오르는 듯 보이지만, 이후 갑작스럽게 무너지고 maximum-length response ratio가 상승한다. 이는 모델이 정답에 가까워지는 대신, 지나치게 길고 불안정한 generation mode로 빠지는 현상이다.
Figure 2: goal distance별 RL training dynamics. L1-L2는 안정적이지만 L3-L4에서는 collapse와 maximum-length response ratio 증가가 나타난다.
이 그림은 논문의 핵심 진단을 직접 보여준다. 동일한 Sudoku 규칙과 기본 기법 안에서도 goal distance가 짧은 L1-L2에서는 RL이 성능을 개선하지만, L3-L4에서는 긴 상호작용으로 인해 성공 trajectory 탐색이 어려워지고 실패 신호가 누적된다. 특히 max-length response ratio의 상승은 모델이 단순히 틀리는 것을 넘어, 과도하게 긴 응답으로 붕괴하는 방향으로 policy 분포가 흔들린다는 점을 시사한다.
저자들은 이 collapse를 두 가지 병목으로 설명한다. 첫째는 exploration difficulty다. Horizon이 길수록 성공 trajectory를 우연히 찾을 확률은 빠르게 줄어든다. 각 step에서 약간씩만 틀려도 전체 목표 달성은 실패하므로, RL이 positive signal을 얻을 기회가 적어진다. 둘째는 sparse reward credit assignment다. 실패 trajectory에 포함된 개별 action 중에는 올바른 것도 많을 수 있지만, 최종 실패 보상은 전체 trajectory에 음의 advantage를 줄 수 있다. 이 신호가 어떤 action을 고쳐야 하는지 명확히 알려주지 못한다.
특히 LLM policy에서는 negative advantage가 위험하다. 전통적인 작은 action space에서는 실패 action을 낮추면 대안 action이 상대적으로 올라가며 학습 방향이 명확할 수 있다. 하지만 LLM의 token vocabulary는 거대하고, 하나의 action string은 여러 token으로 구성된다. 음의 advantage는 선택된 token의 probability를 낮추지만, 그 질량은 수많은 unrelated token으로 흩어진다. 긴 horizon에서 이런 업데이트가 반복되면, 모델은 점점 더 action syntax와 reasoning pattern을 잃고 불안정한 긴 generation으로 흐를 수 있다.
5.2 Macro action으로 effective horizon 줄이기
Figure 3은 논문의 해결 방향을 보여준다. Atomic action baseline에서는 긴 horizon에서 collapse가 나타나지만, macro action을 허용하면 Sudoku와 Rush Hour 모두에서 성능과 안정성이 개선된다. 특히 L3-L4 같은 long goal distance regime에서 차이가 크다. 이 결과는 단순한 response length 증가보다, 모델이 환경과 상호작용해야 하는 decision point 수가 줄었기 때문이라고 해석된다. 즉 $d(s_0,g)$는 atomic 기준으로 같아도, $h_\pi(s_0,g)$가 줄어들면 RL이 견딜 수 있는 regime으로 문제가 바뀐다.
Figure 3: Sudoku와 Rush Hour에서 atomic action과 macro action을 비교한 결과. Macro action은 long goal distance에서 RL 안정성과 최종 성능을 모두 개선한다.
이 그림은 horizon reduction이 Sudoku 한 환경에 국한되지 않음을 보여준다. Atomic action에서는 L3-L4처럼 긴 구간에서 훈련이 불안정해지지만, macro action을 쓰면 같은 과제도 더 짧은 effective horizon으로 변환된다. Rush Hour에서도 여러 칸 이동을 하나의 action으로 묶는 방식이 비슷한 효과를 낸다. 두 환경의 성격이 다름에도 같은 패턴이 반복된다는 점이 논문의 주장, 즉 horizon 자체가 핵심 병목이라는 해석을 강화한다.
짧은 horizon에서도 macro action은 도움이 된다. L1-L2에서는 atomic baseline도 무너지지 않지만, macro action은 더 빠른 convergence와 더 높은 final performance를 보인다. 그러나 논문의 중심은 짧은 구간의 성능 향상을 넘어 긴 구간에서 collapse를 피하는 능력이다. RL이 실패 trajectory를 많이 만들수록 negative update가 누적되는데, macro action은 decision point를 줄여 실패할 기회를 줄이고, 성공 trajectory 발견 가능성을 높인다. 그 결과 positive signal이 충분히 생기며 학습이 계속된다.
5.3 효과가 macro policy의 prior 때문인지 분리하기
한 가지 반론이 가능하다. Macro action policy가 좋아진 원인이 horizon 감소보다 SFT 데이터나 action representation이 더 강한 prior를 제공했기 때문일 수 있다. 논문은 이 반론을 Figure 4에서 다룬다. 동일한 macro-action policy를 사용하되, 환경이 한 turn에 하나의 atomic action만 실행하게 제한한다. 이렇게 하면 policy representation은 유지되지만, 실제 effective horizon은 다시 길어진다. 그 결과 초기에는 개선되다가 다시 collapse가 나타난다. 이는 representation prior만으로는 충분하지 않고, 실제 effective horizon이 중요하다는 증거다.
6. 추가 분석 및 Ablation: macro 설계, subgoal, robustness, generalization
6.1 Effective horizon 복원 실험
Figure 4: 같은 macro-action policy를 사용하면서 실제 실행 horizon을 줄인 조건과, 단일 atomic 실행으로 다시 길게 만든 조건을 비교한다.
이 그림은 horizon reduction의 원인을 분리하는 ablation이다. Macro policy를 그대로 쓰더라도 환경이 한 turn에 하나의 atomic action만 실행하게 만들면, action representation의 장점은 남지만 effective horizon은 길어진다. 그 조건에서는 성능이 초기에 오르다가 다시 붕괴한다. 반대로 실제로 여러 atomic action을 한 turn에 실행해 horizon을 줄인 조건은 더 안정적으로 높은 성능에 도달한다. 따라서 핵심 변수는 macro라는 이름보다 effective horizon이다.
이 실험은 논문 전체에서 가장 설득력 있는 부분 중 하나다. 단순히 macro action이 좋다는 결과만 있었다면, 우리는 더 긴 action string, 더 많은 reasoning token, 혹은 expert trajectory format 덕분이라고 해석할 수 있다. 하지만 artificially restored long horizon에서 collapse가 돌아온다는 점은, 훈련 안정성이 실제 interaction length에 민감하다는 주장을 뒷받침한다. 즉 horizon reduction은 action abstraction의 부수 효과를 넘어 측정 가능한 causal factor로 제시된다.
6.2 Flexible macro action이 fixed macro보다 좋은 이유
Figure 5: Atomic, fixed-length macro, flexible macro action 설계를 비교한다. Flexible macro action이 가장 안정적으로 높은 성능을 보인다.
이 그림은 macro action을 단순히 길게 만드는 것이 능사가 아님을 보여준다. Fixed $n=5$처럼 항상 같은 수의 atomic action을 내도록 강제하면, 이미 필요한 행동 수가 적은 상태에서도 과잉 실행이나 부정확한 action이 생길 수 있다. 반면 flexible $n \le 5$는 모델이 상황에 맞게 한 개부터 여러 개까지 조절할 수 있어, horizon은 줄이되 overshooting은 피한다. 논문은 frontier model에서도 flexible macro가 대체로 가장 좋은 선택이라고 보고한다.
이 결과는 action abstraction 설계에 실용적인 시사점을 준다. 에이전트가 긴 과제를 푸는 데 필요한 것은 무조건 큰 chunk보다 정책이 granularity를 선택할 수 있는 추상화다. 코드 에이전트가 loop와 function을 사용할 수 있어도 모든 행동을 하나의 거대한 script로 만들 필요는 없다. 웹 에이전트도 high-level API를 쓰되, 필요하면 세부 클릭으로 내려가야 한다. Flexible macro action은 이런 선택권을 훈련 환경 안에서 제공하는 간단한 구현이다.
6.3 Subgoal decomposition과 process reward
Figure 6: Sudoku에서 subgoal decomposition을 적용한 RL의 평균 성공률. 긴 goal distance에서 sparse reward baseline보다 안정적으로 학습한다.
이 그림은 horizon reduction의 두 번째 경로인 subgoal decomposition을 보여준다. Sudoku 전체 성공만 보상하는 sparse reward에서는 L3-L4에서 학습이 거의 진행되지 않지만, subgrid completion을 중간 목표로 삼으면 trajectory가 짧은 segment들로 나뉜다. 각 segment는 더 가까운 reward와 credit assignment를 가지므로, 올바른 중간 action이 최종 실패 때문에 전부 음의 신호를 받는 문제가 완화된다. 결과적으로 긴 목표도 여러 짧은 학습 문제로 바뀐다.
Subgoal decomposition은 논문이 말하는 process reward의 자연스러운 사례다. 다만 모든 환경에서 Sudoku subgrid처럼 검증 가능한 중간 목표가 존재하는 것은 아니다. Web automation이나 software engineering에서는 중간 산출물의 correctness를 어떻게 판정할지 별도 reward model이나 verifier가 필요할 수 있다. 그럼에도 논문의 결과는 검증 가능한 subgoal이 있다면, sparse terminal reward만으로 긴 trajectory를 학습시키는 것보다 훨씬 안정적이라는 경험적 근거를 제공한다.
6.4 WebShop, Qwen3-4B, GRPO-style optimizer에서의 robustness
Figure 7: WebShop, Qwen3-4B, GRPO-style optimizer에서 horizon reduction의 robustness를 확인한 결과. 기본 horizon에서는 collapse가 반복된다.
이 그림은 논문의 주장이 Sudoku와 Qwen3-1.7B에만 묶이지 않는지 확인한다. WebShop에서는 search와 choose를 하나의 native action으로 쓰는 조건이 horizon-reduced setting이고, 이를 action type 선택과 argument 선택으로 분해하면 atomic setting처럼 effective horizon이 늘어난다. 4B 모델에서도 atomic horizon은 collapse를 피하지 못하며, GRPO-style optimizer에서도 같은 instability pattern이 나타난다. 세 경우 모두 horizon reduction이 안정적인 개선을 만든다.
이 robustness 결과는 두 가지 오해를 줄인다. 첫째, 모델을 키우면 horizon 병목이 자동으로 사라진다는 오해다. Qwen3-4B에서도 collapse가 유지되므로 capacity 증가는 충분조건이 아니다. 둘째, optimizer만 바꾸면 해결된다는 오해다. GRPO-style group-normalized advantage에서도 기본 horizon의 불안정성이 반복된다. 따라서 논문은 horizon이 model scale이나 optimizer보다 위에 있는 구조적 변수라고 주장한다.
6.5 Importance sampling과 advantage 설계 ablation
아래 표는 Appendix D.3의 ablation을 요약한다. Full method는 Seq-TIS와 Geo-MIS를 함께 쓰고, trajectory-level normalized reward와 step-level normalized reward를 $\alpha=0.2$로 섞는다. 하나씩 제거하면 avg@4와 pass@4가 하락한다. 특히 normalization을 제거한 raw reward advantage는 avg@4가 크게 무너진다.
| 구성 | IS function | Advantage | avg@4 | pass@4 |
|---|---|---|---|---|
| Ours | Seq-TIS + Geo-MIS | $\hat{r}^{traj}+0.2\hat{r}^{step}$, batch norm | 96.0 | 97.6 |
| IS ablation | Seq-TIS only | default | 91.4 | 97.6 |
| IS ablation | Geo-MIS only | default | 89.4 | 96.0 |
| Advantage ablation | default | group norm for trajectory reward | 83.4 | 95.2 |
| Advantage ablation | default | raw $r^{traj}+0.2r^{step}$, no norm | 44.4 | 77.6 |
| Advantage ablation | default | $\alpha=0.0$ | 91.4 | 96.0 |
| Advantage ablation | default | $\alpha=0.5$ | 93.0 | 97.6 |
| Advantage ablation | default | $\alpha=1.0$ | 95.8 | 97.6 |
이 ablation은 horizon reduction만 강조하면 놓칠 수 있는 점을 보완한다. Effective horizon을 줄여도 RL pipeline이 policy staleness와 off-policy update를 제대로 다루지 못하면 불안정해질 수 있다. Seq-TIS는 sequence-level ratio의 폭주를 자르고, Geo-MIS는 geometric mean ratio로 길이에 따른 불안정한 sample을 걸러낸다. Advantage normalization은 trajectory-level 성공 신호와 step-level 유효성 신호의 scale을 맞춘다. 즉 논문은 구조적 horizon reduction을 중심 원칙으로 삼되, 실제 구현에서는 importance sampling과 advantage normalization의 공동 설계도 필요하다고 본다.
6.6 Horizon generalization
Figure 8: Sudoku와 Rush Hour에서 shorter 또는 limited horizon으로 훈련한 policy가 더 긴 unseen horizon에 일반화되는 현상.
이 그림은 논문이 horizon generalization이라고 부르는 현상을 보여준다. 제한된 goal distance 범위에서 학습한 policy가 학습 중 보지 못한 더 긴 범위에서도 성능을 유지하거나 개선한다. Sudoku 오른쪽 분석은 per-step accuracy와 전체 성공률의 관계를 함께 보여주며, macro-action policy가 atomic baseline보다 긴 horizon에서 더 강한 성능을 보인다는 점을 강조한다. Decision point가 줄어들면 같은 step accuracy에서도 누적 오류 기회가 줄어든다.
Horizon generalization은 직관적으로 보면 짧은 문제에서 배운 안정적인 local behavior가 더 긴 반복 구조로 확장되는 현상이다. 하지만 논문은 이것이 무한한 일반화와 구분된다는 점도 부록에서 분명히 한다. Sudoku technique difficulty를 easy, medium, hard로 넓히면, 같은 horizon range 안에서도 새로운 reasoning primitive가 필요할 때 성능은 크게 떨어진다. 즉 RL은 이미 존재하는 능력을 더 긴 실행으로 확장할 수는 있지만, 완전히 새로운 추론 기법을 자동으로 발명하는 것은 아니다.
6.7 Rush Hour curriculum
Figure 9: Rush Hour에서 Short-only, Long-only, Curriculum을 비교한다. 짧은 horizon으로 먼저 학습한 뒤 긴 horizon으로 옮기는 curriculum이 유리하다.
이 그림은 긴 horizon에서 바로 학습하는 Long-only 전략이 충분하지 않음을 보여준다. Rush Hour에서 10-12 move 구간을 바로 훈련하면 초기 성공률이 낮아 positive signal을 확보하기 어렵다. 반면 4-9 move의 짧은 horizon에서 먼저 policy를 안정화하고, 그 policy를 긴 horizon 훈련의 초기값으로 쓰면 장거리 일반화가 좋아진다. 이는 horizon generalization을 bootstrap으로 활용한 사례이며, intrinsic goal distance 기반 curriculum이라는 점도 보여준다.
6.8 Sudoku horizon evaluation summary
아래 표는 Appendix Table 7에서 핵심 row를 추려 정리한 것이다. 모든 숫자는 pass@4 또는 avg@4의 percentage다. Macro action RL은 L1-L4에서 높은 성능을 유지하고 L5-L7에서도 일부 일반화한다. Atomic action RL은 L3-L4에서 pre-collapse 구간만 보더라도 긴 horizon으로 갈수록 급격히 약해진다. Subgoal decomposition은 atomic setting에서 긴 goal distance 학습을 안정화하는 보조 경로를 제공한다.
| Action | Training | Metric | L1 11-15 | L2 16-20 | L3 21-25 | L4 26-30 | L5 31-35 | L6 36-40 | L7 41-45 |
|---|---|---|---|---|---|---|---|---|---|
| macro | RL 21-30 | pass@4 | 99.00 | 100.00 | 98.00 | 91.00 | 85.00 | 61.00 | 38.00 |
| macro | RL 21-30 | avg@4 | 97.00 | 95.50 | 87.25 | 69.50 | 54.00 | 30.75 | 14.00 |
| atomic | RL 21-30 before collapse | pass@4 | 98.00 | 79.00 | 58.00 | 27.00 | 11.00 | 0.00 | 0.00 |
| atomic | RL 21-30 before collapse | avg@4 | 81.50 | 54.00 | 29.75 | 8.75 | 3.25 | 0.00 | 0.00 |
| atomic | RL subgoal 21-30 | pass@4 | 100.00 | 99.00 | 93.00 | 69.00 | 31.00 | 12.00 | 0.00 |
| atomic | RL subgoal 21-30 | avg@4 | 84.50 | 73.50 | 51.00 | 28.75 | 11.50 | 3.00 | 0.00 |
6.9 Rush Hour horizon evaluation summary
Rush Hour에서도 같은 방향의 결과가 나온다. 특히 curriculum이 중요하다. Macro action에서 short horizon으로 먼저 훈련하고 long horizon으로 이어가는 curriculum은 13-15, 16-18, 19-21 같은 unseen longer range에서 Long-only보다 훨씬 높은 pass@4를 보인다. 아래 표는 Appendix Table 8의 핵심 row를 축약한 것이다.
| Action | Training | Metric | 4-6 | 7-9 | 10-12 | 13-15 | 16-18 | 19-21 |
|---|---|---|---|---|---|---|---|---|
| macro | RL 4-9 | pass@4 | 100.00 | 87.50 | 58.24 | 12.00 | 3.00 | 0.00 |
| macro | RL 10-12 | pass@4 | 100.00 | 92.05 | 64.84 | 18.00 | 3.00 | 1.00 |
| macro | RL curriculum 10-12 | pass@4 | 100.00 | 97.73 | 84.62 | 43.00 | 15.00 | 8.00 |
| macro | RL curriculum 10-12 | avg@4 | 99.42 | 85.65 | 56.18 | 20.25 | 5.00 | 2.25 |
| atomic | RL 4-9 | pass@4 | 93.02 | 45.45 | 6.59 | 1.00 | 0.00 | 0.00 |
Rush Hour 결과는 curriculum의 해석을 분명히 한다. Long-only가 긴 horizon에서 바로 충분한 성공 경험을 만들지 못하면 RL은 안정적으로 개선되지 않는다. Short-only는 긴 range에서 한계가 있지만, 짧은 horizon에서 얻은 policy competence를 long horizon training의 초기값으로 쓰면 더 먼 goal distance로 확장된다. 이는 짧은 horizon의 안정적인 학습이 긴 horizon 훈련의 prerequisite일 수 있음을 보여준다.
6.10 결과를 운영 지표로 바꾸면 무엇이 보이나
논문의 실험 결과를 운영 지표로 바꾸면, long-horizon agent를 평가할 때 success rate 하나로는 부족하다는 결론이 나온다. 짧은 horizon에서는 pass@4가 빠르게 오르는지 보면 충분해 보일 수 있다. 하지만 긴 horizon에서는 실패 종류가 달라진다. 모델이 초반에는 올바른 action을 내다가 후반에 context drift로 틀릴 수도 있고, 성공 가능한 trajectory를 거의 찾지 못해 negative update만 받을 수도 있으며, 포맷을 잃고 maximum length까지 늘어지는 collapse로 갈 수도 있다. 이 세 경우는 모두 실패지만 수정 방법은 다르다.
따라서 후속 benchmark는 trajectory-level metric과 step-level metric을 함께 공개해야 한다. Trajectory-level에서는 pass@K, avg@K, 최종 reward, goal distance별 success curve를 기록한다. Step-level에서는 invalid action ratio, parsing error, verifier rejection, observation mismatch, repetition length, action granularity distribution을 기록한다. 학습 중에는 positive trajectory 비율, negative advantage가 붙은 step 수, importance sampling mask 비율, response length tail까지 남겨야 한다. 그래야 collapse가 탐색 부족에서 왔는지, credit assignment noise에서 왔는지, action format 붕괴에서 왔는지 분리할 수 있다.
이 관점에서 Figure 2의 maximum-length response ratio는 단순 보조 지표가 아니다. 긴 horizon RL에서 모델이 잘못된 음의 신호를 계속 받으면, policy는 특정한 정답 행동을 낮추는 데서 멈추지 않고 불필요한 토큰으로 확률 질량을 퍼뜨릴 수 있다. 그러면 action format이 느슨해지고, 응답은 길어지며, 환경 parser가 다시 실패를 반환한다. 이 실패는 다음 업데이트에서 또 음의 신호가 되어 악순환을 만든다. Long-horizon training monitor는 이런 response-length tail을 조기에 감지해야 한다.
또 하나의 운영 지표는 effective horizon compression ratio다. Atomic goal distance를 $d(s_0,g)$, 성공 trajectory의 실제 step 수를 $h_\pi(s_0,g)$라고 하면, macro action이나 subgoal decomposition이 만든 이득은 단순 평균 성공률보다 $h_\pi/d$ 변화로도 읽을 수 있다. 같은 성공률이라도 더 작은 $h_\pi$로 도달하는 policy는 credit assignment가 더 짧고, 실패 복구 비용도 낮다. 이 비율을 함께 기록하면 action abstraction이 정말 학습 문제를 짧게 만들었는지 확인할 수 있다.
7. 한계점 및 향후 연구 방향: 통제된 실험이 남기는 빈칸
7.1 Text-based controlled environments의 장점과 한계
논문의 가장 큰 장점은 통제다. Sudoku와 Rush Hour는 procedural generation과 solver verification이 가능하고, text interface이기 때문에 visual grounding error나 noisy perception을 제거할 수 있다. 이 덕분에 horizon length와 reasoning complexity를 분리하는 실험이 가능해졌다. 그러나 같은 이유로 한계도 분명하다. 실제 웹, 코드, 로봇, 멀티모달 agent는 관찰이 불완전하고 stochastic하며, action 결과가 deterministic하지 않을 수 있다. 논문은 이러한 real-world factors가 검증되지 않았다고 명시한다.
특히 WebShop 실험이 realism을 일부 보완하지만, 여전히 synthetic benchmark에 가깝다. 실제 웹 자동화에서는 페이지 구조 변화, 비정형 텍스트, 로그인 상태, long context memory, tool latency, 외부 API failure가 함께 작동한다. Horizon reduction이 그 환경에서도 필요하다는 직관은 강하지만, horizon이 visual/noisy/stochastic factor와 상호작용할 때 collapse pattern이 어떻게 바뀌는지는 아직 열려 있다. 예를 들어 noisy observation에서는 subgoal verifier 자체가 틀릴 수 있고, macro action은 오류를 더 빠르게 전파할 수도 있다.
7.2 모델 규모와 모델 family의 제한
주요 실험은 Qwen3-1.7B에 집중되어 있고, robustness 확인으로 Qwen3-4B가 추가된다. 논문은 frontier-scale model을 대규모로 RL fine-tuning하지 않는다. 이는 controlled analysis를 위해 합리적인 선택이지만, 모델 크기가 커졌을 때의 행동을 완전히 설명하지는 못한다. 더 큰 모델은 step accuracy가 높고 format stability도 좋을 수 있어 collapse threshold가 뒤로 밀릴 수 있다. 반대로 큰 모델은 더 긴 reasoning을 생성하며 다른 종류의 verbosity collapse를 보일 수도 있다.
모델 family도 Qwen 계열 중심이다. 서로 다른 tokenizer, pretraining corpus, instruction tuning style, tool-use prior를 가진 모델은 negative advantage update에 다르게 반응할 수 있다. 예를 들어 action syntax에 강한 모델은 invalid action penalty에 덜 흔들릴 수 있고, planning prior가 강한 모델은 더 긴 goal distance에서도 초기 성공 trajectory를 더 많이 만들 수 있다. 따라서 향후 연구에서는 model scale과 family를 교차한 horizon collapse map이 필요하다. 어떤 모델에서 어느 goal distance부터 instability가 시작되는지 체계적으로 그릴 수 있어야 한다.
7.3 Technique generalization과 horizon generalization의 구분
부록의 technique generalization 분석은 매우 중요하다. Sudoku L1-L7은 대부분 easy technique으로 구성되기 때문에, 모델이 긴 horizon으로 일반화한다고 해서 더 어려운 추론 기법까지 배운 것은 아니다. 저자들은 medium, hard technique puzzle로 평가를 확장했을 때 성능이 떨어진다고 보고한다. 이는 RL fine-tuning이 이미 base model 안에 있는 capability를 더 안정적으로 실행하게 만들 수는 있지만, 새로운 reasoning primitive를 창발적으로 획득하는 데에는 한계가 있음을 보여준다.
따라서 이 논문을 읽을 때 horizon generalization을 과대해석하면 안 된다. 여기서 일반화는 같은 reasoning family 안에서 더 긴 goal distance로 확장되는 능력이다. 새로운 technique, 새로운 관찰 modality, 새로운 tool semantics로의 일반화와는 다르다. 이 구분은 long-horizon agent 평가에서도 중요하다. 긴 task를 잘한다는 지표가 실제로는 반복 횟수 증가에 대한 robustness를 측정하는지, 아니면 새로운 문제 해결 능력을 측정하는지 분리해야 한다.
7.4 향후 연구 방향
향후 연구는 세 방향으로 확장될 수 있다. 첫째, controlled environment에서 얻은 horizon collapse curve를 real-world-like agent benchmark로 옮겨야 한다. 둘째, macro action과 subgoal decomposition을 자동으로 설계하는 방법이 필요하다. 지금 논문에서는 Sudoku와 Rush Hour의 도메인 구조를 알고 action abstraction을 만든다. 실제 환경에서는 어떤 action을 묶어야 하는지, 어떤 중간 goal이 검증 가능한지 자동 발견해야 한다. 셋째, negative advantage update의 token-level diffusion을 줄이는 optimizer나 loss 설계가 horizon reduction과 결합될 수 있다.
특히 process reward와 verifier 설계는 중요한 후속 주제다. Subgoal decomposition이 효과적이려면 중간 결과가 정확히 평가되어야 한다. 잘못된 verifier는 오히려 잘못된 local optimum을 강화할 수 있다. 따라서 긴 agent task에서는 horizon-aware environment design, verifiable subgoal discovery, action abstraction granularity control, off-policy correction 안정화가 함께 연구되어야 한다. 이 논문은 그중 첫 번째 축, 즉 horizon 자체를 독립 변수로 만드는 실험적 기반을 제공한다.
8. 내 해석: 약점 1과 후속 제안 1, 그리고 기존 위키 맥락과의 연결
8.1 약점 1: action abstraction이 horizon만 바꾸는지 아직 완전히 분리되지는 않는다
내가 보는 가장 큰 약점은 macro action이 horizon reduction과 action representation prior를 동시에 바꾼다는 점이다. Figure 4의 artificially restored long horizon 실험은 이 문제를 잘 줄여 주지만, 완전히 제거하지는 않는다. Macro action을 생성하도록 훈련된 policy는 atomic action policy와 다른 출력 분포, 다른 reasoning cadence, 다른 response length prior를 갖는다. 환경 실행을 atomic으로 제한해도, 모델 내부의 계획 단위와 generation style은 여전히 macro training의 영향을 받을 수 있다.
또한 flexible macro action은 모델에게 더 많은 선택권을 준다. 이는 effective horizon을 줄이는 장점이지만, 동시에 더 강한 self-evaluation과 stopping decision을 요구한다. Fixed macro가 약한 이유가 overshooting 때문이라면, flexible macro의 성능은 horizon reduction뿐만 아니라 언제 멈출지 판단하는 능력에서도 온다. 이 능력은 실제 agent에서도 중요하지만, 논문 제목이 말하는 horizon length의 순수 효과와는 약간 다른 축이다. 따라서 후속 연구에서는 action representation, response budget, execution granularity, reward density를 더 세밀하게 factorial design으로 분리하면 좋겠다.
8.2 후속 제안 1: horizon factorization benchmark
후속 제안은 horizon factorization benchmark다. 같은 base task에 대해 네 축을 독립적으로 조작한다. 첫째, atomic goal distance $d(s_0,g)$를 조작한다. 둘째, environment execution granularity를 조작해 effective horizon $h_\pi(s_0,g)$를 바꾼다. 셋째, observation noise와 stochastic transition을 단계적으로 넣는다. 넷째, subgoal verifier의 정확도와 reward density를 바꾼다. 그러면 collapse가 goal distance 때문인지, macro representation 때문인지, noisy observation 때문인지, 잘못된 process reward 때문인지 더 정밀하게 볼 수 있다.
이 benchmark에서는 단순 success rate와 함께 여러 diagnostic을 함께 기록해야 한다. 예를 들어 per-step accuracy, invalid action ratio, max-length response ratio, negative advantage sample 비율, token-level entropy 변화, importance sampling rejection ratio, subgoal별 reward variance를 측정할 수 있다. 특히 negative advantage가 어느 token group에 확률 질량을 퍼뜨리는지 추적하면, 논문이 제시한 gradient asymmetry 가설을 더 직접적으로 검증할 수 있다. 이런 지표는 긴 agent RL이 단지 실패했는지보다 어떤 경로로 붕괴했는지를 보여준다.
8.3 기존 위키 맥락과의 비교
이 논문은 기존 위키에 있는 sandboxed-agent-harness, search-round-credit-assignment, LMM-Searcher 맥락과 자연스럽게 연결된다. Sandboxed-agent-harness가 안전하고 재현 가능한 agent 실행 환경과 격리된 평가 harness에 초점을 둔다면, 이번 논문은 그 harness 안에서 어떤 변수를 조작해야 하는지에 답한다. 즉 단순히 agent를 sandbox에 넣는 것만으로는 충분하지 않고, goal distance와 effective horizon을 독립적으로 기록하고 조작해야 long-horizon failure를 해석할 수 있다.
Search-round-credit-assignment는 검색이나 다중 라운드 탐색에서 어느 단계에 credit을 줄지 묻는 문제와 맞닿아 있다. 이번 논문은 sparse terminal reward가 긴 trajectory 전체에 모호한 negative advantage를 주면 policy가 붕괴할 수 있음을 보여준다. 따라서 검색 라운드 기반 agent에서도 round 수가 늘어날수록 단순한 최종 정답 보상만으로는 부족하다. 각 search round의 local usefulness, query refinement, evidence grounding을 subgoal reward처럼 설계해야 한다는 시사점이 나온다.
LMM-Searcher는 long-horizon multimodal search에서 입력 압축, 검색 전략, multimodal evidence selection이 중요하다는 흐름으로 볼 수 있다. 반면 이번 논문은 입력 압축이나 검색 strategy보다 horizon 자체를 독립 변수로 분리한다. 이 차이가 중요하다. LMM-Searcher류 연구가 긴 multimodal context를 어떻게 줄이고 어떤 evidence를 고를지 묻는다면, Kim et al.의 논문은 설령 관찰이 단순한 text puzzle이고 reasoning complexity가 고정되어도, 행동 횟수만 길어지면 RL이 무너질 수 있음을 보인다.
따라서 내 해석은 이렇다. 기존 위키의 세 주제는 각각 실험 harness, 라운드별 credit assignment, 긴 multimodal search의 입력 관리를 다룬다. 이번 논문은 그 아래에 깔린 공통 변수를 제시한다. Agent가 sandbox 안에서 실행되든, 검색 라운드를 반복하든, multimodal evidence를 모으든, 최종적으로는 몇 번의 의사결정으로 목표에 도달해야 하는지가 학습 안정성을 좌우한다. 그래서 horizon logging은 앞으로 agent benchmark의 기본 metadata가 되어야 한다.
8.4 실무적 해석
실무적으로 이 논문은 long-horizon agent를 만들 때 긴 workflow를 그대로 RL하지 말라는 경고로 읽힌다. 먼저 action abstraction을 통해 결정 횟수를 줄일 수 있는지 봐야 한다. 예를 들어 코드 작업에서는 개별 shell command를 하나씩 선택하게 하기보다, 검증 가능한 작은 patch나 testable function unit을 action 단위로 삼는 편이 나을 수 있다. 웹 작업에서는 click-by-click policy보다 search, filter, select 같은 high-level operation을 도입하는 것이 안정적일 수 있다. 다만 flexible granularity를 유지해야 fixed macro의 overshooting 문제가 줄어든다.
또 다른 실무적 교훈은 짧은 horizon에서 먼저 policy competence를 확보하라는 것이다. Rush Hour curriculum 결과처럼, 긴 horizon target으로 바로 들어가면 초기 성공률이 낮아 RL signal이 부족하다. 짧은 horizon에서 성공률과 step accuracy를 충분히 높인 뒤, 점차 goal distance를 늘리는 방식이 더 안전하다. 이때 curriculum은 단순히 max step budget을 늘리는 방식보다 task의 intrinsic goal distance를 기준으로 설계되어야 한다. 그래야 모델이 실제로 더 긴 목표까지 확장하는지 확인할 수 있다.
9. 결론: horizon-aware design이 long-horizon agent 학습의 출발점이다
9.1 논문의 핵심 메시지
이 논문의 핵심 메시지는 간단하지만 강하다. 긴 horizon은 그 자체로 LLM agent training의 병목이다. 논문은 Sudoku와 Rush Hour를 통해 reasoning complexity를 통제하고 goal distance만 변화시킨 뒤, 짧은 horizon에서 안정적이던 RL이 긴 horizon에서 collapse한다는 사실을 보여준다. 이 collapse는 exploration difficulty와 sparse reward credit assignment, 특히 negative advantage update의 noisy diffusion으로 설명된다. 따라서 긴 과제에서 실패를 관찰했을 때 모델이 지식이나 추론 능력이 없다고 바로 결론내리면 안 된다.
해결책으로 제시되는 horizon reduction도 중요한 메시지다. Macro action은 decision point를 줄이고, subgoal decomposition은 긴 sparse objective를 짧고 검증 가능한 segment로 나눈다. 둘 다 RL이 감당 가능한 effective horizon을 만든다. 논문은 WebShop, Qwen3-4B, GRPO-style optimizer에서도 같은 패턴을 확인해, horizon reduction이 특정 환경이나 특정 optimizer에만 의존하지 않음을 보인다. 이 점에서 연구의 기여는 새로운 trick 하나보다 long-horizon agent를 설계하는 기본 lens에 가깝다.
9.2 왜 이 논문이 ICML 2026급 주제인가
ICML 관점에서 이 논문이 흥미로운 이유는 empirical study의 질문이 명확하기 때문이다. 많은 에이전트 논문은 복잡한 시스템을 제안하고 여러 benchmark score를 비교하지만, 실패 원인을 분리하기 어렵다. 이 논문은 반대로 controlled task를 만들어 horizon length라는 단일 요인의 효과를 보려고 한다. 물론 통제된 환경의 한계는 있지만, 이 통제 덕분에 long-horizon RL의 근본 문제가 exploration과 credit assignment라는 오래된 RL 주제와 어떻게 연결되는지 선명해진다.
또한 LLM agent 분야에서 흔히 보이는 해결책, 즉 더 큰 모델, 더 긴 context, 더 복잡한 optimizer, 더 많은 tool instruction을 잠시 내려놓게 만든다. 논문이 말하는 우선순위는 학습 가능한 effective horizon을 설계하는 것이다. 이 관점은 코드 에이전트의 program synthesis, 웹 에이전트의 high-level API, 멀티모달 검색의 evidence chunking, hierarchy planner의 milestone 설계까지 넓게 적용될 수 있다. 각 분야의 기술이 달라도 공통적으로 decision horizon을 줄이는 구조가 성능과 안정성에 영향을 준다는 해석이 가능하다.
9.3 독자가 가져갈 한 문장
한 문장으로 정리하면, LLM 에이전트를 긴 과제에서 훈련하려면 먼저 과제를 짧게 만들어야 한다. 여기서 짧게 만든다는 말은 목표를 축소한다는 뜻이 아니다. Atomic action을 더 큰 의미 단위로 묶거나, 긴 목표를 검증 가능한 subgoal로 나누거나, 짧은 goal distance에서 안정적인 policy를 먼저 학습해 더 긴 horizon으로 옮긴다는 뜻이다. 이 논문은 그런 설계가 단순한 engineering convenience를 넘어 RL stability와 generalization을 좌우하는 핵심 원칙임을 보여준다.
10. 요약 정리: Horizon Length 논문의 핵심만 다시 보기
- 논문의 질문: LLM 에이전트가 긴 상호작용 과제에서 실패하는 이유를 모델 지식 부족이나 reasoning complexity보다 horizon length 자체의 효과로 분리해 분석한다.
- 통제 설계: Sudoku와 Rush Hour에서 모델이 짧은 proxy setting으로 풀 수 있는 instance만 남기고, goal distance별로 나누어 reasoning complexity와 horizon을 최대한 분리한다.
- 주요 현상: Qwen3-1.7B를 GPT-5-mini 등 expert trajectory로 SFT한 뒤 RL 4 epochs를 수행하면 L1-L2는 안정적이지만 L3-L4에서는 collapse와 max-length response ratio 증가가 나타난다.
- 원인 해석: 긴 horizon은 성공 trajectory 탐색을 어렵게 만들고, sparse reward에서는 실패 trajectory 전체에 모호한 negative advantage가 들어가 올바른 중간 행동까지 억제할 수 있다.
- 핵심 처방: Macro action과 subgoal decomposition은 effective horizon을 줄여 RL이 감당 가능한 학습 문제를 만들며, Sudoku와 Rush Hour에서 안정성과 성능을 동시에 개선한다.
- macro 설계 교훈: Fixed-length macro보다 flexible macro action이 좋다. 중요한 것은 큰 chunk를 강제하기보다 policy가 상황에 맞게 action granularity를 조절하게 하는 것이다.
- robustness: Horizon reduction은 WebShop, Qwen3-4B, GRPO-style optimizer에서도 collapse를 완화해, 특정 puzzle이나 optimizer에만 의존하지 않는 구조적 효과를 보인다.
- generalization: 짧거나 제한된 horizon에서 안정적으로 학습한 policy는 더 긴 unseen horizon으로 일부 일반화하며, Rush Hour에서는 short-then-long curriculum이 Long-only보다 장거리 성능에 유리하다.
- 한계와 의미: 실험은 text-based controlled environment와 Qwen 계열 작은 모델 중심이므로 real-world visual, noisy, stochastic agent까지 검증된 것은 아니지만, long-horizon agent 설계에서 horizon-aware design이 먼저라는 기준을 제시한다.