[논문 리뷰]/[최신 논문] / [arXiv 2604.03098] Self-Guide: 언어 에이전트의 정책과 내부 보상을 함께 진화시키는 방법.md

[arXiv 2604.03098] Self-Guide: 언어 에이전트의 정책과 내부 보상을 함께 진화시키는 방법

조회

Co-Evolution of Policy and Internal Reward for Language Agents

https://arxiv.org/abs/2604.03098

Xinyu Wang, Hanwei Wu, Jingwei Song, Shuyuan Zhang, Jiayi Zhang, Fanqi Kong, Tung Sum Thomas Kwok, Xiao-Wen Chang, Yuyu Luo, Chenglin Wu, Bang Liu | McGill University, McMaster University, The University of Hong Kong, HKUST Guangzhou, Peking University, UCLA, DeepWisdom, Université de Montréal, Mila | arXiv:2604.03098 | 2026년 4월


1. 서론: 희소한 보상 환경에서 언어 에이전트가 스스로 중간 신호를 만들어야 하는 이유

이 논문은 장기 상호작용 언어 에이전트가 훈련과 추론 모두에서 겪는 공통 병목을 다룬다. ALFWorld, ScienceWorld, WebShop 같은 환경에서는 에이전트가 수십 단계의 행동을 수행한 뒤에야 최종 성공 여부를 알 수 있기 때문에, 어떤 중간 행동이 실제로 문제 해결에 기여했는지를 식별하기가 어렵다. 논문은 이 문제를 단순한 보상 희소성 문제로만 보지 않고, 추론 시점에 다음 행동을 선택할 명시적 근거가 부족하다는 문제와, 훈련 시점에 단계별 신호가 부족하다는 문제가 동시에 얽혀 있다고 정리한다. 따라서 핵심 질문은 외부 평가기 없이도 에이전트가 스스로 중간 판단을 생성하고, 그 판단을 다시 학습 신호로 재활용할 수 있는가로 귀결된다.

기존 접근은 대체로 두 갈래였다. 하나는 롤아웃이 끝난 뒤 사후 신용 할당을 수행해 이미 수집된 궤적을 재해석하는 방식이고, 다른 하나는 별도의 외부 보상 모델이나 과정 보상 모델을 두어 중간 단계의 가치를 추정하는 방식이다. 전자는 추론 중에는 에이전트를 직접 돕지 못하고, 후자는 정책과 평가기가 분리되기 때문에 분포 불일치나 추가 학습 비용이 따른다. 논문은 이러한 분리를 줄이기 위해 동일한 모델이 동일한 문맥에서 짧은 자기 평가 문장을 만들고, 그 문장을 다음 행동의 문맥으로 쓰는 동시에 정량화된 내부 보상으로도 활용하는 구조를 제안한다.

Self-Guide의 핵심은 "중간 판단을 만드는 주체"와 "그 판단을 활용하는 주체"를 분리하지 않는 데 있다. 에이전트는 각 시점에서 현재까지의 궤적을 바탕으로 자신이 올바른 방향으로 가고 있는지, 목표에서 벗어났는지, 혹은 부분 목표에 근접했는지를 짧은 자연어 형태로 서술한다. 이 자기 서술은 단순한 설명용 텍스트가 아니라, 다음 행동 생성의 조건이 되고, 동시에 부호화 과정을 거쳐 단계별 내부 보상이 된다. 즉 추론에서 쓸 수 있는 신호와 훈련에서 쓸 수 있는 신호를 별도 모델 없이 하나의 표현으로 통합한 것이 논문의 가장 중요한 설계다.

논문은 이를 정책과 내부 보상의 공진화라고 설명한다. 정책이 조금 더 좋아지면 더 정확한 자기 안내 문장을 만들 수 있고, 더 정확한 자기 안내 문장은 다시 더 촘촘한 보상으로 작동해 정책을 개선한다. 반대로 초기 단계에서 미성숙한 자기 판단을 곧바로 보상으로 믿어버리면 학습이 흔들릴 수 있다. 그래서 저자들은 내부 보상을 처음부터 강하게 쓰지 않고, 먼저 추론용 안내로만 사용하다가 일정 시점 이후 보상으로 승격시키고, 마지막에는 다시 영향력을 줄이는 단계적 신뢰 스케줄을 함께 제안한다.

Self-Guide의 문제 설정과 단계적 신뢰 스케줄

Figure 1: 희소한 환경 보상만으로는 궤적 중간 품질을 구분하기 어렵고, Self-Guide는 이를 추론 신호와 내부 보상으로 연결한다.

이 그림은 최종 보상만 사용하는 기존 GRPO 계열 학습이 왜 중간 단계 구분에 약한지를 시각적으로 보여준다. 논문은 성공과 실패가 뒤섞인 긴 궤적 내부에서 실제로 좋은 중간 선택과 나쁜 중간 선택이 모두 존재하지만, 종단 보상만 보면 둘을 세밀하게 분리하기 어렵다고 설명한다. Self-Guide는 각 단계마다 짧은 자기 평가를 삽입함으로써 중간 상태를 명시적으로 재표현하고, 그 표현을 행동 조건과 보상 신호 양쪽으로 연결한다.

1.1 논문의 문제 정의가 겨냥하는 병목

언어 에이전트가 상호작용 환경에서 실패하는 대표 원인은 단순히 모델이 지식을 몰라서가 아니라, 긴 의사결정 사슬 속에서 현재 위치를 안정적으로 판단하지 못하기 때문이다. 예를 들어 WebShop에서는 잘못된 검색어를 입력한 뒤 비슷한 상품을 반복 클릭하다가 필요한 속성을 선택하지 못한 채 구매를 시도할 수 있다. ScienceWorld에서는 과학 실험 순서를 부분적으로는 맞추지만 핵심 재료나 장비를 누락할 수 있다. ALFWorld에서는 목표 객체와 무관한 방을 반복 탐색하거나 불필요한 조작을 수행할 수 있다. 이런 오류는 종단 시점에만 보면 하나의 실패로 묶이지만, 실제 개선을 위해서는 훨씬 세밀한 단계 정보가 필요하다.

저자들은 이 문제를 해결하기 위해 별도의 critic이나 reward model을 덧붙이는 대신, 행동 정책 자체가 중간 상태를 해석하도록 강제한다. 이때 자기 안내 문장은 단순한 chain-of-thought 공개와 동일하지 않다. 논문이 요구하는 자기 안내는 현재 접두 궤적에 대한 짧고 방향성 있는 판정이며, 다음 행동을 유도할 만큼 압축된 신호다. 따라서 장황한 사후 해설이 아니라 즉시 행동 선택을 조정하는 실용적 상태 요약이라는 점이 중요하다.

이 문제 정의는 최근 언어 에이전트 연구에서 자주 등장하는 "계획"과 "통제"의 분리 문제와도 맞닿아 있다. 많은 에이전트는 계획 텍스트를 생성할 수 있지만, 그 계획이 다음 행동 선택을 실제로 얼마나 안정적으로 통제하는지는 별개의 문제다. Self-Guide는 장기 계획 전체를 세우기보다 매 단계의 국소 방향성을 짧게 규정하도록 하여, 통제 가능한 단위를 더 작게 만든다. 이런 관점에서 보면 논문은 거대한 전역 계획을 잘 세우는 방법보다는, 불확실한 환경에서 국소적 진전 신호를 반복적으로 갱신하는 방법을 제안한 것에 가깝다. 이는 상호작용 환경의 특성상 전역 계획이 자주 무력화된다는 점을 고려하면 꽤 실용적인 선택이다.

1.2 논문이 주장하는 기여

논문의 기여는 세 가지 축으로 정리할 수 있다. 첫째, Self-Guide라는 자기 생성형 내부 보상 프레임워크를 제안해 추론 시점 안내와 훈련 시점 보상을 동일한 신호로 통합했다. 둘째, 미성숙한 내부 보상 때문에 발생할 수 있는 불안정을 줄이기 위해 trapezoid trust schedule을 설계했다. 셋째, 세 개의 상호작용 벤치마크와 세 종류의 백본 모델에서 추론 전용 개선과 RL 학습 개선을 함께 보고해, 자기 안내가 단순한 프롬프트 기법이 아니라 학습 신호로도 기능함을 보였다.

특히 논문은 자기 안내가 이미 추론 시점에서도 일정한 이득을 제공하지만, 환경 이해가 충분하지 않은 복잡한 환경에서는 그 효과가 제한적일 수 있음을 함께 보여준다. 이것은 자기 안내 문장을 고정된 외부 도구처럼 쓰는 접근의 한계를 드러내며, 왜 온라인 공진화가 필요한지를 정당화한다. 즉 논문의 핵심은 "자기 피드백을 만들 수 있다"가 아니라, "자기 피드백의 품질 자체도 정책과 함께 학습되어야 한다"는 주장이다.

2. 배경 및 관련 연구: 에이전트 RL, 신용 할당, 과정 보상 모델의 접점

관련 연구 섹션에서 저자들은 먼저 agentic reinforcement learning 흐름을 정리한다. 최근 언어 모델은 단발성 답변을 넘어, 도구를 호출하고 환경 상태를 읽고 여러 턴에 걸쳐 계획을 갱신하는 에이전트로 확장되고 있다. 그러나 환경과 상호작용하는 순간 보상 구조는 급격히 거칠어지고, 긴 롤아웃 때문에 분산이 커진다. 이 때문에 단순한 PPO나 GRPO의 변형만으로는 충분하지 않고, 궤적 단위 정규화, 그룹 상대 이점, 계층적 신용 할당 같은 보조 장치들이 계속 제안되어 왔다.

두 번째 축은 credit assignment다. 기존 연구는 성공 여부가 한참 뒤에 주어질 때 어느 단계에 얼마나 공을 돌릴지를 결정하기 위해, hindsight reasoning, trajectory graph 기반 step advantage, 혹은 rollout 후반 재평가 같은 다양한 기법을 사용했다. 이러한 방식은 대부분 사후적이며, 이미 생성된 궤적을 재점수화하는 데 강점이 있다. 반면 Self-Guide는 중간 신호를 사후 평가가 아니라 행동 직전에 생성한다는 점에서 결이 다르다. 다시 말해 같은 신호를 행동 생성과 학습에 함께 쓰는 점이 선행 연구와의 구조적 차별점이다.

세 번째 축은 process reward model이다. 과정 보상 모델은 수학 추론, 코드 생성, 에이전트 행동 등에서 중간 과정의 유망성을 판정하는 별도 모델로 자주 쓰인다. 하지만 이 방식은 추가 데이터, 별도 학습 파이프라인, 그리고 정책과 평가기 사이의 캘리브레이션 문제를 안고 있다. 논문은 Self-Guide가 외부 평가기를 완전히 대체한다고 주장하지는 않지만, 적어도 동일 모델 내부에서 생성되는 중간 언어 신호만으로도 상당한 이득을 만들 수 있음을 실험으로 보인다. 즉 비용과 구조 단순성 측면에서 self-generated internal reward의 실용성을 보여주는 셈이다.

이 지점에서 Self-Guide를 관련 연구와 비교할 때 가장 중요한 구분은 process supervision의 위치다. 많은 선행 연구가 과정 신호를 "정답 과정 데이터" 혹은 "별도 판정기"에서 가져온 반면, 이 논문은 과정 신호를 현재 정책의 생성 행위 내부로 집어넣는다. 따라서 자기 안내는 정책 위에 얹힌 후처리 레이어가 아니라, 정책이 환경과 상호작용하는 방식 자체를 바꾸는 구성 요소가 된다. 추론과 학습이 모두 같은 신호를 재사용하기 때문에, 과정 신호와 정책 사이의 인터페이스도 훨씬 짧아진다. 이 특징은 향후 다른 에이전트 프레임워크에 이식할 때도 상대적으로 단순한 통합 경로를 제공한다.

또한 논문은 외부 교사 의존성 감소라는 실무적 의미도 가진다. 장기 상호작용 환경에서 별도의 reward model을 만들려면 궤적 수준 혹은 단계 수준 라벨링이 필요하고, 이는 비용이 크다. Self-Guide는 완벽한 라벨이 없어도 현재 정책이 생성한 자기 평가 문장을 긍정, 중립, 부정의 세 값으로만 매핑하면 되기 때문에, 라벨링 체계와 모델 서빙 구조를 크게 단순화한다. 물론 그만큼 신호 품질은 정책의 능력에 더 크게 의존하지만, 논문은 바로 그 점을 공진화로 해결하려고 한다. 즉 관련 연구 맥락에서 Self-Guide는 성능뿐 아니라 시스템 단순화 측면에서도 의미 있는 위치를 차지한다.

관련 연구와 비교했을 때 또 하나의 차이는 추론 시간 사용성이다. 사후 신용 할당 계열 방법은 롤아웃 수집 이후 학습 단계에서는 강력할 수 있지만, 실제 테스트 타임에 현재 행동을 수정해 주지는 못한다. 반면 Self-Guide는 생성 즉시 다음 행동의 문맥이 되므로, 같은 계산이 학습과 추론 모두에서 직접적인 효용을 갖는다. 이 성질 때문에 논문은 Self-Guide를 단순한 학습용 보상 기법이 아니라, 에이전트가 실행 중 스스로 상태를 점검하는 메커니즘으로 제시한다. 장기적으로 이는 train-test 간 보상 신호의 일관성을 높이는 방향으로도 해석할 수 있다.

2.1 에이전트 강화학습 관점에서의 위치

논문이 사용하는 기본 최적화기는 GRPO다. 이는 그룹 내 상대 비교를 통해 이점을 계산하는 정책 최적화 방식으로, 최근 장기 추론 및 에이전트 RL에서 널리 쓰이는 계열이다. 중요한 점은 Self-Guide가 최적화기 자체를 새로 만들지 않는다는 것이다. 저자들은 정책 최적화 알고리즘을 바꾸기보다, 그 알고리즘이 받아들이는 학습 신호의 밀도와 품질를 바꾸는 방향을 택한다. 따라서 이 방법은 특정 RL 알고리즘에 종속된 기법이 아니라, 보상 구성과 롤아웃 절차를 수정하는 상위 레벨의 프레임워크로 이해하는 편이 맞다.

이 구조는 후속 확장성 면에서 의미가 있다. 논문 부록은 DAPO 같은 다른 RL 알고리즘과도 호환된다고 보고한다. 즉 Self-Guide의 기여는 가치 함수 근사나 advantage estimator의 새로운 정의가 아니라, 행동 전 생성되는 언어적 자기 판단을 내부 보상으로 승격하는 방식에 있다. 이런 설계는 구현 난도를 상대적으로 낮추면서도, 다양한 정책 최적화 루틴과 결합될 수 있는 여지를 남긴다.

2.2 외부 보상 모델과의 차이

외부 보상 모델은 대개 "정책이 만든 행동을 제3자가 채점"하는 구조다. 반면 Self-Guide는 정책이 자기 자신을 위해 생성한 짧은 판정을 채점 가능한 형태로 변환한다. 이 차이는 계산 비용뿐 아니라 분포 적합성에서도 중요하다. 외부 모델은 고정된 데이터나 다른 모델 패밀리에서 학습되어 현재 정책이 생성하는 롤아웃 분포와 어긋날 수 있다. Self-Guide는 매 시점 같은 정책이 같은 문맥에서 직접 생성하므로, 적어도 현재 정책이 자주 방문하는 상태에 대해 더 직접적인 연결을 가진다.

물론 자기 생성 신호는 자기 확증 편향을 낳을 수 있다. 논문이 단계적 신뢰 스케줄을 강조하는 이유도 여기에 있다. 자기 판단이 충분히 성숙하기 전에는 보상으로 신뢰하지 않고, 먼저 inference-time steering 용도로만 쓰도록 한 것이다. 이는 내부 보상의 장점과 자기 평가의 위험을 동시에 인지한 설계로 볼 수 있다.

3. 방법론: Self-Guide로 자기 안내와 내부 보상을 연결하는 학습 프레임워크

방법론 섹션의 출발점은 에피소드 표현이다. Self-Guide 아래에서 하나의 궤적은 각 시점의 관측, 자기 안내, 행동으로 이루어진 삼중항의 열로 표현된다. 논문은 이를 다음과 같이 적는다.

$$\tau = \{(o_t, z_t, a_t)\}_{t=1}^{T}$$

여기서 $o_t$는 환경 관측, $z_t$는 그 시점의 self-guidance signal, $a_t$는 최종 행동이다. 중요한 점은 행동이 곧바로 관측에서 나오지 않고, 자기 안내를 거친 뒤 생성된다는 점이다. 즉 모델은 먼저 현재까지의 접두 궤적이 어떤 상태인지 언어적으로 평가하고, 그 평가를 조건으로 다음 행동을 샘플링한다. 논문은 이 구조가 행동 직전의 명시적 자기 점검을 강제한다고 본다.

GRPO와 Self-Guide의 비교 다이어그램

Figure 2: 기존 GRPO는 희소한 종단 보상으로 정책을 직접 학습하지만, Self-Guide는 매 단계 자기 안내를 생성하고 이를 행동 조건과 내부 보상으로 함께 사용한다.

이 그림은 Self-Guide의 구조적 차이를 가장 압축적으로 보여준다. 기본 GRPO에서는 롤아웃 전체가 끝난 뒤 환경 보상만으로 궤적을 평가한다. 반면 Self-Guide에서는 각 단계마다 자기 안내 문장 $z_t$가 먼저 생성되고, 같은 문장이 다음 행동의 조건이 되며, 이후에는 이산 극성 매핑을 거쳐 단계별 내부 보상으로도 재사용된다. 따라서 한 번 생성된 언어 신호가 추론과 학습을 잇는 연결 고리 역할을 한다.

3.1 문제 설정과 궤적 인코딩

논문은 시점 $t$ 직전의 이력을 다음과 같이 정의한다.

$$h_{t-1}=\{(o_i, z_i, a_i)\}_{i=1}^{t-1}$$

이 정의는 사소해 보이지만 중요하다. 자기 안내가 단순히 현재 관측 $o_t$만 보는 것이 아니라, 이전 단계의 자기 안내와 행동 기록까지 포함한 전체 접두 문맥을 참고하기 때문이다. 즉 Self-Guide는 상태 평가기이자 궤적 해석기 역할을 함께 수행한다. 이 구조 덕분에 모델은 단일 스냅샷이 아니라 누적된 시행착오를 바탕으로 현재 위치를 판정할 수 있다.

환경 보상은 대부분 $R_{\mathrm{env}}(\tau) \in \{0,1\}$ 형태의 매우 거친 성공 신호다. 논문은 이 설정에서 중간 단계의 질적 차이를 종단 보상만으로는 충분히 반영하기 어렵다고 본다. 예를 들어 거의 목표에 도달한 궤적과 완전히 엉뚱한 궤적이 모두 실패라는 하나의 라벨로 묶이면, 정책은 무엇을 유지하고 무엇을 버려야 하는지 배우기 어렵다. 그래서 Self-Guide는 종단 보상을 대체하지 않고, 그 사이를 메우는 내부 밀집 신호를 추가한다.

이 정의가 중요한 이유는 부분 성공을 다룰 수 있는 최소한의 틀을 제공하기 때문이다. 환경은 최종 성공만 알려주더라도, 자기 안내는 "방향은 맞지만 아직 핵심 객체를 찾지 못했다" 혹은 "지금 행동은 목표와 무관하다" 같은 중간 판정을 담을 수 있다. 이런 판정이 완벽할 필요는 없다. 논문이 보여주는 메시지는 다소 거칠더라도 방향성 있는 중간 신호가 전혀 없는 것보다 낫다는 것이다. 결국 Self-Guide의 장점은 정확한 가치 추정을 대체하는 데 있지 않고, 종단 성공과 중간 행동 사이의 완충층을 만들어 학습을 덜 블라인드하게 만드는 데 있다.

3.2 추론 시점 자기 안내 생성

자기 안내는 먼저 다음과 같이 생성된다.

$$z_t \sim \pi_\theta(\cdot \mid h_{t-1}, o_t)$$

즉 현재 정책 $\pi_\theta$는 관측과 접두 이력을 보고 먼저 짧은 자연어 판정을 생성한다. 이 판정은 현재 진행 방향이 적절한지, 일부 하위 목표가 달성되었는지, 이전 단계가 비효율적이었는지 등을 요약한다. 논문은 이 자기 안내가 장황한 reasoning trace 전체를 대체하려는 것이 아니라, 다음 행동을 고르기에 충분한 압축 표현이어야 한다고 설명한다. 그렇게 해야 프롬프트 부담이 과도하게 커지지 않고, 행동 선택과 직접 연결되는 operational guidance가 된다.

이후 실제 행동은 자기 안내를 조건으로 생성된다.

$$a_t \sim \pi_\theta(\cdot \mid h_{t-1}, o_t, z_t)$$

즉 Self-Guide는 사후 설명 문장이 아니라 정책이 스스로 사용하도록 학습된 중간 상태 표현이다.

여기에는 미묘한 장점이 하나 더 있다. 자기 안내를 먼저 생성하면 모델은 현재 관측을 곧장 행동으로 매핑하는 반사적 정책에서 벗어나, 한 번 더 진행 상황을 재기술하는 단계를 거치게 된다. 이 재기술 단계는 잘못된 행동 후보를 즉시 제거하는 역할을 할 수 있다. 예를 들어 이미 필요한 속성을 선택하지 못했다는 자기 판정이 생성되면, 다음 행동 공간은 자연스럽게 속성 선택 쪽으로 좁혀진다. 즉 Self-Guide는 다음 행동을 직접 지정하지 않더라도, 행동 분포를 바람직한 부분 공간으로 편향시키는 소프트 제약으로 작동한다.

이 점은 언어 모델의 조건부 생성 구조와도 잘 맞는다. 모델은 추가 조건이 주어질 때 다음 토큰 분포를 자연스럽게 재조정할 수 있으므로, 자기 안내 문장을 앞단에 배치하는 것만으로도 행동 정책 전체를 부드럽게 이동시킬 수 있다. 별도의 hard constraint나 symbolic planner 없이도 문맥 내부에서 제어가 가능하다는 뜻이다. 논문이 비교적 단순한 프롬프트 삽입과 보상 매핑만으로도 효과를 보인 이유는, 대규모 언어 모델이 이미 강한 문맥 적응 능력을 갖고 있기 때문이라고 볼 수 있다. Self-Guide는 그 능력을 중간 상태 제어에 맞게 재배치한 셈이다.

3.3 자기 안내를 내부 보상으로 변환하는 방식

추론용 자기 안내를 학습 신호로 재활용하기 위해 논문은 매우 단순한 매핑 함수 $g(\cdot)$를 둔다. 각 자기 안내 문장은 긍정, 중립, 부정의 이산 극성으로 해석되고, 이를 스칼라 보상으로 바꾼다.

$$r_t^{\mathrm{sg}} = g(z_t)$$

실제 구현에서는 positive, neutral, negative 세 범주를 각각 $+0.1$, $0$, $-0.1$로 매핑한다. 저자들은 굳이 복잡한 회귀 점수기 없이도 이러한 단순 부호화만으로 의미 있는 단계별 신호를 만들 수 있다고 보고한다. 중요한 것은 절대값의 정밀도가 아니라, 접두 궤적이 올바른 방향인지 아닌지를 꾸준히 반영하는 상대적 경향성이다. 이 단순화는 외부 점수 모델 학습 없이도 내부 보상을 구성할 수 있게 해 준다.

환경 보상과 자기 안내 보상은 다음과 같이 결합된다.

$$R(\tau;u)=R_{\mathrm{env}}(\tau)+\lambda(u)\sum_{t=1}^{T}r_t^{\mathrm{sg}}$$

여기서 $u$는 학습 진행 단계이며, $\lambda(u)$는 자기 안내 보상의 신뢰도를 조절하는 계수다. 이 식이 의미하는 바는 명확하다. Self-Guide는 원래 목적함수인 환경 성공 보상을 대체하지 않고, 일정 구간에서만 보조적 밀집 신호로 더해진다. 따라서 학습 목표는 여전히 환경 성공에 anchored되어 있고, 내부 보상은 그 목표를 향한 탐색을 더 잘 조직하도록 돕는 역할을 맡는다.

이 식을 다른 각도에서 보면, Self-Guide는 중간 피드백의 출처를 외부 환경에서 내부 언어 표현으로 확장한 셈이다. 기존에는 환경이 주지 않는 정보를 학습에 쓰려면 별도 평가기를 학습해야 했지만, 여기서는 정책이 스스로 만든 표현이 그 역할 일부를 대신한다. 물론 자기 생성 신호이므로 편향 가능성이 남지만, 논문은 그 위험을 스케줄링으로 관리한다. 결과적으로 보상 설계 문제를 "외부에서 더 좋은 라벨을 모으는 문제"에서 "내부에서 언제부터 자기 신호를 믿을 것인가의 문제"로 바꿔 놓는다. 이는 연구 방향 자체를 전환하는 제안이라고 볼 수 있다.

3.4 GRPO 기반 공동 최적화

정책 최적화는 결합 보상을 받은 여러 롤아웃 집합에 대해 수행된다. 각 롤아웃 $\tau_i$의 반환은 $R_i=R(\tau_i;u)$로 정의되고, 그룹 평균과 표준편차를 사용해 상대 이점을 계산한다.

$$\hat{A}_i = \frac{R_i-\mu_R}{\sigma_R+\epsilon}$$

이후 최적화 목적은 표준적인 GRPO 형식을 따른다.

$$\mathcal{L}_{\pi}(\theta)=\mathbb{E}\left[\min\left(r_i(\theta)\hat{A}_i,\,\mathrm{clip}(r_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\right)\right]$$

즉 논문의 기술적 새로움은 GRPO 수식을 바꾸는 것이 아니라, $R_i$ 안에 self-guidance reward를 포함시키는 데 있다. 이 설계는 구현 관점에서 매력적이다. 기존 에이전트 RL 코드베이스에서 롤아웃 포맷과 보상 계산부만 수정하면 기본 구조를 유지하면서도 Self-Guide를 결합할 수 있기 때문이다. 논문이 부록에서 다른 알고리즘과의 호환성을 별도로 점검한 것도 이러한 설계 철학과 연결된다.

여기서 주목할 부분은 언어적 중간 표현과 스칼라 보상 사이의 연결이 아주 짧다는 점이다. 많은 방법이 텍스트 과정을 다시 별도 평가기가 읽고 점수화하는 2단 또는 3단 구조를 갖는데, Self-Guide는 정책이 생성한 텍스트를 곧바로 간단한 극성 매핑으로 바꾼다. 이 때문에 스칼라 보상의 해석 가능성도 높다. 양의 보상은 현재 접두 궤적이 목표를 향해 진전하고 있다는 자기 판정, 음의 보상은 이탈이나 비효율을 시사한다. 논문이 복잡한 score regression 대신 세 값으로 충분하다고 한 이유는, 장기 에이전트 과업에서 중요한 것은 절대 점수의 정밀도보다 방향성 있는 중간 피드백의 지속적 제공이라는 판단에 있다.

또 하나의 장점은 정책-보상 간 표현 공유다. 같은 모델이 생성한 자기 안내를 다시 같은 모델이 다음 행동 생성에 사용하기 때문에, 내부 보상은 정책이 실제로 해석 가능한 언어 형식으로 제시된다. 외부 보상 모델의 숫자 점수는 강력할 수 있지만, 정책 입장에서는 왜 그 점수를 받았는지 명시적 문맥이 부족할 수 있다. Self-Guide는 짧은 자연어 문장이 곧바로 다음 행동의 조건으로 주입되므로, 보상과 제어가 같은 표현 공간에 놓인다. 이 특성은 학습 효율만이 아니라, 실패 사례를 사람이 읽고 해석하기 쉽게 만드는 부수 효과도 가진다.

3.5 단계적 신뢰 스케줄의 필요성

Self-Guide의 가장 중요한 안정화 장치는 stage-wise trust schedule이다. 저자들은 내부 보상의 문제를 단순한 reward shaping이 아니라, "아직 미숙한 자기 판단을 언제부터 보상으로 믿을 것인가"의 문제로 본다. 이 때문에 자기 안내는 처음부터 학습 타깃이 되지 않는다. 먼저 행동을 돕는 문맥 신호로 쓰이며, 이후 품질이 어느 정도 올라간 뒤에만 내부 보상으로 켜진다. 마지막에는 다시 그 영향력을 낮춰 최종 정책이 환경 목적에 과도하게 왜곡되지 않도록 한다.

논문은 이 스케줄을 네 단계의 사다리로 표현한다.

$$\lambda(u)=\begin{cases}0 & \text{Phase I: guidance-only warm-up}\\ 0\rightarrow 1 & \text{Phase II: reward activation}\\ 1 & \text{Phase III: full internal reward}\\ 1\rightarrow 0 & \text{Phase IV: late annealing}\end{cases}$$

이 식은 단순한 휴리스틱이 아니라 Self-Guide의 전제를 잘 드러낸다. 신뢰는 능력을 따라가야 한다는 것이다. 초기에는 자기 안내 품질이 낮아 정책을 잘못 끌고 갈 수 있으므로 보상으로 쓰지 않고, 중반에는 학습 가속을 위해 충분히 활용하되, 후반에는 원래의 환경 목적에 더 충실하도록 점차 비중을 줄인다. 논문 실험은 이 스케줄이 단순 조기 도입이나 상시 최대 가중치보다 안정적임을 보여준다.

네 단계 각각의 기능을 조금 더 해석하면 다음과 같다. Phase I은 자기 안내를 보상과 분리해 "말하게만 하는" 기간이다. 이 구간에서 정책은 환경 보상만으로 학습되므로, 자기 안내는 유용한지 아닌지가 결과적으로만 검증된다. Phase II는 내부 보상을 갑자기 투입하지 않고 선형적으로 늘려 optimization shock를 줄이는 구간이다. Phase III는 자기 안내가 충분히 성숙했다고 보고 가장 강하게 활용하는 기간이며, Phase IV는 최종 정책이 환경 목적 자체에 맞게 정렬되도록 내부 보상 의존성을 줄이는 정리 단계다. 즉 trapezoid 스케줄은 단순 가중치 곡선이 아니라, Self-Guide의 성장 단계에 대응하는 학습 커리큘럼이라고 이해할 수 있다.

4. 실험 설정: 세 가지 상호작용 벤치마크와 세 가지 백본 모델에서의 검증

실험은 ALFWorld, ScienceWorld, WebShop 세 환경에서 수행된다. ALFWorld는 상대적으로 구조화된 가정 환경 텍스트 시뮬레이션으로, 목표 객체를 찾고 조작하는 과업이 많다. ScienceWorld는 다단계 과학 실험과 절차적 추론을 요구하며, 가능한 행동 형식이 복잡하다. WebShop은 검색과 클릭, 속성 선택, 구매까지 이어지는 웹 상거래 환경으로 노이즈와 분기 수가 많다. 논문은 이 세 환경을 통해 자기 안내가 구조화된 환경과 비정형 환경에서 각각 어떻게 작동하는지 비교한다.

백본 모델은 Qwen3-1.7B, Qwen3-4B, Qwen2.5-7B-Instruct 세 가지다. 모델 크기와 계열이 다르기 때문에, 성능 향상이 특정 모델에만 국한된 현상인지 여부를 확인할 수 있다. 모든 실험은 텍스트 전용 설정에서 진행되며, 비교군은 추론 기반 방법과 RL 기반 방법으로 나뉜다. 추론 비교군에는 ReAct, Reflexion, ReFlAct-style, 그리고 RL 없이 Self-Guide만 추가한 ReAct w/ SG가 포함된다. RL 비교군에는 GRPO, GRPO w/ SG, GRPO w/ SG & GR가 사용된다.

4.1 데이터셋 및 벤치마크

세 환경의 차이는 자기 안내가 어느 조건에서 잘 작동하는지 이해하는 데 중요하다. ALFWorld는 비교적 제한된 행동 공간과 분명한 상태 전이가 있어, "지금 목표에 가까워지고 있는가"를 언어적으로 기술하기가 상대적으로 쉽다. ScienceWorld는 규칙과 절차가 더 복잡하고, 행동 형식이 많아 접두 상태를 한 문장으로 압축하는 난도가 올라간다. WebShop은 검색 결과의 품질, 상품 속성의 조합, 페이지 이동 분기 때문에 중간 판단 자체가 훨씬 모호해진다. 논문이 prompting 단계에서 ALFWorld에서 더 큰 이득을 보고 WebShop에서 제한적 이득을 보고하는 이유가 여기에 있다.

아래 표는 부록 A에 제시된 핵심 실행 조건을 정리한 것이다. 각 환경은 최대 스텝 수와 프롬프트 길이 제약이 다르며, 이 차이는 Self-Guide의 문맥 비용과도 직접 연결된다. 특히 WebShop은 최대 프롬프트 길이가 8192 토큰으로 더 길지만, 허용 스텝 수는 15로 짧다. 반면 ALFWorld와 ScienceWorld는 4096 토큰 제한 아래 각각 50, 30 스텝을 수행한다.

환경 최대 프롬프트 길이 최대 응답 길이 에피소드 최대 스텝 롤아웃 온도 검증 온도 총 학습 스텝
ALFWorld 4096 1024 50 1.0 0.4 100
ScienceWorld 4096 1024 30 1.0 0.4 100
WebShop 8192 1024 15 1.0 0.4 100

ScienceWorld의 경우 허용 가능한 행동 수가 시점마다 100개를 넘을 수 있어, 논문은 모든 행동 후보를 프롬프트에 열거하지 않고 action format grammar만 주입한다. 이는 Self-Guide가 단순한 선택지 랭킹이 아니라, 더 넓은 행동 공간에서도 상태 방향성을 제공하는 신호임을 보여준다. WebShop 프롬프트는 GiGPO 템플릿을 따른다고 부록이 밝힌다. 따라서 Self-Guide의 성능은 특정 환경용 프롬프트 트릭 하나에 의존한다고 보기 어렵다.

환경 차이를 다시 정리하면, ALFWorld는 관측 텍스트가 상대적으로 정돈되어 있고 목표 객체 중심으로 상태를 해석하기 쉬운 편이다. ScienceWorld는 과학 실험의 절차적 제약 때문에 상태 텍스트만 보고도 "무엇이 다음 단계인지"를 판단해야 한다. WebShop은 검색 결과의 품질 자체가 확률적이어서, 잘못된 선택이 환경 이해 부족인지 검색 실패인지 구분하기 어렵다. 따라서 같은 Self-Guide라도 각 환경에서 맡는 역할이 다르다. ALFWorld에서는 목표 추적자에 가깝고, ScienceWorld에서는 절차 점검자에 가깝고, WebShop에서는 탐색 노이즈 필터에 가깝다.

4.2 구현 세부사항

논문이 제시한 구현에서 자기 안내는 별도의 대형 교사 모델 없이 정책과 동일한 모델이 생성한다. 이것은 계산량과 시스템 단순성 측면에서 중요한 선택이다. 정책 모델이 매 단계 두 번의 생성, 즉 자기 안내와 행동을 모두 수행해야 하므로 문맥 길이와 추론 비용이 늘 수는 있지만, 그 대신 추가 보상 모델 학습 비용이나 모델 간 분포 차이는 줄어든다. 또한 내부 보상 매핑이 세 값으로 단순하기 때문에, 중간 점수 회귀기나 복잡한 calibration 단계가 필요 없다.

자기 안내 보상 계수는 본문에 따르면 40 스텝 이전에는 0, 40에서 50 사이에 선형 증가, 50에서 70 사이에 1로 유지, 70에서 80 사이에 다시 0 방향으로 감소한다. 이 설정은 벤치마크 공통으로 사용되며, 실험 섹션과 ablation에서 그 필요성이 검증된다. 즉 논문은 내부 보상 유무만 비교하지 않고, 언제 어떤 속도로 켜고 끌지도 학습 안정성의 핵심 축으로 다룬다.

추론 기반 비교군과 RL 기반 비교군을 함께 두었다는 점도 실험 설계상 중요하다. 추론 기반 실험은 Self-Guide가 학습 없이도 어느 정도 decision-time steering 효과를 갖는지 보여주고, RL 기반 실험은 그 신호가 내부 보상으로 확장될 때 추가 이득이 있는지 검증한다. 이 이중 설계 덕분에 결과 해석이 명료하다. Self-Guide의 효과가 단순 프롬프트 개선인지, 학습 신호로서도 유의미한지, 두 측면을 분리해서 볼 수 있기 때문이다.

부록의 세부 설명을 보면 각 환경의 설정도 Self-Guide 해석에 영향을 준다. ALFWorld는 최대 50스텝으로 비교적 긴 탐색이 허용되며, 잘못된 이동과 불필요한 상호작용이 누적될 수 있다. ScienceWorld는 30스텝이지만 행동 형식이 다양하고 과학 절차 의존성이 강하다. WebShop은 15스텝으로 짧은 대신 검색과 탐색의 각 선택이 훨씬 큰 영향을 미친다. 따라서 Self-Guide는 단순히 긴 궤적에서만 중요한 것이 아니라, 짧지만 분기 폭이 큰 환경에서도 잘못된 조기 선택을 줄이는 용도로 의미가 있다.

또한 검증 온도를 0.4로 통일한 것은 학습 곡선 비교에서 잡음을 줄이기 위한 선택으로 읽을 수 있다. Self-Guide는 생성형 신호이므로 온도에 따라 문장 다양성이 크게 변할 수 있는데, 평가 시 온도를 낮추면 정책과 자기 안내의 결합 효과를 더 안정적으로 볼 수 있다. 반면 롤아웃 온도를 1.0으로 둔 것은 학습 과정에서 충분한 탐색을 확보하기 위한 설정이다. 즉 실험 설계 자체가 Self-Guide의 양면성, 곧 문맥 기반 제어탐색 기반 학습을 동시에 고려하고 있다.

백본 선택 역시 해석상 의미가 있다. Qwen3-1.7BQwen3-4B는 같은 패밀리 내부의 규모 차이를 제공하고, Qwen2.5-7B-Instruct는 다른 계열에서의 재현성을 확인하게 해 준다. 만약 Self-Guide의 효과가 특정 tokenizer, instruction tuning 스타일, 혹은 프롬프트 형식에만 의존했다면 이런 교차 모델 비교에서 패턴이 무너지기 쉬웠을 것이다. 그러나 메인 표는 세 모델 모두에서 방향성이 유지된다는 점을 보여준다. 따라서 논문은 Self-Guide를 특정 모델 팁이 아니라, 백본을 가로지르는 학습 프레임워크 수준의 아이디어로 위치시킨다.

4.3 베이스라인

추론 기준선인 ReAct는 관찰과 사고, 행동을 반복하는 고전적 에이전트 프롬프팅 방식이다. Reflexion은 실패 경험을 반성 텍스트로 활용하는 방향이고, ReFlAct-style은 반성과 행동을 더 긴밀하게 섞는 계열이다. 논문은 RL 없이 Self-Guide만 삽입한 ReAct w/ SG를 따로 두어, 자기 안내 문장이 학습 전부터 어느 정도 기능하는지 점검한다. 이 비교는 Self-Guide가 RL 이후에만 유효하다는 오해를 피하게 해 준다.

RL 기준선인 GRPO는 종단 환경 보상만 사용하는 기본형이다. 여기에 자기 안내를 행동 조건으로만 넣은 GRPO w/ SG가 두 번째 기준선으로 쓰인다. 마지막으로 GRPO w/ SG & GR는 자기 안내를 행동 조건으로 사용할 뿐 아니라, 단계적 신뢰 스케줄 아래 내부 보상으로도 쓰는 완전한 방법이다. 이렇게 세 층위로 나누면 Self-Guide의 성능 향상이 행동 전 안내 효과인지, 아니면 내부 보상 추가 효과인지 분해해서 해석할 수 있다.

5. 주요 실험 결과: 추론 단계 개선과 RL 단계 개선이 모두 확인되는가

가장 핵심적인 결과는 Table 1에 담겨 있다. 논문은 각 모델에 대해 prompting 설정과 RL 설정을 나눠 ALFWorld, ScienceWorld, WebShop의 성능을 보고한다. ALFWorld는 세부 과업별 성공률과 전체 성공률을 함께 제시하고, ScienceWorld와 WebShop은 성공률과 점수를 같이 제시한다. 아래에서는 원문의 표를 모델 블록별로 나누어 재구성했다.

5.1 Qwen3-4B 결과

Qwen3-4B 블록에서 가장 먼저 눈에 띄는 점은 RL 없이도 ReAct w/ SG가 ALFWorld 전체 성공률을 20.3에서 58.6으로 크게 끌어올린다는 사실이다. 반면 WebShop에서는 ReAct의 11.3에서 17.6으로 상승하지만 절대값은 여전히 낮다. 이는 자기 안내가 구조화된 환경에서는 즉시 유효하지만, 복잡한 웹 환경에서는 품질이 충분히 높지 않을 수 있음을 시사한다. RL 단계로 가면 GRPO 86.7 대비 GRPO w/ SG 91.4, 최종 GRPO w/ SG & GR 96.9로 올라가며, ScienceWorld와 WebShop에서도 일관된 개선이 확인된다.

Qwen3-4B ALFWorld All ScienceWorld Success ScienceWorld Score WebShop Success WebShop Score
ReAct 20.3 9.9 12.4 11.3 31.1
Reflexion 37.1 16.4 10.9 24.0 57.8
ReFlAct-style 38.6 9.0 11.8 16.0 35.1
ReAct w/ SG 58.6 10.4 13.1 17.6 42.7
GRPO 86.7 59.3 51.4 71.9 84.3
GRPO w/ SG 91.4 62.6 60.4 77.3 87.0
GRPO w/ SG & GR 96.9 65.0 61.6 78.1 87.8

Qwen3-4B 결과는 Self-Guide의 두 역할이 모두 유효하다는 점을 잘 보여준다. GRPO w/ SG만으로도 ALFWorld 전체에서 +4.7, ScienceWorld 성공률에서 +3.3, WebShop 성공률에서 +5.4가 나타난다. 여기에 내부 보상까지 추가한 GRPO w/ SG & GR는 각각 +10.2, +5.7, +6.2의 절대 개선을 보인다. 즉 추론 단계 안내만으로 얻는 이득 위에, 단계별 내부 보상이 추가적인 학습 신호로 작동했다고 해석할 수 있다.

ALFWorld의 세부 과업별 숫자를 보면 Self-Guide가 단순 평균 향상 이상의 변화를 만든다. Qwen3-4B 기준으로 Pick은 95.7에서 100, Look은 88.9에서 100, Heat는 92.3에서 100으로 올라간다. 이미 높은 과업에서도 추가 개선이 생기고, 상대적으로 어려운 Pick2도 86.4에서 93.8로 높아진다. 반면 Cool은 67.7에서 87.0 수준으로 상승하지만 다른 과업보다 절대값이 다소 낮다. 이는 Self-Guide가 모든 하위 과업을 균등하게 해결한다기보다, 각 과업의 상태 판정 난도에 따라 효과가 달라질 수 있음을 보여준다.

ScienceWorld와 WebShop 점수 항목도 중요하다. 성공률뿐 아니라 점수가 함께 오르는 것은 Self-Guide가 단순히 몇 개의 lucky success를 늘리는 것이 아니라, 실패한 경우에도 더 나은 중간 상태를 만들 가능성이 있음을 시사한다. 예를 들어 Qwen3-4B에서 ScienceWorld 점수는 51.4에서 61.6, WebShop 점수는 84.3에서 87.8로 오른다. 성공률 상승 폭보다 점수 상승 폭이 작은 경우도 있는데, 이는 일부 환경에서 부분 진전과 최종 성공이 항상 같은 비율로 움직이지 않기 때문이다. 그럼에도 두 지표가 같은 방향으로 개선된다는 사실은 내부 보상 신호가 단순 이진 성공 최적화 이상의 정보를 제공한다는 해석을 가능하게 한다.

5.2 Qwen3-1.7B 결과

소형 모델인 Qwen3-1.7B에서는 Self-Guide의 효과가 더 분명하게 드러난다. 기본 GRPO의 ALFWorld 전체 성공률은 72.7이지만, GRPO w/ SG는 81.3, GRPO w/ SG & GR는 89.8까지 오른다. WebShop 성공률도 32.0에서 49.2, 그리고 56.3으로 커진다. 이는 모델 용량이 크지 않더라도 중간 자기 안내가 탐색을 정돈해 줄 수 있으며, 특히 복잡한 환경에서 내부 보상이 성능 향상에 기여함을 시사한다.

Qwen3-1.7B ALFWorld All ScienceWorld Success ScienceWorld Score WebShop Success WebShop Score
ReAct 10.2 0.9 1.0 4.7 41.6
Reflexion 16.4 12.3 11.8 16.0 39.8
ReFlAct-style 12.9 0.9 1.2 4.4 37.5
ReAct w/ SG 21.1 1.4 5.3 5.4 39.7
GRPO 72.7 42.6 23.5 32.0 63.0
GRPO w/ SG 81.3 49.3 25.3 49.2 76.7
GRPO w/ SG & GR 89.8 52.1 28.0 56.3 79.4

흥미로운 부분은 prompting 단계에서도 ALFWorld 전체 성능이 10.2에서 21.1로 두 배 이상 늘지만, ScienceWorld와 WebShop에서는 증가 폭이 제한적이라는 점이다. 논문은 이를 task familiarity 문제로 해석한다. 즉 모델이 환경 동역학을 충분히 이해하지 못한 상태에서는 자기 안내 품질도 낮아질 수 있다. 그 때문에 온라인 학습을 통해 자기 안내와 정책을 함께 성숙시키는 공진화 구조가 필요하다는 논리적 연결이 성립한다.

소형 모델에서 이러한 현상이 더 두드러지는 이유도 추론해 볼 수 있다. 모델 용량이 작을수록 환경 상태를 정확히 요약하는 자기 안내 문장을 만들기 어렵고, 그 결과 prompting 단계의 이득은 제한된다. 그러나 RL이 시작되면 자기 안내는 단순한 언어 장식이 아니라 행동과 보상을 연결하는 반복 신호가 되므로, 오히려 작은 모델에게 더 큰 구조적 도움을 줄 수 있다. Qwen3-1.7B에서 WebShop 성공률이 32.0에서 56.3으로 크게 오르는 결과는 이러한 가능성을 잘 보여준다. 즉 Self-Guide는 대형 모델의 고급 능력을 보완하는 기법이면서 동시에 소형 모델의 구조적 약점을 메우는 장치이기도 하다.

세부 과업 분포를 보면 Qwen3-1.7B에서도 ALFWorld의 Look은 100, Heat는 100, Pick2는 100까지 오르는 반면, CleanCool은 각각 78.1, 78.8 수준에 머문다. 이는 자기 안내가 관찰 가능한 진행 징후가 뚜렷한 과업에서는 특히 강하게 작동하지만, 상태 전이가 더 섬세하거나 조건 충족 판단이 어려운 과업에서는 여전히 한계가 있음을 시사한다. 따라서 Self-Guide는 모든 유형의 중간 결정을 동일하게 단순화하지 않는다. 오히려 어떤 과업이 자기 판정 가능한 구조를 갖는지 드러내는 진단 도구로도 읽을 수 있다.

5.3 Qwen2.5-7B-Instruct 결과

Qwen2.5-7B-Instruct에서도 동일한 패턴이 확인된다. 기본 GRPO가 이미 강한 성능을 보이지만, GRPO w/ SGGRPO w/ SG & GR가 이를 다시 밀어 올린다. ALFWorld 전체 성공률은 83.6에서 92.2, 95.3으로 증가하고, ScienceWorld 성공률은 64.0에서 72.5, 75.4로 오른다. WebShop 성공률은 65.6에서 76.6, 80.5까지 향상된다. 즉 대형에 가까운 백본에서도 자기 안내는 여전히 유효하며, 단지 작은 모델의 보정 장치에 그치지 않는다.

Qwen2.5-7B-Instruct ALFWorld All ScienceWorld Success ScienceWorld Score WebShop Success WebShop Score
ReAct 42.2 3.1 3.3 7.8 19.6
Reflexion 45.0 21.8 10.0 29.0 62.1
ReFlAct-style 47.1 8.5 6.0 10.2 28.6
ReAct w/ SG 55.5 10.0 11.4 13.3 31.4
GRPO 83.6 64.0 62.7 65.6 77.5
GRPO w/ SG 92.2 72.5 69.4 76.6 89.3
GRPO w/ SG & GR 95.3 75.4 72.6 80.5 90.1

모델 규모가 달라도 패턴이 유지된다는 점은 방법론의 일반성을 뒷받침한다. 특히 모든 모델에서 GRPO w/ SG가 먼저 기본형을 이기고, 그 위에 SG & GR가 추가 우위를 형성하는 계단형 결과가 나온다. 이는 Self-Guide가 단순한 추론 문맥 강화와 내부 보상 강화라는 두 가지 채널을 통해 독립적으로 기여한다는 본문의 설명과 일치한다.

또한 Qwen2.5-7B-Instruct에서 prompting 성능이 상대적으로 높은데도 RL 이후 추가 향상이 남아 있다는 점이 중요하다. 이는 Self-Guide가 단순히 초기 reasoning 품질이 낮을 때만 필요한 보정책이 아니라는 뜻이다. 이미 강한 정책도 긴 상호작용 과정에서는 중간 방향성 점검이 유용하며, 특히 내부 보상으로 재활용될 때 더 세밀한 탐색 압력을 제공할 수 있다. 따라서 Self-Guide는 모델 능력이 부족할 때만 켜는 임시 장치가 아니라, 강한 에이전트에서도 장기 궤적 최적화에 도움이 되는 일반적 메커니즘으로 해석할 수 있다.

학습 전 자기 안내의 환경별 효과

Figure 3: RL 학습 없이도 자기 안내가 ALFWorld에서는 유의미한 성능 향상을 만들지만, WebShop에서는 일관성이 떨어진다.

이 그림은 학습 전 Self-Guide의 환경 의존성을 요약한다. ALFWorld처럼 구조가 뚜렷한 환경에서는 자기 안내가 현재 위치를 비교적 안정적으로 판정해 바로 행동 품질을 끌어올린다. 반면 WebShop처럼 분기와 노이즈가 많은 환경에서는 같은 자기 안내가 충분히 정교하지 못해 성능 향상이 제한적이거나 불안정하다. 논문은 이를 공진화 필요성의 근거로 제시하며, 고정된 자기 안내만으로는 복잡 환경 일반화가 어렵다고 해석한다.

5.4 결과 해석

전체 결과를 종합하면 Self-Guide는 세 층위에서 의미가 있다. 첫째, RL 없이도 중간 상태를 언어로 정리하는 행위 자체가 특정 환경에서 행동을 개선한다. 둘째, 그 자기 안내를 내부 보상으로 쓰면 추가 개선이 나타나므로, 자기 안내 문장이 단순 프롬프트 장식이 아니라 실제 학습 신호로 기능한다. 셋째, 이런 효과가 1.7B에서 7B급 모델까지 반복되기 때문에 특정 백본에 특화된 현상으로 보이지 않는다. 이는 논문이 제안한 "정책과 내부 보상의 공진화"가 실험적으로도 일관된 패턴을 가진다는 뜻이다.

한편 절대 성능 향상 폭은 환경마다 다르다. ALFWorld는 상대적으로 일관되고 큰 향상을 보이지만, ScienceWorld와 WebShop은 초기 prompting 단계에서 불안정성이 더 크다. 이 차이는 자기 안내 문장 품질이 환경 구조와 깊이 연동된다는 점을 시사한다. 따라서 Self-Guide는 모든 환경에서 동일한 강도로 작동하는 보편적 만능 장치라기보다, 환경 구조와 모델 친숙도에 따라 품질이 달라지는 내부 신호로 이해하는 것이 정확하다.

메인 결과의 또 다른 함의는 중간 언어 신호의 가치가 단순 설명 가능성에 그치지 않는다는 점이다. 에이전트 연구에서 중간 reasoning 텍스트는 종종 사람이 읽기 좋은 해설로 소비되지만, 이 논문은 그 텍스트를 실제 정책 최적화와 연결한다. 자기 안내 문장이 더 좋아질수록 행동도 좋아지고, 행동이 좋아질수록 더 유용한 자기 안내가 생성되는 선순환이 실험 곡선에서 관찰된다. 따라서 Self-Guide는 "설명 가능한 RL"보다는 "설명을 통해 강화되는 RL"에 더 가깝다. 이 관점은 향후 reasoning trace를 어떻게 학습 신호로 재사용할지에 대한 중요한 시사점을 준다.

또한 결과를 읽을 때 prompting 대비 RL 개선폭을 함께 보는 것이 중요하다. prompting 단계의 ReAct w/ SG는 학습 없이도 자기 안내가 일정 부분 작동함을 보여주지만, 본문의 핵심 주장은 여기에 머물지 않는다. RL 단계에서 SG만 추가한 모델과 SG+GR을 모두 추가한 모델이 다시 분리되는 것이 논문의 중심 증거다. 즉 자기 안내 문장 자체가 유용할 뿐 아니라, 그 문장을 수치 보상으로 환원했을 때 추가 학습 신호가 생긴다는 점이 핵심이다. 이 이중 증거 구조 덕분에 Self-Guide는 단순 prompt engineering이 아니라 강화학습 기여를 가진 방법으로 읽힌다.

6. 추가 분석 및 Ablation Study: 공진화가 실제로 일어나고 있는가

논문은 메인 테이블만으로 끝나지 않고, Self-Guide가 어떤 방식으로 성능을 만드는지 추적하기 위해 학습 곡선, 스케줄 ablation, 오류 패턴 분석, 오프라인 증류 비교를 제공한다. 이 추가 분석은 방법의 작동 메커니즘을 이해하는 데 핵심적이다. 특히 저자들은 "자기 안내만으로 충분한가", "내부 보상은 언제 켜야 하는가", "오프라인 교사 증류로 대체할 수 있는가"라는 세 가지 질문에 각각 실험적으로 답한다.

6.1 자기 안내 보상 학습 동역학

Figure 4의 세 패널은 ALFWorld, ScienceWorld, WebShop에서의 학습 곡선을 보여준다. 논문 설명에 따르면 GRPO w/ SG는 학습 초반부터 기본 GRPO보다 우세하다. 이는 자기 안내가 보상으로 사용되기 전에도 이미 decision-time guidance로 성능을 개선한다는 뜻이다. 이후 약 40 스텝에서 자기 안내 보상이 활성화되면, GRPO w/ SG & GRGRPO w/ SG와 분리되며 추가 이득을 형성한다. 이 분기 시점은 단계적 신뢰 스케줄의 설계 논리를 정량적으로 뒷받침한다.

ALFWorld 학습 곡선

Figure 4: ALFWorld에서 GRPO, GRPO w/ SG, GRPO w/ SG & GR의 검증 성능 변화.

ALFWorld 곡선에서는 자기 안내만 사용한 설정이 초기부터 기본 GRPO를 넘어서고, 내부 보상이 활성화된 뒤에는 완전한 Self-Guide가 다시 추가 상승을 만드는 패턴이 뚜렷하다. 구조화된 환경일수록 자기 안내 품질이 빨리 안정화되기 때문에, 내부 보상을 도입했을 때 그 이득도 비교적 선명하게 드러난다고 해석할 수 있다. 논문이 ALFWorld를 가장 설득력 있는 사례로 제시하는 이유가 여기에 있다.

특히 ALFWorld에서 곡선 분리가 비교적 이른 시점부터 나타난다는 것은, 자기 안내가 이 환경에서는 빠르게 상태 추적 메모리 역할을 얻는다는 뜻으로 볼 수 있다. 에이전트는 이미 무엇을 집었고, 어느 방을 방문했고, 목표와 무관한 행동을 얼마나 반복했는지를 자기 안내 문장에 요약할 수 있다. 이런 정보는 원래도 히스토리에 존재하지만, 명시적 문장으로 재기술될 때 행동 선택에 더 직접적으로 작용한다. 따라서 Self-Guide의 효과는 새로운 정보를 추가한다기보다, 기존 히스토리 중 정책이 활용하기 쉬운 형태로 정보를 다시 정렬하는 데서 나온다고 해석할 수 있다.

ScienceWorld 학습 곡선

Figure 5: ScienceWorld에서의 학습 곡선은 자기 안내와 내부 보상이 복잡한 절차 환경에서도 분리된 기여를 갖는지 보여준다.

ScienceWorld 패널은 ALFWorld보다 변동성이 크지만, 핵심 순서는 유지된다. 먼저 자기 안내를 넣은 모델이 기본 GRPO보다 높은 지점에서 움직이고, 이후 내부 보상이 켜지면 완전한 Self-Guide가 추가 우위를 형성한다. 과학 실험형 환경은 상태 판정이 더 어렵기 때문에 곡선이 매끄럽지 않지만, 오히려 이런 환경에서도 같은 패턴이 반복된다는 사실이 논문의 일반성 주장을 보강한다.

ScienceWorld에서 주목할 점은 자기 안내가 단순히 "다음 도구는 무엇인가"를 말하는 것이 아니라, 현재 실험 단계가 어느 절차에 속하는지를 요약할 수 있어야 한다는 것이다. 이런 절차형 과업에서는 잘못된 행동 하나보다도 단계 순서 착오가 더 치명적일 수 있다. Self-Guide는 절차가 어긋났다는 중간 감지를 제공함으로써, 환경이 즉시 처벌하지 않는 잘못된 순서를 더 일찍 드러낼 수 있다. 따라서 ScienceWorld 결과는 Self-Guide가 객체 중심 환경뿐 아니라 과정 중심 환경에서도 의미 있는 내부 표지를 제공할 수 있음을 보여준다.

WebShop 학습 곡선

Figure 6: WebShop에서는 초기 자기 안내 품질이 제한적이지만, 온라인 학습과 내부 보상 결합 이후 점진적 우위가 나타난다.

WebShop은 본문에서 가장 어려운 환경으로 묘사되는데, 이 패널도 그 점을 반영한다. 학습 전 prompting 실험에서는 이득이 작았지만, 온라인 RL 단계에서는 자기 안내가 점차 유효한 내부 표현으로 정착하면서 기본형 대비 차이를 만든다. 이는 Self-Guide가 복잡 환경에서 즉시 완성형으로 작동하는 것이 아니라, 정책과 함께 적응하면서 점차 더 쓸모 있는 신호가 된다는 공진화 가설과 맞아떨어진다.

WebShop 사례는 특히 검색 실패와 의사결정 실패의 분리라는 측면에서 중요하다. 웹 환경에서는 실패 원인이 현재 페이지 이해 부족일 수도 있고, 더 앞선 검색 단계에서 이미 잘못된 후보 집합을 형성했기 때문일 수도 있다. Self-Guide는 접두 궤적 전체를 보고 현재 상태를 판정하므로, 단순히 페이지 안의 로컬 정보만 보는 것이 아니라 지금의 실패가 이전 분기에서 누적된 것인지도 간접적으로 반영할 수 있다. 이런 특성은 다단계 웹 에이전트 학습에서 특히 가치가 크다.

6.2 단계적 스케줄 Ablation

저자들은 내부 보상 스케줄이 정말 필요한지 검증하기 위해 여러 변형을 비교한다. 결과는 Qwen3-1.7B의 WebShop 성공률 기준으로 보고되며, Vanilla GRPO는 32.0, Self-guidance Only는 49.2, Immediate Full Reward는 39.7이다. 즉 미성숙한 자기 안내를 처음부터 보상으로 강하게 쓰면 오히려 자기 안내만 사용하는 경우보다 나빠진다. 또한 진입 시점을 step 15나 25로 앞당기면 각각 49.4, 53.8로 개선은 되지만 최종 기본 스케줄 56.3에는 못 미친다.

Variant WebShop Success Rate
Vanilla GRPO 32.0
Self-guidance Only 49.2
Immediate Full Reward 39.7
Early Entry (step 15) 49.4
Early Entry (step 25) 53.8
No Annealing 53.2
GRPO w/ SG & GR 56.3

이 표는 논문의 주장을 가장 직접적으로 검증한다. Self-Guide의 효과는 내부 보상 자체보다도 언제 그것을 신뢰하느냐에 좌우된다. 후반 annealing을 제거한 No Annealing이 53.2로 최종 설정보다 낮다는 점도 중요하다. 이는 자기 안내가 후반까지 계속 최대 강도로 정책을 끌고 가면 원래 환경 목표에 대한 충실성이 떨어질 수 있음을 뜻한다. 결국 저자들이 제안한 trapezoid 형태는 임의의 선택이 아니라, 도입과 철수 모두 필요한 구조라는 해석이 가능하다.

이 결과는 reward shaping 이론과도 연결해 읽을 수 있다. 잠재 함수 기반 shaping이 아닌 일반적인 보상 추가는 최적 정책을 바꿀 위험이 있다. Self-Guide의 내부 보상도 잠재 함수 기반임을 보장하지 않기 때문에, 계속 강하게 유지하면 정책이 환경 목표보다 자기 안내 문장과 더 정렬될 수 있다. 후반 annealing이 필요한 이유가 바로 여기에 있다. 논문은 명시적으로 이론 보장을 제시하지는 않지만, 실험적으로는 후반 감쇠가 환경 목적과 내부 보상 사이의 균형을 회복하는 역할을 한다고 볼 수 있다.

단계적 보상 스케줄 ablation

Figure 7: 자기 안내 보상을 언제 도입하고 언제 줄여야 하는지를 비교한 ablation 결과.

그림의 왼쪽 학습 곡선은 조기 도입과 즉시 최대 보상이 얼마나 불안정한지 보여주고, 오른쪽 최종 성능 비교는 기본 스케줄이 가장 높은 성공률을 얻는다는 점을 요약한다. 내부 보상이 성능 향상을 만들더라도, 그 신뢰도가 충분히 올라가기 전에는 오히려 학습 타깃을 오염시킬 수 있다는 것이 핵심 메시지다. Self-Guide의 공진화 개념은 결국 스케줄 설계와 분리해서 볼 수 없다.

6.3 오류 패턴 분석

부록 B는 성능 수치 외에도 Self-Guide가 실제로 어떤 오류를 줄이는지 분석한다. ALFWorld와 ScienceWorld에서는 Looping, Redundant Exploration, Wrong-Object Focus 세 범주를 정의한다. WebShop에서는 Query Looping, Navigation Cycling, Premature Purchase를 사용한다. 이러한 분류는 단순 성공률 변화가 아니라, 자기 안내가 탐색 낭비와 목표 이탈을 줄이는 메커니즘을 간접적으로 보여주기 위한 것이다.

ALFWorld / ScienceWorld 오류 범주 판정 기준
Looping 같은 행동을 5회 이상 연속 반복하거나, 단일 행동이 전체 스텝의 50% 이상을 차지하는 경우
Redundant Exploration 불필요한 go to 재방문이 8회 이상이거나, 같은 객체를 5회 이상 반복 확인하는 경우
Wrong-Object Focus 목표와 무관한 객체를 4회 이상 살피거나, 비목표 객체를 7회 이상 집는 경우

이 기준은 Self-Guide가 어떤 종류의 낭비를 줄일 가능성이 있는지 잘 보여준다. 자기 안내 문장은 현재 진행 상황을 반복적으로 재평가하므로, 특히 루프무의미한 재탐색을 경감하는 방향으로 작동할 가능성이 높다. 논문 본문은 세부 수치를 길게 싣지 않지만, 이러한 범주 정의만으로도 Self-Guide가 단순 성능 향상보다 더 구체적인 오류 수정 메커니즘을 겨냥하고 있음을 알 수 있다.

WebShop 오류 범주 판정 기준
Query Looping 정확히 같거나 정규화했을 때 같은 검색어를 3회 이상 반복 입력하는 경우
Navigation Cycling 구매를 완료하지 못한 채 back to search를 3회 이상 누르는 경우
Premature Purchase 필수 속성을 선택하지 않은 상태에서 buy now를 누르는 경우

WebShop 오류 범주는 Self-Guide의 추상적 장점이 실제 전자상거래 탐색 문제에 어떻게 대응하는지 설명한다. 검색 질의 반복과 탐색 사이클링은 현재 궤적이 진전을 만들지 못하고 있다는 자기 판정이 있으면 상대적으로 쉽게 감지할 수 있다. 반면 성급한 구매는 목표 조건 충족 여부를 점검하는 자기 안내가 필요하다. 따라서 Self-Guide는 단순한 언어 유창성 향상이 아니라, 진행 상황 모니터링실패 전조 감지의 역할을 수행한다고 볼 수 있다.

이 오류 분류는 실전 응용에서도 의미가 있다. 많은 에이전트 시스템은 최종 성공률만 기록하지만, 실제 배포 단계에서는 같은 실패라도 원인이 다르면 대응 방식도 달라진다. Self-Guide처럼 중간 판정을 갖는 구조는 단순히 성능을 올리는 것 외에도, 실패가 반복 루프 때문인지, 목표 오해 때문인지, 조기 종료 때문인지를 더 쉽게 로깅할 수 있다. 논문이 정량적 오류 범주를 별도로 제시한 것은 Self-Guide가 디버깅 친화적 에이전트 학습으로도 이어질 수 있음을 암시한다.

더 나아가 오류 범주 분석은 Self-Guide의 약점도 역으로 보여준다. 만약 자기 안내가 주로 루프나 명백한 오프트랙 상황에서만 잘 작동한다면, 보다 미세한 전략 오류에는 약할 수 있다. 따라서 후속 연구에서는 자기 안내 문장이 실제로 어떤 오류를 얼마나 먼저 감지하는지 시간축 기준으로 분석할 필요가 있다. 예컨대 실패가 발생하기 몇 스텝 전에 부정 신호가 등장하는지, 혹은 잘못된 낙관 신호가 얼마나 자주 나오는지를 보면 Self-Guide의 품질을 더 정밀하게 측정할 수 있다. 논문은 이러한 분석의 출발점을 제공한다는 점에서 의미가 있다.

6.4 오프라인 증류와 온라인 공진화 비교

공진화의 필요성을 더 직접적으로 보이기 위해 저자들은 오프라인 자기 안내 증류를 대안으로 실험한다. 부록 D.1에 따르면 ALFWorld에서 학생 모델은 Qwen3-1.7B, 교사 모델은 Qwen3-32B다. 학생은 시점 $t$까지의 접두 궤적만 보고 현재 상태에 대한 평점을 생성한다. 교사는 전체 궤적을 hindsight로 보고 학생의 출력을 평가하며, $[-1,1]$ 범위의 스칼라 보상을 준다. 표면적으로 보면 강한 교사가 더 나은 자기 안내를 가르칠 수 있을 것처럼 보인다.

하지만 Figure 8과 본문 4.5절은 이 가정이 온라인 RL에서는 잘 성립하지 않음을 보여준다. 오프라인 증류된 학생은 자기 안내 품질 자체는 어느 정도 개선되지만, 그 신호를 실제 RL 롤아웃 분포에 투입했을 때는 안정적인 이득을 주지 못한다. 논문은 이를 distribution mismatch로 설명한다. 고정된 오프라인 궤적에서 학습한 자기 안내는 훈련 중 계속 변하는 온라인 정책의 방문 분포에 잘 맞지 않으며, 따라서 행동 안내나 내부 보상으로 안정적으로 전이되지 않는다.

오프라인 자기 안내 증류와 온라인 공진화 비교

Figure 8: 더 강한 교사 모델로 오프라인 증류한 자기 안내와, 정책과 함께 온라인으로 공진화한 자기 안내의 차이.

이 그림은 오프라인 증류된 학생이 자체 평정 과업에서는 좋아질 수 있어도, 그 결과가 실제 RL 성능 향상으로 직결되지는 않는다는 점을 보여준다. 반대로 온라인 공진화는 정책이 방문하는 상태 분포와 자기 안내 신호가 함께 변하기 때문에, 행동 안내와 내부 보상 모두에서 더 일관된 이득을 낸다. 논문은 이를 통해 Self-Guide의 핵심 가치가 단순히 좋은 자기 평가 문장을 만드는 데 있지 않고, 그 문장이 현재 정책과 같은 분포 위에서 함께 적응한다는 데 있다고 결론짓는다.

6.5 자기 안내 모델 자체의 개선

부록 D.2는 공진화가 정책만이 아니라 자기 안내 모델 자체도 개선하는지 확인한다. 이를 위해 WebShop에서 정책을 checkpoint 40으로 고정하고, 자기 안내 모델만 checkpoint 10, 40, 80으로 바꿔 성능을 비교한다. 결과는 자기 안내 모델이 늦은 체크포인트일수록 더 높은 점수와 성공률을 제공함을 보여준다. 즉 정책이 고정된 상황에서도 더 성숙한 Self-Guide가 더 나은 행동을 유도한다는 뜻이다.

Self-Guidance Model Score Success Rate (%)
checkpoint 10 39.8 18.0
checkpoint 40 51.2 25.0
checkpoint 80 60.5 27.0

이 결과는 공진화 논리의 마지막 고리를 채운다. 만약 Self-Guide의 개선이 순전히 정책 쪽 변화 때문이라면, 정책을 고정한 상태에서 자기 안내 체크포인트를 바꿔도 큰 차이가 없어야 한다. 그러나 실제로는 checkpoint 10에서 80으로 갈수록 점수와 성공률이 모두 오른다. 따라서 공진화는 단지 더 좋은 정책이 더 좋은 결과를 내는 과정이 아니라, 자기 안내 생성기 자체가 현재 정책 분포에 맞추어 점점 더 유용한 중간 표현을 학습하는 과정이라고 볼 수 있다.

이 분석은 Self-Guide를 단순한 auxiliary head나 프롬프트 템플릿으로 축소해서 보면 안 된다는 점도 말해 준다. 공진화가 실제로 일어난다면, 자기 안내는 학습 초반의 서술 스타일과 후반의 서술 스타일이 달라져야 한다. 초반에는 거칠고 모호한 판정이 많고, 후반에는 목표와 실패 요인을 더 직접적으로 짚는 표현이 많아질 가능성이 높다. 논문은 문장 내용 자체의 정성 분석을 길게 제공하지는 않지만, 체크포인트 비교 결과만으로도 자기 안내가 정적 구성 요소가 아니라 학습되는 내부 모듈이라는 해석이 가능하다.

7. 한계점 및 향후 연구 방향: 자기 생성 내부 보상의 장점과 위험을 함께 봐야 한다

논문은 Self-Guide가 외부 보상 모델 없이도 상당한 개선을 보인다고 보고하지만, 몇 가지 구조적 한계도 함께 읽을 필요가 있다. 첫째, 자기 안내 품질은 환경 구조와 모델 친숙도에 크게 의존한다. prompting 실험에서 ALFWorld는 즉각적 이득이 큰 반면 WebShop은 작거나 불안정한데, 이는 자기 안내가 언제나 정교한 상태 평가를 제공하는 것은 아니라는 뜻이다. 따라서 완전히 새로운 환경이나 매우 비정형적인 툴 사용 시나리오에서는 초기 품질이 충분히 낮아질 수 있다.

둘째, 내부 보상은 본질적으로 자기 참조적이다. 정책이 만든 판정을 정책 자신이 보상으로 다시 받기 때문에, 잘못된 자기 확신이 증폭될 위험이 있다. 논문은 이를 단계적 스케줄로 완화하지만, 이 스케줄 자체가 환경과 모델에 따라 튜닝될 가능성은 남아 있다. 본문이 제안한 trapezoid 스케줄이 세 벤치마크에서는 잘 작동했지만, 더 긴 호라이즌이나 부분 관측 환경에서도 같은 형태가 최선인지까지는 보여주지 않는다.

셋째, Self-Guide는 매 단계에서 자기 안내와 행동을 모두 생성하므로 추론 비용이 증가한다. 논문은 외부 보상 모델보다 단순하다고 주장하지만, 실제 배치 추론 시스템에서는 추가 토큰 생성이 무시할 수 없는 비용일 수 있다. 특히 장기 궤적과 큰 컨텍스트를 사용하는 웹 에이전트에서는 자기 안내 길이, 빈도, 압축 방식이 실용성의 핵심 변수가 될 수 있다. 향후 연구는 매 스텝이 아니라 선택적 시점에만 자기 안내를 생성하거나, 더 압축된 구조화 신호로 치환하는 방향을 검토할 수 있다.

넷째, 현재 매핑 함수 $g(\cdot)$는 positive, neutral, negative의 3값 체계로 단순화되어 있다. 이 단순성은 장점이지만, 동시에 중간 상태의 세밀한 차이를 충분히 반영하지 못할 수도 있다. 예를 들어 "목표에 매우 근접"한 상태와 "약간 나아진" 상태가 같은 양의 보상을 받을 수 있다. 향후에는 자기 안내 문장의 구조를 더 정교하게 설계하거나, 불확실성 추정과 결합해 신뢰도 가중 내부 보상으로 확장할 여지가 있다.

다섯째, 오프라인 증류가 실패했다는 결과는 온라인 공진화의 필요성을 보여주지만, 동시에 데이터 효율성 측면의 과제를 드러낸다. 온라인 공진화는 강력하지만 많은 상호작용이 필요할 수 있다. 따라서 향후 연구는 완전한 오프라인 대체가 아니라, 오프라인 초기화 + 온라인 보정 같은 절충형 구조를 탐색할 가능성이 있다. 또한 Self-Guide가 멀티모달 에이전트, 실제 브라우저 환경, 코드 실행 환경에서도 같은 방식으로 작동하는지 확인하는 것도 중요한 후속 과제다.

여기에 더해 자기 안내의 형식 제약 문제도 있다. 현재 논문은 짧은 자연어 판정을 사용하지만, 어떤 길이와 어떤 문장 템플릿이 가장 좋은지는 본문에서 깊게 다루지 않는다. 너무 짧으면 정보가 부족하고, 너무 길면 문맥 비용이 증가하며 오히려 행동을 방해할 수 있다. 또한 동일한 의미를 갖더라도 표현이 흔들리면 극성 매핑의 안정성이 낮아질 수 있다. 따라서 향후 연구는 자유 서술형 자기 안내와 구조화된 슬롯 기반 자기 안내를 비교하거나, 자기 안내 자체에 대한 정규화 전략을 설계할 필요가 있다.

또한 논문은 윤리 섹션에서 비공개 데이터나 개인정보를 사용하지 않았다고 밝히지만, 실제 응용에서는 자기 안내 문장이 사용자 의도나 위험한 행동을 합리화하는 방향으로 진화하지 않도록 감시해야 한다. 내부 보상은 외부 감시가 약하다는 장점이자 위험을 동시에 가진다. 에이전트가 스스로 만든 중간 판단을 근거로 계속 자신을 강화할 수 있기 때문이다. 따라서 실제 배포형 시스템에서는 Self-Guide를 그대로 사용하기보다, 안전 제약, 행동 필터, 외부 검증기와의 혼합 구조가 필요할 가능성이 높다.

이와 연결해 평가 편향의 문제도 남는다. Self-Guide가 줄이는 오류 범주는 루프, 중복 탐색, 조기 구매처럼 비교적 눈에 잘 띄는 실패 유형이다. 그러나 더 미묘한 실패, 예를 들어 목표 해석은 맞지만 세부 조건을 잘못 만족시키는 경우나, 성공은 했지만 매우 비효율적인 궤적을 만드는 경우까지 얼마나 잘 다루는지는 본문만으로는 충분히 판단하기 어렵다. 향후 연구는 시간 비용, 토큰 비용, 경로 길이 같은 추가 효율 지표와 함께 Self-Guide를 평가할 필요가 있다. 그래야 자기 안내가 단순 성공률 향상뿐 아니라 실제 운영 효율성에도 기여하는지 더 명확히 판단할 수 있다.

마지막으로 일반화 평가의 범위도 확장될 필요가 있다. 본문은 세 가지 대표 벤치마크에서 결과를 제시하지만, 이들은 모두 텍스트 기반 환경이라는 공통점이 있다. 멀티모달 웹 조작, 로봇 제어, 코드 실행, 데이터베이스 질의처럼 관측과 행동 양식이 더 다양해질 경우 자기 안내의 형식과 효과도 달라질 수 있다. 특히 시각 정보가 포함되면 "현재 방향이 맞는가"라는 자기 판정이 텍스트보다 더 복합적인 근거를 필요로 할 수 있다. 따라서 Self-Guide의 핵심 원리가 유지되더라도, 표현 형식과 보상 매핑 방식은 도메인별로 다시 설계해야 할 가능성이 크다.

8. 내 해석: 내부 보상을 언제 믿을지보다 무엇과 비교했는지가 더 중요하다

나는 이 논문의 약점을 비교 기준의 부족에서 본다. 저자들은 Self-Guide가 외부 reward model 없이도 충분한 이득을 준다고 설득하지만, 정작 본문에서는 "외부 과정 보상 모델을 둔 강한 기준선"이나 "불확실성 보정이 들어간 자기 평가기"와의 정면 비교가 없다. 그래서 현재 결과만으로는 성능 향상의 원인이 정말 자기 생성 내부 보상 자체인지, 아니면 단순히 행동 직전에 한 줄짜리 상태 요약을 더 넣어 준 효과인지 완전히 분리하기 어렵다. 특히 내가 앞서 정리해 둔 Reflective Context Learning은 플레이북과 메모리처럼 외부 컨텍스트를 최적화해 에이전트 행동을 바꾸는데, Self-Guide는 그 반대로 피드백을 궤적 내부 문장으로 집어넣는다. 두 계열이 같은 환경에서 어떻게 갈리고 어디서 상호보완적인지까지 보여줬다면, 이 논문의 주장은 훨씬 더 단단해졌을 것 같다.

내가 이 아이디어를 후속 연구로 확장한다면, 가장 먼저 자기 안내 문장 자체보다 자기 안내를 켜는 조건을 학습시키는 쪽으로 갈 것이다. 예를 들어 RCL류의 컨텍스트 최적화와 결합해 환경별 가이드 템플릿, 보상 활성화 시점, confidence threshold를 함께 조정하고, 모델이 자기 안내와 함께 짧은 신뢰도 점수까지 출력하게 만든 뒤 일정 신뢰도 이상일 때만 내부 보상으로 승격시키는 식이다. 그러면 Self-Guide의 강점인 낮은 시스템 복잡도는 유지하면서도, 자기 확신이 과도한 잘못된 문장이 학습을 오염시키는 문제를 줄일 수 있다. 이후에는 텍스트 환경을 넘어 브라우저 에이전트나 코드 실행 에이전트처럼 관측 분포가 훨씬 거친 환경에서, 자기 안내가 실제로 오류를 먼저 감지하는지까지 확인해 보고 싶다.

9. 결론: Self-Guide는 외부 평가기 없는 내부 과정 신호의 한 가지 유력한 구현이다

논문의 결론은 명확하다. Self-Guide는 언어 에이전트가 매 단계 자신의 진행 상황을 짧은 자연어로 평가하도록 만들고, 그 신호를 다음 행동의 조건과 내부 보상으로 동시에 활용함으로써, 희소 보상 문제를 완화한다. 이 구조는 별도의 reward model 없이도 작동하며, 추론 단계에서 즉시 도움이 되는 자기 안내와 학습 단계에서 밀집 신호를 주는 내부 보상을 하나의 표현으로 통합한다. 또한 단계적 신뢰 스케줄을 통해 미성숙한 자기 판단이 학습을 망가뜨릴 수 있는 위험을 줄인다.

실험적으로는 세 벤치마크와 세 백본 모델에서 일관된 패턴이 보고된다. GRPO w/ SG는 기본 GRPO보다 빠르게 좋아지고, GRPO w/ SG & GR는 내부 보상 활성화 이후 추가 우위를 형성한다. prompting 실험은 자기 안내의 즉시적 추론 이득을, ablation은 단계적 스케줄의 필요성을, 오프라인 증류 비교는 온라인 공진화의 중요성을 각각 보여준다. 따라서 이 논문은 장기 상호작용 에이전트에서 "중간 언어 신호를 어떻게 만들고 어떻게 믿을 것인가"라는 질문에 비교적 단순하면서도 설득력 있는 답을 제시한 작업으로 정리할 수 있다.

보다 넓게 보면 Self-Guide의 의미는 내부 보상이 반드시 외부 모델에서 와야 하는 것은 아니라는 점을 보여준 데 있다. 에이전트가 자기 행동의 방향성을 스스로 언어화하고, 그 언어화를 다시 학습 신호로 재사용하는 구조는 향후 self-improving agents, process supervision, test-time steering 연구와도 자연스럽게 연결된다. 논문은 아직 초기 단계의 증거를 제시한 것이지만, 정책과 내부 평가를 분리하지 않는 설계가 실제 상호작용 환경에서 의미 있는 성능 차이를 만들 수 있다는 점을 분명히 보여준다.

정리하면 이 논문이 제시하는 메시지는 단순하다. 좋은 행동 정책은 좋은 내부 평가를 만들고, 좋은 내부 평가는 다시 좋은 행동 정책을 만든다는 순환을 제대로 설계하면, 외부 보상 모델 없이도 희소 보상 환경의 병목을 상당 부분 완화할 수 있다. Self-Guide는 그 순환을 자연어 자기 안내라는 비교적 단순한 매개로 구현했다. 방법은 단순하지만 실험 설계와 ablation이 촘촘해, 제안의 핵심이 어디에서 오는지 비교적 선명하게 확인할 수 있다. 장기적으로는 보다 정교한 내부 신호 설계와 결합되며, 언어 에이전트 학습의 중요한 축으로 발전할 가능성이 있다.

특히 이 논문은 최근 강화학습 기반 LLM 연구가 자주 마주치는 한 가지 난제를 정면으로 다룬다. 더 긴 롤아웃, 더 복잡한 환경, 더 희소한 성공 신호가 주어질수록 단순한 outcome reward만으로는 학습이 잘 되지 않는다. Self-Guide는 그 난제를 완전히 해결했다고 보기 어렵지만, 적어도 외부 대형 평가기를 추가하지 않고도 상당한 수준의 과정 신호 복원이 가능하다는 사례를 제공한다. 이는 향후 에이전트 RL이 더욱 복잡한 실제 환경으로 이동할 때 매우 중요한 발판이 된다. 보상 모델을 계속 키우는 방향과, 정책이 스스로 중간 판단을 생성하도록 만드는 방향 중 후자에도 충분한 연구 가치가 있음을 분명히 보여주기 때문이다.

결국 Self-Guide의 공헌은 성능 수치 자체 못지않게 설계 관점의 전환에 있다. 외부에서 더 정교한 보상을 가져오는 대신, 정책 내부에서 이미 생성 가능한 언어 신호를 정교하게 활용하면 상당한 학습 이득을 얻을 수 있다는 것이다. 이는 에이전트 연구가 앞으로 더 많은 상호작용 데이터를 다루게 될수록 중요한 메시지가 된다. 외부 감독 비용은 항상 병목이지만, 내부에서 생성되는 언어적 상태 요약은 거의 모든 LLM 에이전트가 이미 갖고 있는 자원에 가깝기 때문이다. Self-Guide는 그 자원을 실제 최적화 루프 안으로 들여온 작업이라고 정리할 수 있다.

또 한 가지 결론은 Self-Guide가 단순히 텍스트 생성기의 자기 성찰 기능이 아니라, 분포 적응형 내부 보상의 한 형태라는 점이다. 오프라인 증류가 온라인 분포에서 흔들린다는 결과는, 좋은 내부 보상은 절대적으로 좋은 평가기라기보다 현재 정책이 방문하는 상태와 잘 맞는 평가기여야 함을 시사한다. 이 관점은 향후 reward modeling 연구에도 시사점이 있다. 고정된 보상 모델의 품질을 높이는 것만큼, 정책과 함께 적응하는 보상 구조를 설계하는 일도 중요하다는 것이다. Self-Guide는 그 방향의 가장 간결한 실험적 증거 중 하나라고 할 수 있다.

실제 연구 활용 관점에서도 본 논문은 두 가지 메시지를 남긴다. 하나는 중간 언어 표현을 낭비하지 말라는 것이고, 다른 하나는 그 표현을 언제부터 보상으로 믿을지 스케줄링하라는 것이다. 많은 에이전트 시스템이 중간 reasoning 텍스트를 로그로만 남기는데, Self-Guide는 그 텍스트가 정책 개선의 직접 자원이 될 수 있음을 보여준다. 동시에 모든 중간 텍스트가 곧바로 신뢰 가능한 것은 아니므로, 성숙도에 따른 점진적 활용이 필요하다는 교훈도 준다. 이 두 원칙은 Self-Guide를 넘어 향후 다양한 self-feedback 기반 에이전트 학습에 적용될 수 있다.

요컨대 이 논문은 거대한 새 아키텍처를 제시하지 않지만, 언어 에이전트가 자기 자신에게 어떤 형태의 중간 신호를 제공할 수 있는가라는 질문을 매우 직접적인 방식으로 밀어붙인다. 그리고 그 답이 단순한 자연어 자기 안내일지라도, 적절한 최적화 루프와 스케줄을 결합하면 실제 벤치마크 성능 차이로 이어질 수 있음을 보인다. 이런 종류의 결과는 향후 에이전트 연구에서 모델 크기 경쟁과는 다른 축, 곧 내부 피드백 구조 설계의 중요성을 다시 부각시킨다. 그런 의미에서 Self-Guide는 작은 아이디어처럼 보이지만, 장기 상호작용 학습의 설계 원리를 다시 생각하게 만드는 논문이다.

동시에 논문은 언어적 내부 상태를 단지 해석 가능한 부산물로 취급하지 말아야 한다는 점도 환기한다. 지금까지 많은 연구가 reasoning trace를 더 잘 생성하는 데 집중했지만, Self-Guide는 그 trace 일부를 정책 제어와 학습 보상으로 환류시킨다. 이는 "생성된 언어가 다시 행동을 바꾸고, 그 행동이 다시 생성 언어를 바꾼다"는 닫힌 루프를 만든다. 향후 이러한 루프를 더 안정적으로 설계할 수 있다면, 언어 모델 에이전트는 외부 감독이 부족한 환경에서도 더 자율적으로 성능을 끌어올릴 수 있을 것이다.

같은 맥락에서 Self-Guide는 향후 메타-학습형 에이전트 연구와도 연결될 수 있다. 에이전트가 단순히 환경 과업만 해결하는 것이 아니라, 자신의 중간 판단 형식을 점점 더 유용한 형태로 바꿔 간다면 이는 일종의 내부 인터페이스 학습이 된다. 본 논문은 그 가능성을 초기 형태로 보여준다. 자기 안내 문장의 품질 향상이 정책 향상과 함께 움직인다는 결과는, 미래의 에이전트가 외부 감독 신호뿐 아니라 자기 생성 신호의 형식 자체를 최적화할 수 있음을 시사한다. 이런 관점에서 보면 Self-Guide는 단순한 reward trick이 아니라, 에이전트 내부 언어를 학습 대상으로 삼는 연구 흐름의 출발점으로도 읽을 수 있다.

더 넓게는 Self-Guide가 자기 설명 가능한 정책 학습의 초기 사례라는 해석도 가능하다. 일반적인 정책은 왜 그런 행동을 택했는지 외부에서 별도 분석을 해야 하지만, Self-Guide는 정책이 스스로 현재 판단 근거를 요약한 뒤 그 요약을 다시 행동과 보상에 연결한다. 이 구조는 향후 인간-에이전트 협업에서 중요한 자산이 될 수 있다. 사람이 에이전트의 자기 안내를 읽고 개입 지점을 판단하거나, 잘못된 자기 안내 패턴을 직접 수정하는 방식의 상호작용이 가능해지기 때문이다. 즉 Self-Guide는 성능 향상뿐 아니라, 에이전트 내부 상태를 읽고 교정할 수 있는 인터페이스를 제공한다는 점에서도 확장 가능성이 크다.

10. 요약 정리

  • 문제 정의: 장기 상호작용 환경에서는 종단 보상만으로 중간 행동의 질을 구분하기 어렵고, 추론 시점에도 다음 행동을 고를 명시적 진행 신호가 부족하다.
  • 핵심 아이디어: 에이전트가 매 단계 self-guidance 문장을 먼저 생성하고, 그 문장을 다음 행동의 조건과 단계별 internal reward로 동시에 사용한다.
  • 수식 구조: 궤적은 $(o_t, z_t, a_t)$의 열로 표현되며, 내부 보상은 $r_t^{\mathrm{sg}}=g(z_t)$, 전체 반환은 $R(\tau;u)=R_{\mathrm{env}}(\tau)+\lambda(u)\sum_t r_t^{\mathrm{sg}}$로 정의된다.
  • 안정화 장치: 초기에는 자기 안내를 추론 신호로만 사용하고, 이후 점진적으로 내부 보상으로 켠 뒤, 후반에는 다시 영향력을 줄이는 stage-wise trust schedule을 쓴다.
  • 주요 결과: 세 모델 모두에서 GRPO w/ SG가 기본 GRPO를 이기고, GRPO w/ SG & GR가 추가 향상을 보였다.
  • 환경 차이: ALFWorld처럼 구조화된 환경에서는 학습 전 self-guidance만으로도 큰 이득이 나타나지만, WebShop처럼 복잡한 환경에서는 온라인 공진화가 더 중요하다.
  • ablation 결론: 내부 보상을 너무 일찍 켜거나 끝까지 최대 강도로 유지하면 성능이 떨어진다. 따라서 도입 시점과 후반 annealing이 모두 중요하다.
  • 오프라인 증류 비교: 강한 교사 모델로 자기 안내를 오프라인 증류해도 온라인 RL에 안정적으로 전이되지 않았고, 이는 분포 불일치 문제를 시사한다.
  • 해석 포인트: Self-Guide의 강점은 단순히 좋은 자기 평가 문장을 만드는 것이 아니라, 현재 정책의 방문 분포와 함께 자기 안내가 계속 적응한다는 데 있다.
  • 실무적 시사점: 외부 reward model을 따로 구축하기 어려운 에이전트 RL 환경에서, 자기 생성형 내부 보상은 구현 단순성과 성능 향상을 동시에 노릴 수 있는 대안이 될 수 있다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.