[논문 리뷰]/[최신 논문] / [arXiv 2604.02268] SKILL0: 스킬 검색을 넘어서 파라미터 내부화로 가는 에이전트 RL.md

[arXiv 2604.02268] SKILL0: 스킬 검색을 넘어서 파라미터 내부화로 가는 에이전트 RL

조회

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

ABS | HTML | PDF | GitHub

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen | Zhejiang University, Meituan, Tsinghua University | arXiv:2604.02268v1 | 2026년 4월 2일 공개


SKILL0는 에이전트가 추론 시점에 외부 SkillBank에서 스킬을 검색해 프롬프트에 삽입하는 기존 패러다임을 정면으로 재검토한다. 논문은 이런 inference-time skill augmentation이 실제로는 세 가지 구조적 한계를 가진다고 본다. 첫째는 retrieval noise다. 관련 없는 스킬이 들어오면 문맥이 오염된다. 둘째는 token overhead다. 에이전트 환경은 여러 턴의 상호작용을 누적하므로 스킬 텍스트와 히스토리 텍스트가 함께 커지기 쉽다. 셋째는 더 근본적인 문제로, 모델이 스킬을 “사용”할 수는 있어도 그것을 파라미터 내부의 능력으로 습득한 것은 아니라는 점이다.

이 리뷰는 논문과 arXiv HTML, 그리고 공개된 TeX 소스의 표·캡션·구현 설명을 바탕으로 SKILL0의 문제 설정, 방법론, 실험 결과, 추가 분석, 한계를 정리한다. 문장 해석은 가능하면 원문 서술에 직접 귀속했고, 수치와 설계 포인트 역시 논문이 제시한 범위 안에서만 요약했다. 특히 이 논문은 “스킬을 더 잘 검색하는 법”보다 “스킬을 더 이상 검색하지 않아도 되게 만드는 법”을 RL 학습 목표로 세웠다는 점에서 읽을 가치가 있다.

1. 서론: 스킬 증강에서 스킬 내부화로 문제를 다시 정의하다

최근 LLM 에이전트는 코드 작성, 도구 사용, 검색 기반 질의응답, 텍스트 기반 embodied task 같은 환경에서 다단계 의사결정을 수행하기 시작했다. 이런 환경에서 과거 궤적을 그대로 메모리에 저장하는 방식은 길고 중복적이며 노이즈가 많기 때문에, 많은 연구가 경험을 요약한 skills를 외부 저장소에 두고 필요할 때 불러오는 방식으로 이동했다. 논문은 이 흐름 자체는 실용적이라고 인정하지만, 여전히 모델의 역량이 외부 스킬 문맥에 묶여 있다는 점을 핵심 문제로 본다.

논문이 제시하는 질문은 단순하다. 스킬을 프롬프트에 계속 넣는 대신, 스킬을 모델 파라미터 안으로 내부화할 수 있는가? 사람의 숙련 과정에 비유하면, 처음에는 지시문을 보고 수행하지만 반복 학습 후에는 지시문 없이도 같은 절차를 재현할 수 있게 된다. 논문은 이 전환을 에이전트 RL에서 명시적인 학습 목표로 다루며, 이를 위해 In-Context Reinforcement Learning(ICRL)Dynamic Curriculum을 결합한 SKILL0를 제안한다.

초기 단계에서는 스킬이 주어진 상태에서 에이전트가 환경과 상호작용하며 학습하고, 훈련이 진행될수록 스킬 의존도를 줄인다. 중요한 점은 이 감소가 고정 스케줄이 아니라 현재 정책에 실제로 도움이 되는 스킬만 남기는 helpfulness 기반 선택으로 이루어진다는 것이다. 논문은 결국 추론 시에는 스킬을 전혀 주지 않는 zero-shot rollout 상태로 이동시킨다.

Skill augmentation versus skill internalization

Figure 1: 기존 skill augmentation과 SKILL0의 skill internalization 비교.

Figure 1은 논문의 문제의식을 가장 직접적으로 보여준다. 왼쪽은 외부 SkillBank에서 스킬을 검색해 매 추론 단계마다 주입하는 방식이고, 오른쪽은 훈련 중에는 스킬을 활용하되 추론 시점에는 제거하는 internalization 방식이다. 논문은 전자가 스킬 활용을 높이지만 추론 비용과 검색 의존성을 남긴다고 보고하며, 후자는 학습 중 문맥 의존 행동을 정책 파라미터로 옮기는 것을 목표로 한다고 설명한다.

1.1 논문의 핵심 주장

논문이 제시하는 주장 구조는 비교적 명확하다. 첫째, 스킬은 에이전트 성능 향상에 유용하지만 추론 시점 삽입 방식은 영구적 해법이 아니다. 둘째, RL은 체계적인 행동 패턴을 모델 내부로 옮기는 데 적합한 학습 프레임워크다. 셋째, 아무 스킬 없이 RL을 바로 돌리면 복잡한 다단계 행동을 배우기 어렵고, 반대로 끝까지 스킬을 제공하면 모델은 내부화를 요구받지 않는다. 넷째, 따라서 “처음에는 스킬과 함께 배우고, 끝에는 스킬 없이도 수행하도록 만드는 커리큘럼”이 필요하다.

이 문제 설정은 단순히 성능 수치를 올리는 트릭이 아니라, 에이전트 학습의 목표를 외부 지식 사용 능력에서 내재화된 정책 형성으로 이동시키는 시도라고 볼 수 있다. 논문은 이 점을 강조하며, 실제 결과에서도 스킬을 제거한 추론에서 성능을 측정하는 프로토콜을 중심에 둔다.

1.2 도입부 기준 주요 기여

논문 도입부와 초록 기준으로 정리하면, 저자들은 다음 네 가지를 기여로 내세운다. 첫째, skill internalization을 명시적 RL 목표로 정식화했다. 둘째, 훈련 중에는 스킬을 문맥에 주되 추론에서는 제거하는 ICRL을 제안했다. 셋째, 정책에 도움이 되는 스킬만 유지하는 Dynamic Curriculum을 설계했다. 넷째, ALFWorld와 Search-QA에서 표준 RL baseline보다 각각 +9.7, +6.6의 향상을 보고하면서도 단계당 문맥 비용을 0.5k token 미만으로 유지한다고 보고한다.

아래 표는 논문이 비판하는 기존 방식과 SKILL0가 제안하는 전환을 한 번에 정리한 것이다.

구분 기존 스킬 증강 SKILL0의 내부화 관점
학습 목표 스킬을 잘 검색하고 잘 따르기 스킬 없이도 같은 행동을 수행하기
추론 시점 스킬 필수 불필요
주요 문제 검색 노이즈, 긴 문맥, 외부 의존성 초기 SkillBank 품질, 커리큘럼 설계 민감도
정책의 능력 위치 주로 컨텍스트 내부 가능한 한 파라미터 내부

이 표의 핵심은 SKILL0가 기존 방식을 대체한다기보다, 학습의 종착점을 바꾸려는 방법이라는 점이다. 논문은 retrieval 품질 개선이나 skill evolution보다도, 최종적으로 skill-free inference에서 성능을 유지하는 것이 더 직접적인 성공 기준이라고 본다.

2. 배경 및 관련 연구: 에이전트 메모리, 스킬, 그리고 RL의 접점

2.1 LLM 에이전트와 장기 상호작용 문제

논문은 코드 생성, GUI 조작, 게임, embodied control 등 다양한 환경을 예로 들며, LLM 에이전트가 길고 구조화된 상호작용 기록을 처리해야 한다고 설명한다. 이때 원시 trajectory를 그대로 보관하고 다시 꺼내 쓰는 방식은 길이, 중복, 노이즈 문제를 낳는다. 그래서 최근 연구는 과거 경험을 더 추상화된 단위로 정리한 skills를 사용하는 방향으로 이동했다.

이 배경은 중요하다. 왜냐하면 SKILL0는 스킬 자체를 부정하지 않기 때문이다. 오히려 스킬이 이미 유용한 구조화된 지식 형태라는 점은 인정하면서, 그 유용성을 추론 시점 삽입이 아니라 훈련 시점 내부화로 전환하자고 제안한다.

2.2 Agentic Skills의 역할과 한계

논문은 스킬을 재사용 가능, 추상화된, 구조화된 행동 지식으로 본다. 예를 들어 ALFWorld에서는 탐색 전략, 목표 추적, 오브젝트 조작 순서 같은 절차적 패턴이 스킬이 될 수 있고, Search-QA에서는 질의 분해, 개별 검색, 근거 교차 검증 같은 절차가 스킬이 된다. 이런 스킬은 에이전트가 매번 맨땅에서 계획하지 않고 더 안정적으로 행동하게 만드는 장치다.

그러나 기존 연구의 중심은 주로 스킬 추출, 스킬 조직화, 스킬 검색에 있었다. 논문은 바로 이 지점에서 빈칸을 찾는다. 스킬이 유용하다는 사실과, 모델이 스킬을 자기 능력으로 흡수할 수 있는지는 별개라는 것이다. 따라서 관련 연구의 연장선이면서도 관점은 확실히 다르다.

Overview of Skill0

Figure 2: SKILL0 전체 개요. Relevance-Driven Skill Grouping, skill-enhanced agent loop, Dynamic Curriculum을 함께 보여준다.

Figure 2는 SKILL0를 세 부분으로 나눠 보여준다. 먼저 오프라인 단계에서 스킬 파일과 검증용 sub-task를 대응시키는 grouping을 수행하고, 훈련 단계에서는 스킬이 포함된 컨텍스트로 에이전트 RL을 돌리며, 주기적으로 도움이 되는 스킬만 남기는 Dynamic Curriculum을 적용한다. 논문은 이 세 부분이 결합되어야 스킬을 제공하면서도 점차 제거하는 내부화 경로가 생긴다고 설명한다.

2.3 Skill augmentation과 internalization의 차이

둘의 차이는 “스킬을 언제 사용하느냐”보다 “스킬이 어디에 남느냐”에 가깝다. augmentation에서는 스킬이 계속 프롬프트에 남고, 모델은 그것을 참조하며 행동한다. internalization에서는 스킬이 학습 중 일시적 scaffolding 역할을 하고, 최종적으로는 제거된다. 논문은 이 차이를 명확히 하기 위해 훈련과 평가 모두에서 w/ skillw/o skill를 비교하고, 후자가 따라잡거나 넘어서는지로 내부화를 판단한다.

이 관점은 에이전트 성능 평가에도 영향을 준다. 단순한 절대 성능보다, 추론 시 스킬 제거 후에도 유지되는 성능이 중요해진다. 논문이 여러 표와 그림에서 계속 skill-free inference 결과를 강조하는 이유가 여기에 있다.

관련 연구 지형을 정리하면 다음과 같다.

연구 축 논문이 위치시키는 기존 흐름 SKILL0의 차별점
메모리 기반 에이전트 원시 trajectory 저장 및 재활용 trajectory 대신 구조화된 skill 사용 후 내부화
스킬 검색 시스템 semantic retrieval, bank organization, evolution 검색이 아니라 helpfulness 기반 단계적 제거
에이전트 RL 스킬 없이 RL 또는 스킬을 계속 유지한 RL 스킬 제공과 제거를 동시에 포함한 curriculum RL

정리하면, SKILL0는 완전히 새로운 기초 모델을 만드는 논문이 아니라 agentic RL training recipe를 다시 설계한 논문이다. 하지만 그 재설계의 축이 매우 분명해서, 관련 연구 속 위치를 이해하기는 오히려 쉬운 편이다.

3. 방법론: SKILL0는 어떻게 스킬을 내부화하는가

3.1 Agent Loop와 문제 정식화

논문은 에이전트 자동화를 순차 의사결정 문제로 둔다. 태스크 지시 $I$가 주어지면 에이전트는 행동 시퀀스 $\{a_1, a_2, \ldots, a_T\}$를 생성하고, 각 단계에서 환경 $\mathcal{E}$가 텍스트 관측 $o_t$를 반환한다. 이때 시점 $t$의 히스토리는 $h_t=\{o_1,o_2,\ldots,o_t\}$로 정의된다. 정책은 현재 관측과 히스토리 조건부로 다음 행동을 선택한다.

여기서 중요한 점은 SKILL0가 단순한 단일-step 정답 예측이 아니라, 환경 상호작용과 중간 실패를 포함한 rollout을 전제로 한다는 점이다. 스킬은 이런 rollout을 더 구조화된 방향으로 밀어주는 초깃값 역할을 한다.

3.2 SkillBank 구성과 skill file 단위 관리

논문은 재사용 가능한 행동 지식을 계층적 SkillBank로 조직한다. 하나는 태스크 전반에 적용되는 general skills이고, 다른 하나는 특정 카테고리 전용의 task-specific skills다. 구현에서는 skills/{task_name}/{skill_category}.md 형태로 스킬 파일을 저장한다. 즉, 개별 스킬 문장 단위가 아니라 관련 스킬을 묶은 markdown 파일 단위로 관리한다.

이 선택은 Dynamic Curriculum과 직접 연결된다. helpfulness는 개별 문장보다 skill file $\mathcal{S}_k$에 대해 계산되며, 커리큘럼도 이 파일 단위를 남기거나 제거하는 방식으로 돌아간다. 논문은 현재 단계에서 정책에 가장 도움이 되는 파일 집합 $\mathcal{S}$를 활성화한다고 설명한다.

3.3 Context Rendering: 텍스트 문맥을 이미지로 압축

SKILL0는 AgentOCR 계열 설정을 이어받아, 텍스트 히스토리와 스킬을 그대로 긴 텍스트 토큰으로 넘기지 않고 compact RGB image로 렌더링한다. 논문은 이 렌더링 컨텍스트를 비전 인코더로 압축해 시각 표현 $\mathcal{V}_t$를 만든다고 쓴다. 즉, 히스토리와 스킬은 텍스트로 저장되지만 모델 입력에서는 visual context로 바뀐다.

이때 압축 비율 $c_t$는 고정 하이퍼파라미터가 아니라 정책이 행동과 함께 선택하는 변수다. 논문은 다음과 같이 $(a_t, c_t)$를 함께 샘플링한다.

$$ (a_t, c_t) \sim \pi_\theta(a_t, c_t \mid I, \mathcal{V}_t) $$

이 설계는 단순한 메모리 절약 장치가 아니다. 논문은 성능과 비용을 함께 최적화하는 관점에서, 문맥 압축 자체를 정책이 조절하도록 만든다.

3.4 In-Context Reinforcement Learning(ICRL)

논문이 말하는 ICRL은 스킬을 추론 시 최종 입력에 영구적으로 붙이는 것이 아니라, 훈련 rollout 동안 정책 학습의 발판으로 주는 RL이다. 즉 스킬은 exploration을 돕는 구조적 힌트로 작동한다. 그러나 커리큘럼이 진행되며 이 힌트는 줄어들고, 최종적으로는 사라진다.

보상도 이 구조를 반영한다. 태스크 성공 여부를 나타내는 보상에 더해, 성공 시에는 압축률에 따른 보상 항을 추가한다. 논문 식은 다음과 같다.

$$ r_t^{\mathrm{comp}}= \begin{cases} \ln(c_t), & \mathcal{I}_{\mathrm{succ}}(\tau)=1 \\ 0, & \text{otherwise} \end{cases}, \qquad \tilde r_t = r_t + \lambda \cdot r_t^{\mathrm{comp}} $$

여기서 $\lambda$는 task performancecompression efficiency 사이의 trade-off를 조절한다. 성공하지 못한 trajectory에는 압축 보상이 붙지 않기 때문에, 논문은 압축 효율만 높이고 과제를 실패하는 정책으로 가는 것을 막는다.

3.5 그룹 정규화 기반 RL objective

각 query $q$에 대해 이전 정책 $\pi_{\theta_{\text{old}}}$는 $G$개의 trajectory를 샘플링한다. 이후 trajectory 총보상 $\tilde r(\tau_i)$를 그룹 내부에서 정규화해 advantage $A_i$를 만들고, importance sampling ratio와 KL regularization이 들어간 objective로 업데이트한다. 논문이 제시한 형태는 다음과 같다.

$$ \mathcal{L}_{\mathrm{SKILL0}}(\theta)= \mathbb{E}_{\tau_i \sim \pi_{\theta_{\text{old}}}(q), q\sim\mathcal D} \frac{1}{\sum_{i=1}^{G}|\tau_i|} \sum_{i=1}^{G}\sum_{t=1}^{|\tau_i|} \mathrm{clip}(r_{i,t}(\theta),A_i,\epsilon) - \beta \cdot \mathbb{D}_{\mathrm{KL}}[\pi_\theta \| \pi_{\mathrm{ref}}] $$

리뷰 관점에서 중요한 것은 수식 자체보다, SKILL0가 skill-conditioned rolloutskill-free end state를 하나의 RL 학습 루프 안에 넣었다는 점이다. 논문은 이 구성이 exploration과 internalization 사이의 균형을 제공한다고 주장한다.

아래 표는 방법론의 핵심 구성요소를 정리한 것이다.

구성요소 논문 설명 역할
SkillBank general + task-specific skill markdown 파일 집합 행동 절차 지식을 구조화해 제공
Context Rendering 히스토리와 스킬을 RGB 이미지로 렌더링 문맥 비용 절감 및 시각 인코더 활용
Compression ratio $c_t$ 행동과 함께 정책이 선택 성능 대비 비용 조절
ICRL 훈련 중 skill-enhanced rollout 수행 초기 탐색과 학습 안정화
Dynamic Curriculum helpfulness 기반으로 활성 스킬 축소 context 의존 행동을 파라미터 내부로 이전

이 구성은 각각이 따로 새롭다기보다, 훈련 중 skill usage와 skill removal를 같은 루프 안에서 연결한 점에서 의미가 있다. 특히 visual context와 dynamic skill pruning을 같이 쓰면서 최종 추론 비용을 직접 낮춘다는 점이 실험 수치와 잘 맞물린다.

3.6 Adaptive Curriculum Learning과 helpfulness

SKILL0의 가장 중요한 설계는 skill budget이 단계별로 줄어드는 커리큘럼이다. 논문은 stage $s$에서 활성 스킬 수 상한을 다음과 같이 둔다.

$$ |\mathcal S^{(s)}| \le M^{(s)} = \left\lceil N \cdot \frac{N_S-s}{N_S-1} \right\rceil $$

즉 전체 스킬 파일 수 $N$과 stage 수 $N_S$가 주어지면, 예산은 선형적으로 감소한다. 하지만 어떤 스킬을 남길지는 고정이 아니다. 각 skill file $\mathcal S_k$에 대해 대응하는 검증 sub-task $\mathcal T_k$를 마련하고, 주기적으로 w/ skillw/o skill 성능 차이로 helpfulness $\Delta_k$를 계산한다.

논문은 이때 Filter → Rank → Select의 세 단계를 수행한다. 먼저 $\Delta_k > 0$인 스킬만 남기고, 그 다음 helpfulness 순으로 정렬한 뒤, 마지막으로 현재 budget 상한 $M^{(s)}$ 이내의 상위 스킬만 유지한다. budget이 0이 되는 마지막 stage에서는 아예 $\mathcal S = \emptyset$가 된다.

이 메커니즘의 해석은 명확하다. 어떤 스킬이 아직 정책 성능에 유의미한 도움을 주면 유지하고, 이미 정책이 그 행동 패턴을 충분히 배웠다면 제거한다. 논문은 이를 rigid schedule 대신 policy-aware annealing으로 제시한다.

커리큘럼 알고리즘과 기호를 표로 정리하면 다음과 같다.

기호 의미 논문에서의 역할
$\mathcal{S}_k$ k번째 skill file 선택 및 제거의 최소 단위
$\mathcal{T}_k$ k번째 skill file에 대응하는 validation sub-task helpfulness 평가 기준
$\Delta_k$ with skill와 without skill의 성능 차 스킬 유용성 추정치
$M^{(s)}$ stage s의 skill budget 상한 활성 스킬 수를 단계적으로 감소
$d$ validation interval helpfulness 재평가 빈도

논문이 후반부 ablation에서 계속 검증하는 것도 바로 이 표의 변수들이다. 특히 $M$의 스케줄과 Filter/Rank/Select 세 단계가 실제로 internalization을 유도하는지 확인한다.

4. 실험 설정: ALFWorld와 Search-QA에서 무엇을 어떻게 비교했는가

4.1 벤치마크 구성

논문은 두 환경을 사용한다. ALFWorld는 텍스트 기반 embodied task 환경으로 Pick, Look, Clean, Heat, Cool, Pick2의 여섯 카테고리를 포함한다. Search-QA는 검색 기반 질의응답 묶음으로, 단일 hop인 NQ, TriviaQA, PopQA와 다중 hop인 HotpotQA, 2Wiki, MuSiQue, Bamboogle을 포함한다.

Search-QA 설정에서는 NQ와 HotpotQA를 in-domain training source로 두고, 나머지는 out-of-domain 평가로 사용한다. 따라서 논문이 Bamboogle 같은 데이터셋에서 성능을 강조하는 것은 단순 평균보다 OOD 일반화 관점과 연결된다.

4.2 비교 대상

표 1 성격의 메인 비교에는 Zero-Shot, Few-Shot, GRPO, AgentOCR, EvolveR, SkillRL이 들어간다. 추가 비교 표에서는 ALFWorld 쪽에 ReAct, Reflexion, Mem0, ExpeL, MemP, SimpleMem, MemRL 등이 포함되고, Search-QA 쪽에는 Search-o1, Search-R1, ZeroSearch, StepSearch 같은 검색 중심 방법이 들어간다.

이 비교 구성은 나쁘지 않다. 왜냐하면 SKILL0는 한편으로는 에이전트 RL baseline과 비교되어야 하고, 다른 한편으로는 memory/skill augmentation 계열과도 비교되어야 하기 때문이다. 논문은 두 축을 모두 보여주려 한다.

4.3 학습 및 구현 세부사항

논문은 Qwen2.5-VL 3B와 7B를 사용해 최대 180 step까지 학습했다고 적는다. 하드웨어는 4개의 H800 GPU다. ALFWorld에서는 배치당 16 tasks, 프롬프트당 8 rollouts, 최대 프롬프트 길이 3,072 tokens를 사용한다. Search-QA에서는 배치당 128 tasks, 최대 길이 4,096 tokens, retriever로 E5를 사용한다.

커리큘럼 설정으로는 validation subset size 1,000, stage 수 $N_S = 3$, 초기 SkillBank는 SkillRL에서 가져온다. 즉 SKILL0는 SkillBank를 새로 발견하는 논문이 아니라, 이미 존재하는 skill repository를 어떻게 internalization training에 이용할지에 초점을 둔다.

실험 설정을 표로 요약하면 다음과 같다.

항목 ALFWorld Search-QA
기본 모델 Qwen2.5-VL-3B / 7B Qwen2.5-VL-3B / 7B
최대 학습 step 180 180
배치 구성 16 tasks, 8 rollouts per prompt 128 tasks
최대 prompt 길이 3,072 4,096
특이 설정 GiGPO split 사용 E5 retriever, NQ·HotpotQA train
커리큘럼 validation subset 1,000, $N_S=3$ validation subset 1,000, $N_S=3$

이 설정에서 눈에 띄는 점은 이미지 기반 컨텍스트 압축skill internalization이 함께 쓰인다는 것이다. 그래서 결과 표에서는 성능뿐 아니라 average context token cost per step도 같이 보고한다.

벤치마크 구성 자체도 SKILL0의 주장과 잘 맞는다. ALFWorld 여섯 카테고리는 모두 “짧은 one-step 반응”보다 상태 전환 순서중간 목표 관리가 핵심인 태스크들이다. Pick은 상대적으로 단순하지만 탐색과 획득 타이밍이 중요하고, Look은 목표 물체와 조명 장치를 결합해야 하므로 목표 객체를 먼저 들고 갈지 램프를 먼저 찾을지의 분기가 생긴다. Clean, Heat, Cool은 각각 싱크, 전자레인지, 냉장고라는 전용 장치를 거쳐야 하므로, “찾기 → 들기 → 장치 조작 → 최종 배치”라는 상태 기계가 필요하다. Pick2는 같은 절차를 두 번 반복하면서도 이미 확보한 객체와 남은 객체를 구분해야 해, 단순한 행동 복제보다 진행 상황 추적 능력을 더 강하게 요구한다.

Search-QA도 비슷하다. NQ나 direct retrieval형 질문은 명시적 엔티티와 속성을 빠르게 맞물리면 끝나는 경우가 많지만, HotpotQA·2Wiki·MuSiQue·Bamboogle은 검색 결과를 여러 번 읽고, 어떤 사실을 먼저 확정한 뒤 다음 쿼리를 날릴지 정해야 한다. 즉 이 환경에서 “스킬”은 꾸밈말이 아니라 실제 정책 구조와 거의 같은 의미를 갖는다. 논문이 ALFWorld와 Search-QA를 함께 고른 이유는, 하나는 embodied procedure를, 다른 하나는 search procedure를 대표하도록 만들었기 때문이라고 보는 편이 자연스럽다. 두 환경 모두 스킬의 존재 가치를 인정하면서도, 그 스킬이 끝까지 프롬프트 바깥 파일 형태로 남아 있어야 하느냐는 별개의 문제라는 것이 SKILL0의 출발점이다.

4.4 SkillBank 예시와 프롬프트 구조

TeX source의 구현 섹션에는 SkillBank 예시도 공개되어 있다. ALFWorld의 general skill에는 Systematic Exploration, Immediate Acquisition이 있고, 검색 태스크 general skill에는 Decompose Then Search, Exit When Evidence Is Solid 같은 항목이 있다. Search의 entity_attribute_lookup에는 Direct Attribute Query, Two-Source Cross-Check 같은 보다 구체적 패턴이 들어간다.

이는 SKILL0가 단순한 태스크 요약이 아니라, 행동 원리와 적용 시점을 함께 적은 절차형 skill file을 사용함을 보여준다. 아래 표는 구현 섹션의 대표 예시를 압축해 옮긴 것이다.

Skill file 대표 skill 언제 쓰는가
skills/ALFWorld/general.md Systematic Exploration, Immediate Acquisition 목표 물체가 아직 확보되지 않았고 탐색이 필요한 경우
skills/ALFWorld/clean.md Phase-Ordered Plan, Sink First for Cleaning 세척 후 배치 같은 단계적 순서가 필요한 경우
skills/Search/general.md Decompose Then Search, Exit When Evidence Is Solid 복합 질문이나 과도한 검색을 피해야 하는 경우
skills/Search/entity_attribute_lookup.md Direct Attribute Query, Two-Source Cross-Check 명확한 엔티티의 속성 조회가 필요한 경우

구현 섹션의 프롬프트 템플릿을 보면, ALFWorld에서는 관측과 행동 히스토리를 포함한 이미지가 주어지고, 응답은 <think>, <action>, <compression> 태그 형식을 따른다. Search-QA에서는 <search><information>를 구분하고, 최종 응답은 <search> 혹은 <answer> 중 하나를 선택하게 한다. 논문은 이런 시각적 구분이 vision encoder가 상태·행동·검색 결과를 더 잘 분리하도록 돕는다고 설명한다.

부록의 SkillBank 표를 자세히 읽어보면, 스킬 파일은 단순 키워드 모음이 아니라 어떤 순서로 무엇을 먼저 결정해야 하는지를 강하게 규정하는 규칙 집합이다. 예를 들어 ALFWorld의 Systematic Exploration은 “plausible surface or container를 정확히 한 번씩 훑고, 이미 본 곳은 나중에 다시 가라”는 탐색 우선순위를 준다. 이 규칙이 필요한 시점은 목표 객체가 아직 없고 미탐색 공간이 남아 있을 때다. 반대로 Immediate Acquisition은 목표 물체가 보이는 순간 다른 탐색을 미루고 즉시 집으라고 한다. 둘은 같이 general skill로 묶여 있지만 서로 적용 시점이 다르다. 전자는 탐색 정책을, 후자는 발견 직후의 행동 결정을 담당한다.

task-specific file로 내려가면 적용 시점이 더 명확해진다. clean.mdPhase-Ordered Plan은 세척형 과제가 “찾기, 확보, 싱크 이동, 세척, 배치”의 순서라는 것을 고정한다. Sink First for Cleaning은 객체를 든 이후에 갈 곳을 더 고민하지 말고 바로 싱크로 가라고 지시한다. heat.mdSecure Exact Target First는 전자레인지와 상호작용하기 전에 정확한 목표 물체부터 확보하라고 해, 기기 조작을 먼저 하다 시간과 행동을 낭비하는 실수를 줄인다. cool.mdPrep Cooling Appliance는 냉장고를 먼저 열어 둘 수 있음을 상기시켜, 목표 물체를 들고 난 뒤 문 열기-넣기-닫기 순서가 꼬이는 실패를 방지한다. 즉 스킬 파일은 태스크 설명을 요약한 것이 아니라, 실패를 많이 만드는 분기점에 대해 미리 정책을 박아 넣는 장치다.

Search 쪽도 마찬가지다. Decompose Then Search는 복합 질문을 최소 하위 질의로 쪼개고 각각을 독립 검색하라는 규칙이다. 이는 multi-hop 과제에서 첫 검색 결과 하나에 과도하게 의존하는 경향을 막는다. Exit When Evidence Is Solid는 반대로 검색을 무한히 늘리지 말라고 한다. 즉 Search general file 내부에서도 “더 찾아라”와 “그만 찾아라”라는 서로 다른 제동 장치가 공존한다. entity_attribute_lookup.mdDirect Attribute Query는 엔티티 이름과 속성을 첫 검색어에 모두 넣으라고 하고, Two-Source Cross-Check는 첫 정답 후보가 떠도 희귀 속성이나 애매한 경우에는 최소 두 출처를 맞춰보라고 한다. 이는 hallucination을 낮추는 동시에, 너무 늦게 답해 토큰을 낭비하는 문제와도 연결된다. 부록 표를 그대로 따라가면 SKILL0의 스킬은 “무엇을 할까”보다 언제 어떤 판단 기준으로 다음 행동을 정할까에 초점이 맞춰져 있음을 확인할 수 있다.

5. 주요 실험 결과: 성능과 토큰 비용을 함께 봐야 한다

5.1 메인 결과 해석 기준

논문 메인 테이블은 단순 정확도 비교표가 아니라 성능과 비용을 동시에 보여준다. 특히 Few-ShotSkillRL처럼 추론 시 skill augmentation이 유지되는 방법과, SKILL0처럼 추론 시 스킬 없이 평가되는 방법을 함께 놓는다. 따라서 이 표에서 봐야 할 핵심은 skill-free inference에서 얼마만큼 유지·향상되는가, 그리고 token cost가 얼마나 줄어드는가다.

먼저 3B 모델의 메인 결과를 옮기면 다음과 같다.

Qwen2.5-(VL)-3B ALFWorld Avg ALF Cost(k) Search-QA Avg Search Cost(k)
Zero-Shot 15.2 1.21 15.9 0.48
Few-Shot 29.3 2.30 17.9 0.86
GRPO 79.9 1.02 36.4 0.61
AgentOCR 78.2 0.38 34.2 0.26
EvolveR 44.1 1.89 38.2 --
SkillRL 82.4 2.21 38.9 0.87
SKILL0 87.9 0.38 40.8 0.18

3B 결과에서 논문이 강조하는 메시지는 분명하다. SKILL0는 ALFWorld 87.9, Search-QA 40.8을 기록하며, AgentOCR 대비 각각 +9.7, +6.6 향상을 보인다. 동시에 비용은 ALFWorld에서 0.38k, Search-QA에서 0.18k로 낮다. 특히 Search-QA 비용은 AgentOCR의 0.26k보다 더 낮고, SkillRL의 0.87k와 비교하면 크게 절감된다. 논문은 이를 internalization과 visual context의 결합 효과로 해석한다.

하지만 평균만 보면 중요한 정보가 가려진다. TeX source의 메인 표를 카테고리별로 다시 보면, 3B SKILL0는 ALFWorld에서 Pick 95.6, Look 80.4, Clean 100.0, Heat 86.7, Cool 78.7, Pick2 75.2를 기록한다. 이 분포는 SKILL0가 모든 태스크를 균등하게 올린 것이 아니라, 특히 절차가 분명한 상태 전이형 과제에서 크게 강하다는 해석을 가능하게 한다. Clean이 100.0에 도달한 것은 clean.md의 순서형 스킬이 매우 직접적으로 정책에 흡수되었음을 시사한다. 반면 Look과 Cool, Pick2는 여전히 상대적으로 어렵다. Look은 목표 물체와 desklamp를 결합해야 해 탐색 경로와 조명 조건이 얽히고, Cool은 냉장고 조작과 최종 배치를 섞어 처리해야 하며, Pick2는 두 개의 객체에 대해 진행 상태를 기억해야 하기 때문이다.

baseline과의 차이를 보면 해석은 더 선명해진다. 3B에서 SKILL0는 AgentOCR 대비 Clean에서 +24.0, Heat에서 +13.4, Pick2에서 +5.2를 기록하지만, Look에서는 -1.4다. 즉 SKILL0의 이득은 “무조건 모든 세부 태스크를 동일하게 개선한다”가 아니라, 스킬이 실제로 절차를 강하게 규정하는 영역에서 더 크게 나타난다는 쪽에 가깝다. Clean과 Heat는 각각 sink, microwave라는 도구 사용 타이밍이 명확해서 internalization에 유리한 반면, Look은 주변 탐색과 운반 경로가 얽혀 있어 스킬을 파라미터에 흡수해도 환경 변이에 덜 견고할 수 있다. Pick2 역시 평균적으로는 높지만 여전히 70점대인 이유가, 동일 규칙을 두 번 적용하는 것만이 아니라 “이미 끝난 하위 목표와 남은 하위 목표를 분리해 기억하는 것”까지 필요하기 때문으로 읽힌다.

Search-QA 3B에서도 비슷한 편차가 보인다. SKILL0는 NQ 39.8, TriviaQA 57.5, PopQA 42.3, HotpotQA 35.1, 2Wiki 33.7, MuSiQue 13.3, Bamboogle 63.7이다. TriviaQA와 Bamboogle이 특히 높고, MuSiQue가 가장 낮다. 이 값만 봐도 SKILL0의 search skill internalization이 단순한 retrieval 강화가 아님을 알 수 있다. Bamboogle 63.7은 OOD multi-hop이면서도 높은데, 이는 질문을 하위 문제로 쪼개고, 근거가 충분하면 검색을 멈추는 절차가 unseen benchmark에도 비교적 잘 이전되었음을 뜻한다. 반대로 MuSiQue 13.3은 여러 단서 연결을 매우 엄격히 요구하는 셋업에서 여전히 병목이 있음을 보여준다. 즉 internalization이 되었더라도, 모든 multi-hop reasoning이 같은 난도로 환원되는 것은 아니다.

3B에서 AgentOCR와 EvolveR, SkillRL을 나란히 보면 SKILL0의 위치가 더 정확해진다. AgentOCR 대비로는 NQ, PopQA, HotpotQA, 2Wiki, Bamboogle에서 우위가 뚜렷하지만, TriviaQA와 MuSiQue에서는 큰 차이가 없거나 낮다. SkillRL과 비교하면 평균은 SKILL0가 조금 높지만 세부 항목에서는 SkillRL이 Look 100, 2Wiki 31.1, Bamboogle 58.1처럼 일부 강점을 보이고, SKILL0는 Clean 100, Bamboogle 63.7 같은 다른 항목에서 앞선다. 이것은 SKILL0가 “모든 과제에서 SkillRL보다 무조건 세다”는 그림보다, 스킬을 끝까지 들고 가는 방법과 스킬을 최종적으로 제거하는 방법 사이의 성능-비용 trade-off를 다시 배치했다는 그림으로 읽는 편이 적절하다.

7B 모델의 메인 결과는 다음과 같다.

Qwen2.5-(VL)-7B ALFWorld Avg ALF Cost(k) Search-QA Avg Search Cost(k)
Zero-Shot 31.3 1.08 17.5 0.70
GRPO 81.8 0.95 41.9 0.73
AgentOCR 81.2 0.43 40.1 0.36
EvolveR 43.8 -- 43.1 --
SkillRL 89.9 -- 47.1 --
SKILL0 89.8 0.41 44.4 0.34

7B에서는 해석이 조금 더 미묘하다. ALFWorld 평균 89.8은 매우 높고 비용도 0.41k로 낮다. Search-QA 평균은 44.4로 AgentOCR와 GRPO보다 높지만 SkillRL의 47.1보다는 낮다. 다만 SkillRL은 추론 시 스킬 증강을 사용하는 방식이고, SKILL0는 skill-free inference를 목표로 한다는 점을 논문은 함께 보아야 한다고 시사한다. 즉 절대 최고치 하나보다 낮은 비용과 무스킬 추론 조건을 함께 고려해야 한다는 것이다.

7B를 세부 카테고리로 분해하면 3B와는 또 다른 그림이 나온다. ALFWorld에서 7B SKILL0는 Pick 100.0, Look 85.8, Clean 94.6, Heat 81.9, Cool 85.7, Pick2 80.1이다. 3B 대비 절대 향상이 큰 것은 Pick, Look, Cool, Pick2다. 반대로 Clean과 Heat는 3B에서 이미 매우 높았기 때문에 7B가 반드시 더 높지는 않다. 이는 모델 크기 증가가 모든 태스크를 일률적으로 끌어올리기보다, 탐색 변이와 상태 추적 부담이 큰 카테고리에서 더 이득을 준다는 해석과 맞는다. Pick이 95.6에서 100으로 오르고, Pick2가 75.2에서 80.1로 오르며, Cool이 78.7에서 85.7로 오르는 것은 더 큰 모델이 skill text를 실제 상태 관리 규칙으로 압축하는 데 유리하다는 신호다.

반면 Search-QA에서는 7B의 이득이 더 선택적이다. 7B SKILL0는 NQ 42.7, TriviaQA 61.1, PopQA 45.3, HotpotQA 40.0, 2Wiki 38.3, MuSiQue 16.4, Bamboogle 66.9다. 3B보다 대부분 올랐지만, 증가 폭은 ALFWorld보다 작다. 특히 Bamboogle이 63.7에서 66.9, HotpotQA가 35.1에서 40.0, 2Wiki가 33.7에서 38.3으로 오르는 것은 긍정적이지만, SkillRL 7B가 평균 47.1로 여전히 높다는 사실도 남는다. 즉 더 큰 모델이 internalization을 잘하더라도, search-heavy 태스크에서는 추론 시점의 외부 skill augmentation 자체가 아직 줄 수 있는 상한 이득이 완전히 사라지지 않았다고 볼 수 있다.

이 지점에서 3B와 7B 차이를 두 갈래로 읽을 수 있다. 첫째, 7B는 스킬을 덜 필요로 하는 쪽으로 이동한다기보다, 스킬을 더 빠르고 안정적으로 흡수해 최종 무스킬 정책의 절대 성능을 올린다. 3B에서 SKILL0의 강점이 “낮은 비용으로 surprisingly strong”이라면, 7B에서는 “더 큰 모델에서도 internalization이 성능 병목이 되지 않는다”가 핵심이다. 둘째, 모델이 커질수록 Search-QA에서 external skill을 끝까지 쓰는 SkillRL과의 격차는 오히려 더 또렷하게 드러난다. 이것은 큰 모델일수록 inference-time skill usage와 training-time internalization 사이의 선택이 더 분명해진다는 뜻이다. 즉 7B는 SKILL0의 원리를 부정하지 않지만, ‘스킬을 완전히 없애는 편익’과 ‘추론 시 끝까지 붙여둘 때의 성능 상한’ 사이의 긴장을 더 선명하게 보여준다.

비용 측면도 중요하다. 3B에서 Search-QA cost는 SKILL0 0.18k, AgentOCR 0.26k, SkillRL 0.87k였고, 7B에서도 SKILL0 0.34k, AgentOCR 0.36k다. 즉 모델이 커져도 SKILL0의 cost discipline은 유지된다. 7B에서 성능이 오른 만큼 비용이 크게 튀지 않는다는 사실은, 개선의 상당 부분이 단순히 “더 큰 모델이라 더 많이 읽는다”가 아니라 같은 compact context 안에서 더 많은 절차를 흡수했다는 해석을 뒷받침한다. 논문이 3B와 7B를 함께 제시한 것은 단지 scale-up 실험이 아니라, internalization이라는 현상이 소형 백본의 요행이 아니라는 점을 보여주기 위한 장치로 읽을 수 있다.

ALFWorld 확장 비교는 평균값보다 카테고리별 행동 특성으로 읽는 편이 더 유익하다. Pick은 거의 모든 강한 RL 계열이 높게 나오지만, SKILL0 7B가 100을 찍었다는 사실은 “찾으면 바로 집고, 들고 있으면 바로 놓는다”는 단순 규칙이 충분히 내부화되었음을 뜻한다. 반면 Look은 desklamp와 목표 객체를 결합해야 하므로 environment-specific branching이 많다. 그래서 SkillRL이 7B에서 71.4, SKILL0가 85.8, AgentOCR가 96.2로 서로 엇갈린다. 이는 Look에서 externalized procedural hints를 그대로 유지하는 방식이 아직 강할 수 있음을 보여준다.

Clean과 Heat는 SKILL0의 논문 서사를 가장 잘 지지하는 카테고리다. 3B에서 Clean 100.0, Heat 86.7이고, 부록의 detailed ablation에서는 기본 설정 w/o skill이 Heat에서 w/ skill 대비 +8.9를 보인다. 이것은 훈련이 끝날수록 “싱크 먼저”, “목표 객체 먼저 확보 후 전자레인지 조작” 같은 규칙이 더 이상 외부 텍스트로 남아 있을 필요가 없음을 시사한다. 반대로 Cool과 Pick2는 internalization이 되더라도 여전히 어렵다. Cool은 냉장고 준비와 최종 배치 사이의 타이밍 실수가 많고, Pick2는 두 객체 중 어느 단계에 있는지 추적하는 메모리 부담이 남는다. 그래서 SKILL0가 평균으로는 매우 높아도, 카테고리 난도 차이는 여전히 뚜렷하다.

이 차이는 ‘어떤 스킬이 내부화되기 쉬운가’에 대한 힌트도 준다. 상태 전이 순서가 분명하고 실패 원인이 비교적 일정한 태스크는 internalization이 잘 된다. Clean, Heat가 여기에 가깝다. 반면 관측 불확실성, 탐색 경로 선택, 다중 목표 추적이 섞인 태스크는 스킬을 파라미터에 흡수해도 완전히 평탄해지지 않는다. Look, Cool, Pick2가 그렇다. 따라서 SKILL0의 성과를 해석할 때 “평균 89.8”만 볼 것이 아니라, 절차형 스킬이 강하게 규정하는 영역에서는 거의 포화에 가까운 internalization이 가능하지만, 환경 분기와 메모리 요구가 큰 영역은 여전히 후속 과제라는 점을 함께 봐야 한다.

Training dynamics on 3B versus AgentOCR

Figure 3: Qwen2.5-VL-3B에서 AgentOCR와의 training dynamics 비교.

Figure 3은 3B 백본에서 SKILL0와 AgentOCR의 훈련 reward 곡선을 비교한다. 논문은 SKILL0가 전 구간에서 더 높은 reward를 유지한다고 해석하며, 이는 단순 최종 점수뿐 아니라 학습 과정 전체에서도 더 안정적 신호를 제공했다는 근거로 사용된다. 즉 internalization 목적이 단지 말단 evaluation에서만 보이는 효과가 아니라 훈련 동역학 차이로도 나타난다는 주장이다.

Training dynamics on 7B versus AgentOCR

Figure 4: Qwen2.5-VL-7B에서 AgentOCR와의 training dynamics 비교.

Figure 4는 같은 비교를 7B 백본으로 확장한다. 논문은 여기서도 SKILL0가 더 높은 reward curve를 유지한다고 보고한다. 리뷰 관점에서는 이것이 중요한데, 만약 SKILL0가 단지 추론 시점 프롬프트 길이만 줄인 기법이었다면 reward 동역학 차이는 약할 수 있다. 그러나 논문은 학습 궤적 전체가 바뀌었다고 주장하며, 그 근거로 이 그림을 제시한다.

5.2 ALFWorld 확장 비교

논문은 ALFWorld에서 memory 기반 혹은 prompt 기반 방법까지 포함한 확장 비교도 제공한다. 대표 평균만 정리하면 다음과 같다.

방법 ALFWorld Avg 비고
GPT-4o 48.0 closed-source
Gemini-2.5-Pro 60.3 closed-source
ReAct 31.2 7B 행에 보고
Reflexion 42.7 7B 행에 보고
ExpeL 46.3 memory-augmented
SimpleMem* 62.5 GRPO-trained
AgentOCR 81.2 7B
SKILL0 89.8 7B

ALFWorld 확장 비교에서 논문이 강조하는 포인트는, SKILL0가 단지 같은 family의 RL baseline만 이긴 것이 아니라 memory-augmented methodclosed-source model보다도 높은 평균을 보인다는 점이다. 특히 ExpeL 46.3, Mem0 54.7, SimpleMem 62.5와 비교하면 차이가 크고, AgentOCR 81.2 대비도 우위다.

5.3 Search-QA 확장 비교

Search-QA에서는 검색 중심 방법들과 비교한 표가 따로 있다. 평균 기준 핵심 값만 추리면 아래와 같다.

방법 3B Avg 7B Avg 메모
RAG 27.0 30.4 retrieval baseline
Search-R1 32.5 38.5 search RL 계열
ZeroSearch 31.7 39.1 OOD 비교 가능
EvolveR 38.2 43.1 strong baseline
SKILL0 40.8 44.4 skill-free inference

논문은 특히 Bamboogle 같은 OOD multi-hop 데이터셋에서 강한 일반화를 강조한다. TeX source 기준으로 SKILL0는 Bamboogle에서 63.7(3B), 66.9(7B)를 기록한다. 논문은 이것을 unseen reasoning task에 대한 일반화 능력의 증거로 해석한다. 물론 이 해석은 추가 검증이 더 필요할 수 있지만, 적어도 표 자체는 in-domain 평균만이 아니라 OOD 항목에서도 강점이 나타남을 보여준다.

Search-QA 세부 결과를 더 촘촘히 읽으면, SKILL0의 장점은 단순 검색 강도보다 질문 유형별 절차 선택에 있다. NQ와 HotpotQA는 학습에 직접 사용된 in-domain 데이터지만, 성능이 가장 높은 항목은 오히려 OOD인 TriviaQA와 Bamboogle 쪽이다. 3B 기준 TriviaQA 57.5, Bamboogle 63.7이고 7B에서는 61.1, 66.9다. 이는 모델이 특정 데이터셋에 맞춘 질의 템플릿을 외운 것보다, decomposition, evidence stopping, cross-check 같은 상위 절차를 배운 결과일 가능성을 높인다.

반면 MuSiQue는 3B 13.3, 7B 16.4로 여전히 가장 낮다. 이 값은 SKILL0의 약점도 동시에 보여준다. Search 스킬이 internalize되더라도, 여러 사실을 단계적으로 연결하면서 중간 추론 오류를 누적 없이 관리해야 하는 문제에서는 아직 성능이 제한적이다. 2Wiki도 33.7과 38.3으로 중간 수준에 머무르는데, 이는 multi-hop 자체보다도 검색된 사실들을 동일한 비교 프레임으로 정규화하는 과정이 어렵기 때문으로 볼 수 있다. 부록의 compare 스킬에 Normalize Before Comparing이 따로 있는 것도 이 난점을 반영한다.

Bamboogle의 높은 점수는 논문이 일반화의 근거로 제시하는 핵심이다. 이 데이터셋은 사전 학습에서 덜 직접적으로 보였을 가능성이 큰 multi-hop 질문을 던지므로, 여기서 60점대 중후반이 나온 것은 단지 더 많은 문서를 읽어서라기보다, 질문 분해 후 필요한 만큼만 검색하고, 확인된 근거가 생기면 답으로 넘어가는 search policy가 비교적 안정적으로 형성되었음을 시사한다. 저자들이 “without any domain-specific adaptation”을 강조하는 이유도 여기에 있다. 물론 이것만으로 완전한 compositional generalization을 증명한다고 보기는 어렵지만, 최소한 OOD 셋에서 강하게 무너지지 않는다는 점은 internalization 서사와 잘 맞는다.

Training dynamics comparison with and without skill augmentation

Figure 5: skill augmentation 유무, AgentOCR 비교, text RL baseline 비교를 함께 보여주는 training dynamics.

Figure 5는 논문의 central evidence에 가깝다. (a)에서는 w/ skill 검증이 초반에 더 빠르게 오르지만, w/o skill 검증이 후반에 따라붙는 모습을 보여준다. 논문은 이를 internalization의 직접적 징후로 읽는다. (b)에서는 스킬 없이 평가한 공정 비교에서 SKILL0가 AgentOCR보다 높고, (c)에서는 GRPO와 SkillRL이 비교적 일찍 plateau에 도달하는 반면 SKILL0는 더 오래 상승한다고 설명한다.

6. 추가 분석 및 Ablation Study: 도움이 되는 스킬만 남기면 왜 달라지는가

6.1 Helpfulness의 rise-then-fall 패턴

논문은 각 sub-task에서 helpfulness $\Delta_k$가 대체로 초기에는 낮고, 중반에는 상승, 후반에는 다시 0 쪽으로 수렴하는 패턴을 보인다고 말한다. 초기에 낮은 이유는 정책이 아직 스킬 문맥 자체를 활용하는 법을 잘 모르기 때문이고, 중반에 오르는 이유는 스킬을 실제 행동에 접지시키기 시작하기 때문이며, 후반에 다시 줄어드는 이유는 지식이 파라미터에 내부화되어 스킬이 더 이상 성능 차이를 만들지 않기 때문이라는 해석이다.

Helpfulness dynamics

Figure 6: sub-task별 helpfulness $\Delta_k$의 training dynamics.

Figure 6은 이 rise-then-fall 해석을 시각화한다. 논문은 모든 sub-task에서 정확히 같은 곡선을 주장하지는 않지만, 전체적으로는 스킬이 처음부터 항상 필요한 것도 아니고 끝까지 항상 필요한 것도 아니라고 본다. 다시 말해 스킬은 영구 입력이 아니라 일시적 scaffolding라는 것이 이 그림의 요점이다.

6.2 Skill budget $M$ ablation

논문은 ALFWorld 기준 $N_S=3$일 때 기본 budget을 [6,3,0]으로 둔다. Search-QA는 [5,3,0]이다. 그리고 이를 고정 full budget, 고정 low budget, no-skill budget과 비교한다. 핵심 질문은 간단하다. 스킬을 점진적으로 줄이는 설계가 실제로 skill-free inference 성능을 높이는가?

Skill budget ablations

Figure 7: 다양한 skill budget 설정에 대한 ablation.

Figure 7에서 논문은 기본 설정이 with skill에서 without skill로 넘어갈 때 오히려 +1.6의 transfer를 보인다고 강조한다. 반면 Fixed Full이나 [6,6,6] 같은 설정은 스킬 제거 시 큰 하락을 보인다. 이는 스킬을 계속 많이 주는 것이 학습을 더 잘 시키는 것이 아니라, 오히려 skill over-reliance를 만든다는 논문의 해석과 맞닿아 있다.

Ablations of skill budget during training process

Figure 8: 학습 과정에서의 skill budget 설정별 dynamics 비교.

Figure 8은 budget ablation을 동역학으로 보여준다. 논문은 정적인 낮은 budget인 [3,3,3]가 초반 exploration을 제약해 불안정하고 낮은 peak로 이어진다고 설명한다. 반대로 full skill을 계속 주는 설정은 training-inference gap을 키워 skill-free 평가에서 더 크게 무너진다고 해석한다. 결국 논문이 제안하는 것은 “스킬을 빨리 없애는 것”이 아니라 배울 때는 충분히 주고, 익숙해지면 줄이는 것이다.

부록의 상세 표를 붙여 읽으면 budget 설계의 의미가 더 분명해진다. 기본 설정 [6,3,0]에서 ALFWorld 평균은 w/ skill 86.3, w/o skill 87.9로 오히려 무스킬 추론이 더 높다. 그런데 [6,6,6]은 w/ skill 85.9로 훈련 중에는 그럴듯하지만, w/o skill이 72.6까지 떨어진다. 핵심은 훈련 중 평균이 약간 높은가가 아니라, 추론 조건이 바뀌었을 때 정책이 얼마나 유지되느냐다. 이 수치 차이는 스킬이 끝까지 남아 있으면 모델이 skill prompt를 실질적인 행동 제어기로 사용해 버리고, skill-free setting으로 넘어가는 순간 지지대가 사라지는 현상을 직접 보여준다.

또 하나 흥미로운 것은 더 세밀한 선형 감쇠처럼 보이는 [6,4,2,1,0]이 오히려 좋지 않다는 점이다. w/ skill 70.3, w/o skill 71.1로 기본보다 둘 다 크게 낮다. 즉 커리큘럼을 더 촘촘하게 쪼갠다고 자동으로 좋아지지 않는다. 논문 관점에서 이는 스킬 budget을 줄이는 단계 수가 중요한 것이 아니라, 정책이 스킬을 활용해 탐색을 배우는 시간과 그것을 버리고 스스로 수행하는 시간의 균형이 중요하다는 뜻이다. stage가 지나치게 많아지면 정책이 계속 바뀌는 skill pool에 적응하느라 오히려 강한 정책을 만들지 못할 수 있다.

세부 카테고리 delta도 해석할 가치가 있다. 기본 설정에서 w/o skill이 w/ skill보다 오른 항목은 Clean +2.8, Heat +8.9, Pick2 +3.9다. 반대로 내려간 항목은 Pick -2.9, Look -0.1, Cool -4.1이다. 이 패턴은 internalization이 균일하지 않음을 보여준다. Heat가 특히 크게 오르는 것은 장치 조작 순서가 파라미터에 강하게 흡수되었기 때문으로 읽을 수 있고, Cool이 내려가는 것은 냉장고 준비-냉각 완료-최종 배치의 연결이 여전히 외부 힌트의 도움을 받는 부분이 남았음을 뜻한다. 결국 budget ablation은 단순히 “스킬 수를 얼마나 남기나” 문제가 아니라, 어떤 타입의 절차가 더 빨리 자립 가능한가를 비추는 창 역할도 한다.

6.3 Dynamic Curriculum 구성요소 ablation

논문은 Dynamic Curriculum의 세 단계인 Filter, Rank, Select 각각이 필요한지도 검증한다. 다음 표는 핵심 수치를 정리한 것이다.

설정 w/ $\mathcal{S}$ w/o $\mathcal{S}$ $\Delta$
Filter + Rank + Select 86.3 87.9 +1.6
w/o Filter 81.6 78.9 -2.7
w/o Rank 76.6 62.9 -13.7

이 결과는 꽤 직접적이다. Filter가 없으면 도움이 안 되는 스킬이 남아 노이즈가 생기고, Rank가 없으면 어떤 스킬을 남길지 무작위성이 커져 훨씬 크게 무너진다. 논문은 특히 w/o Rank가 62.9까지 떨어지는 점을 들어, skill selection이 단순한 개수 조절이 아니라 도움이 되는 스킬을 정확히 남기는 문제임을 강조한다.

Rank가 이렇게 중요할까? 논문이 부록에서 보여주는 수치를 보면, w/o Rank의 붕괴는 특히 Heat -61.7, Cool -20.8, Look -20.1처럼 순서와 타이밍이 중요한 카테고리에서 심하다. 이는 helpfulness가 비슷해 보이는 스킬이라도 실제 현재 정책에 주는 기여는 크게 다를 수 있음을 뜻한다. 예를 들어 clean 관련 스킬과 look 관련 스킬이 동시에 budget 안에 들어갈 수 없는 상황에서, 현재 정책이 이미 clean 절차를 상당 부분 배웠다면 clean file보다 look file을 남기는 편이 더 낫다. Rank는 바로 이런 상대적 우선순위를 정하는 장치다. 단순히 positive helpfulness인 스킬을 아무거나 남기면, 아직 못 배운 스킬보다 이미 배운 스킬이 남아 버릴 수 있다.

반대로 Filter의 역할은 “해가 되는 스킬을 버리는 것”에 가깝다. 도움되지 않는 스킬이 문맥 안에 남아 있으면 토큰 길이만 늘어나는 것이 아니라, 현재 단계의 정책이 집중해야 할 분기를 흐린다. 특히 Search-QA처럼 여러 skill category가 공존하는 환경에서는 direct retrieval 질문에 multi-hop decomposition 파일을 불필요하게 붙여 넣는 것만으로도 search behavior가 장황해질 수 있다. 논문이 Filter와 Rank를 분리해 설계한 이유는, 하나는 음의 기여를 제거하고 다른 하나는 양의 기여끼리도 우선순위를 매기기 위해서라고 이해하면 자연스럽다. Select는 결국 budget 제약을 강제하는 마지막 문지기일 뿐, 실제 정책 품질을 좌우하는 정보는 Filter와 Rank가 만든다.

6.4 Validation interval $d$와 계산 효율

helpfulness를 얼마나 자주 재평가할지도 ablation 대상이다. 논문은 $d=5,10,20$을 비교한다.

$d$ ALFWorld Search-QA subset 해석
10 87.9 48.9 논문이 채택한 균형점
5 87.5 49.6 조금 더 자주 평가하지만 계산 오버헤드 증가
20 78.1 42.3 helpfulness 갱신이 너무 늦음

논문은 $d=5$가 Search-QA에서 약간 높을 수는 있지만, 계산 오버헤드를 고려하면 $d=10$이 성능과 효율의 균형점이라고 결론 내린다. 반면 $d=20$은 두 태스크 모두 확연히 나빠지는데, 이는 policy state 변화를 충분히 따라가지 못하기 때문으로 읽힌다.

이 결과는 validation interval이 단순한 엔지니어링 선택이 아니라는 점도 보여준다. helpfulness는 본질적으로 on-policy quantity이기 때문에, 정책이 빠르게 변하는 동안 너무 늦게 재평가하면 이미 쓸모없어진 스킬을 오래 붙잡거나, 반대로 막 도움이 되기 시작한 스킬을 너무 늦게 살릴 수 있다. $d=20$이 ALFWorld 78.1, Search-QA subset 42.3으로 밀리는 이유는 바로 이 반응성 부족으로 해석할 수 있다. 반대로 $d=5$는 Search-QA에서 49.6으로 가장 높지만, 논문은 이를 계산량 증가와 맞바꾼 값으로 본다. 즉 SKILL0의 커리큘럼은 자율적이되, 완전히 무료는 아니며, 적당한 빈도의 정책-스킬 재정렬이 필요하다.

실무적 관점에서 보면 $d=10$ 채택은 꽤 합리적이다. validation subset size가 1,000으로 고정되어 있으므로, 평가를 두 배 자주 하는 것은 훈련 루프의 상당한 비중을 helpfulness 측정에 쓰는 셈이다. 성능 개선이 미세한 수준이라면 더 자주 평가하는 것이 항상 이득은 아니다. 논문이 여기서 보여주는 것은 dynamic curriculum이 “항상 더 촘촘할수록 좋은” 제어 문제가 아니라, 성능 개선이 나타나는 시간 상수와 비용을 함께 맞춰야 하는 scheduling 문제라는 점이다.

6.5 더 자세한 budget ablation

부록 테이블은 budget 스케줄별로 with skill / without skill을 세분화해 보여준다. 핵심 수치만 뽑아보면 다음과 같다.

설정 w/ $\mathcal{S}$ Avg w/o $\mathcal{S}$ Avg 전이
[6,3,0] 기본 86.3 87.9 +1.6
[6,6,6] 85.9 72.6 -13.3
[6,4,2,1,0] 70.3 71.1 +0.8
[0,0,0] - 78.9 기본보다 -9.0

이 표는 “스킬이 필요 없다”는 결론으로 읽으면 안 된다. [0,0,0]은 기본보다 9.0 낮다. 즉 스킬은 학습 초기에 분명히 필요하다. 반대로 [6,6,6]은 끝까지 스킬을 많이 주어서 추론 시 제거에 취약하다. 결국 논문이 보여주는 최적점은 처음에는 배우기 위해 스킬이 필요하지만, 마지막에는 그것을 놓아야 한다는 것이다.

6.6 Subtask dynamics

부록의 추가 그림은 ALFWorld와 Search-QA 세부 서브태스크에서 with skill과 without skill 곡선을 나눠 보여준다. 논문은 이것이 Figure 5의 internalization 추세가 전체 평균에만 있는 현상이 아니라, 개별 카테고리에서도 반복됨을 보여준다고 해석한다.

Subtask dynamics on ALFWorld

Figure 9: Qwen2.5VL-3B에서 ALFWorld subtask별 training dynamics.

Figure 9는 ALFWorld 각 카테고리에서 스킬을 주는 평가가 초반에 더 유리하지만, 시간이 흐르며 skill-free 평가가 상당 부분 따라오는 양상을 보여준다. 논문은 이 패턴을 평균값이 아닌 세부 태스크 수준에서 internalization을 뒷받침하는 증거로 사용한다.

Subtask dynamics on SearchQA

Figure 10: Qwen2.5VL-3B에서 Search-QA skill category별 training dynamics.

Figure 10은 Search-QA의 skill category 분할 결과를 보여준다. 여기서도 논문은 with skill의 빠른 초기 상승과, 후반부에 skill-free 결과가 점차 근접하는 패턴을 보고한다. 이는 search decomposition, entity lookup, comparison 같은 절차형 스킬도 internalization 대상이 될 수 있음을 시사한다.

부록의 More Training Dynamics 서술은 짧지만 중요하다. 저자들은 Figure 9와 Figure 10을 두고, 세부 subtask 수준에서도 동일하게 w/ skill이 초기에 빠르게 오르고, w/o skill이 후반에 따라붙는다고 적는다. 이 문장은 사실상 논문 전체의 논지를 가장 압축적으로 재진술한다. 만약 average 성능만 비슷했다면 그것이 단순히 몇 개 쉬운 태스크의 평균 효과일 수도 있었겠지만, 부록 그림은 적어도 저자들의 관찰 범위에서 이 현상이 subtask별로 반복된다고 주장한다. 즉 internalization은 단일 메트릭 위의 착시가 아니라, 여러 서브구조에서 동시에 나타나는 학습 전환으로 해석된다.

여기서 더 중요한 것은 일반화 논의다. 본문과 부록을 합치면, 저자들은 Search-QA에서 NQ와 HotpotQA만 학습하고도 TriviaQA, PopQA, 2Wiki, MuSiQue, Bamboogle로 평가한다. 그중 특히 Bamboogle에서 강하다는 사실을 repeated evidence로 활용한다. 이는 dynamic curriculum이 특정 benchmark의 canned plan을 외우게 만드는 것이 아니라, 질문 분해와 증거 중단 규칙 같은 상위 절차적 bias를 파라미터 안에 남긴다는 해석을 가능하게 한다. 다만 MuSiQue가 여전히 낮다는 점은 일반화가 균일하지 않음을 보여준다. 다시 말해 SKILL0는 “어떤 search skill은 데이터셋 경계를 넘어 일반화되지만, compositional burden이 높은 영역은 아직 한계가 있다”는 보다 절제된 결론으로 읽는 편이 맞다.

ALFWorld에서도 부록의 세부 곡선은 비슷한 메시지를 준다. Pick, Clean처럼 규칙성이 높은 태스크는 skill-free 성능이 후반에 거의 따라붙거나 넘어서고, Look·Cool·Pick2 같은 카테고리는 간극이 더 오래 남을 가능성이 있다. 이는 정책이 internalize하는 대상이 “스킬 파일 전체”가 아니라, 그 안의 일부 규칙과 분기 기준일 수 있음을 시사한다. 따라서 SKILL0의 일반화는 스킬 파일을 통째로 복사한 것이 아니라, 행동 순서와 결정 기준을 점진적으로 압축한 결과라고 이해하는 편이 정확하다. 부록은 본문의 주장에 대해 이런 미세한 설명력을 더해 준다.

7. 한계점 및 향후 연구 방향: 논문이 직접 인정하는 제약과 읽히는 후속 과제

7.1 논문이 명시한 한계

논문 결론 말미에서 저자들은 두 가지 한계를 직접 적는다. 첫째, SKILL0는 초기 SkillBank의 품질에 의존한다. 즉 internalization 프레임워크가 좋아도, 처음에 들어가는 스킬이 부정확하거나 편향되어 있으면 학습 출발점이 흔들릴 수 있다. 둘째, relevance-driven skill grouping은 새로운 도메인으로 갈 때 validation sub-task를 다시 나누는 재구성이 필요하다.

이 두 한계는 모두 중요하다. 전자는 SKILL0가 완전한 end-to-end 자율 skill discovery 시스템은 아니라는 뜻이고, 후자는 도메인 확장 시 사람의 설계 개입이 여전히 필요하다는 뜻이다. 따라서 논문은 스킬 활용의 최종형보다, 이미 구축된 스킬 자산을 더 잘 학습에 흡수하는 중간 계층 방법으로 이해하는 편이 정확하다.

7.2 리뷰 관점에서 읽히는 향후 과제

논문 바깥의 추측을 최소화한 범위에서 보더라도, 후속 과제는 꽤 분명하다. 첫째, helpfulness 추정은 현재 전용 validation sub-task에 기대므로 더 자동화된 relevance estimation이 필요해 보인다. 둘째, SkillBank 품질 의존성을 줄이려면 skill extraction과 internalization을 더 밀접하게 연결하는 연구가 필요하다. 셋째, 현재 실험은 ALFWorld와 Search-QA에 집중되어 있으므로, 코드 에이전트나 GUI agent, 웹 에이전트 같은 더 긴 horizon 환경으로 확장 검증이 요구된다.

또한 SKILL0는 visual context를 적극 사용하므로, 텍스트-only 백본에서 동일한 internalization 효과가 얼마나 재현될지도 열려 있는 질문이다. 논문은 AgentOCR 계열의 설계를 잘 활용했지만, 동시에 이 설계 선택이 결과에 어느 정도 기여했는지 더 세밀한 분해도 향후 과제가 될 수 있다.

8. 결론: SKILL0가 남기는 메시지

SKILL0의 핵심은 “스킬이 좋다”가 아니라, 스킬은 학습 중 scaffolding이고 최종 정책은 스킬 없이 서야 한다는 명제다. 논문은 이 관점을 따라 ICRL, visual context rendering, Dynamic Curriculum을 결합했고, ALFWorld와 Search-QA에서 높은 평균 성능과 낮은 문맥 비용을 동시에 보고한다.

특히 논문이 의미 있게 보이는 지점은 skill-free inference를 중심 성능 지표로 밀어올렸다는 것이다. 외부 스킬을 더 많이 붙이면 수치가 더 좋게 나오는 환경에서도, 논문은 궁극적으로 무스킬 추론에서 얼마나 유지되는가를 더 중요한 기준으로 본다. 이 점에서 SKILL0는 retrieval-then-prompt 패러다임의 효율화가 아니라, 에이전트 학습 목표의 재정의에 가깝다.

정리하면, 논문은 다음을 보고한다. 스킬은 여전히 유용하다. 그러나 그것을 매번 읽게 하는 것보다, 훈련 중 점진적으로 제거하며 정책 내부에 남도록 만드는 편이 더 효율적일 수 있다. 그리고 이 주장은 최소한 두 개의 agentic benchmark에서는 실험 수치와 ablation으로 꽤 설득력 있게 제시된다.

조금 더 비판적으로 정리하면, SKILL0의 진짜 기여는 “스킬을 넣느냐 마느냐”의 이분법을 깨고, 스킬을 언제까지 남겨 둘 것인가를 RL 학습의 일부로 만든 데 있다. 기존 skill augmentation 연구가 retrieval quality, organization, evolution을 개선하는 방향으로 발전했다면, 이 논문은 그 축을 부정하지 않으면서도 마지막 단계에서 “좋은 스킬 시스템이라면 결국 스킬이 사라져도 성능이 남아야 하지 않는가”라는 질문을 던진다. 이 질문은 agentic training recipe 전반에 꽤 큰 함의를 가진다.

특히 본문과 부록을 같이 읽으면, SKILL0는 스킬을 제거해도 절대 성능이 유지된다는 주장보다 더 강한 주장을 일부 카테고리에서 한다. Clean, Heat, Pick2 같은 곳에서는 w/o skill이 오히려 더 좋아지기도 한다. 이것은 external prompt가 학습 말기에 계속 남아 있으면 도리어 policy specialization을 방해할 수 있음을 암시한다. 다시 말해 internalization은 단순한 압축이 아니라, 경우에 따라 더 나은 실행 정책으로의 재구성일 수 있다. 논문이 단순한 토큰 절약 기법으로 읽히지 않는 이유가 바로 여기에 있다.

실전적인 함의도 분명하다. 에이전트 시스템을 운영하는 입장에서는 보통 메모리를 더 잘 붙이는 방법, 스킬 검색을 더 잘하는 방법, 롱컨텍스트 비용을 더 줄이는 방법을 별개의 문제로 다룬다. 그러나 SKILL0는 이 세 문제를 하나의 학습 문제로 묶는다. 초기에 충분한 외부 구조화를 제공하고, 학습 중 정책이 그 구조를 얼마나 더 필요로 하는지 계속 측정해, 남은 도움만큼만 유지하는 식이다. 논문이 주장하는 skill internalization은 결국 메모리 시스템을 없애자는 선언이 아니라, 메모리가 영구 보철물인지 일시적 훈련 장치인지 다시 구분하자는 제안으로 읽힌다.

이 점은 향후 agentic benchmark 설계에도 영향을 줄 수 있다. 현재 많은 결과표는 스킬을 얼마나 잘 검색했는지, 외부 툴을 얼마나 잘 불러왔는지, 혹은 최종 정답률이 얼마나 높은지만 보여준다. 하지만 SKILL0의 관점에서는 학습 시 사용한 외부 구조를 제거한 뒤에도 정책이 남는가, 그리고 성능 대비 문맥 비용이 어디까지 줄어드는가가 함께 측정되어야 한다. 논문이 메인 테이블에서 평균 성능과 context token cost를 나란히 배치한 이유도 여기에 있다. 이는 agent 성능을 단순 정답률이 아니라 능력의 내재화 정도와 추론 비용까지 포함한 지표로 보자는 제안과 같다.

또 하나 눈에 띄는 메시지는, internalization이 성공할수록 스킬 문서는 더 짧아지거나 더 적어질 수 있다는 점이다. 일반적으로는 더 강한 agent를 만들기 위해 SkillBank를 계속 확장해야 한다고 생각하기 쉽지만, 이 논문은 반대로 좋은 SkillBank는 영원히 커지는 저장소가 아니라, 학습이 진행되며 점차 비워질 수 있는 출발점일 수 있다고 시사한다. 물론 새로운 도메인에서는 다시 SkillBank가 필요하겠지만, 적어도 동일 도메인 반복 학습 안에서는 “더 많이 저장”보다 “얼마나 덜 필요하게 되었는가”가 더 적절한 진행 척도일 수 있다. 이런 관점 전환은 향후 self-improving agent 연구에서도 꽤 중요하게 쓰일 가능성이 있다.

동시에 이 논문은 internalization이 만능이 아니라는 점도 함께 보여준다. Search-QA 7B에서 SkillRL이 평균 47.1로 더 높은 절대 점수를 내는 반면 SKILL0는 44.4에 머문다는 사실은, 어떤 환경에서는 외부 스킬을 끝까지 유지하는 전략이 여전히 상한을 높일 수 있음을 의미한다. 따라서 논문이 암시하는 바는 “외부 스킬을 모두 버려야 한다”가 아니라, 외부 스킬이 주는 추가 이득과, 그것을 유지하기 위해 치르는 문맥 비용·시스템 복잡도 사이의 경계선을 학습으로 이동시킬 수 있다는 것이다. 이 해석은 논문을 훨씬 현실적인 시스템 설계 관점으로 읽게 만든다.

이런 관점에서 보면 SKILL0는 향후 하이브리드 agent 설계의 출발점으로도 읽힌다. 예를 들어 자주 반복되는 탐색 규칙, 검색 분해 규칙, 중단 기준 같은 것은 파라미터에 내부화하고, 드물게 쓰이는 특수 절차나 최신 지식은 외부 스킬로 남겨 둘 수 있다. 논문은 그런 완전한 하이브리드 설계를 직접 제안하지는 않지만, 실험 결과는 적어도 반복적이고 구조화된 절차 지식이 internalization에 특히 적합하다는 방향을 보여준다. ALFWorld의 정형적 순서 태스크와 Search-QA의 decomposition-style skill에서 비교적 일관된 이득이 나타나는 이유도 이 맥락에서 이해할 수 있다.

마지막으로 이 논문을 agent engineering 관점에서 다시 읽으면, SKILL0는 모델과 메모리 계층의 경계를 고정된 것으로 두지 않는다. 전통적으로는 파라미터는 일반 능력, 외부 메모리는 최신 정보나 장기 경험이라는 식으로 역할을 분리해 왔다. 하지만 SKILL0는 반복적으로 재사용되는 절차 지식이라면 외부 메모리에 영구 보관할 이유가 없을 수 있다고 말한다. 오늘은 외부 skill file이 필요하지만, 충분한 rollout과 curriculum을 거친 내일의 정책에게는 그것이 더 이상 필요 없을 수도 있다는 것이다. 이런 시각은 파라미터와 메모리의 분업을 정태적 구조가 아니라 학습에 따라 재배치되는 동적 구조로 바꾼다. 바로 그 점이 SKILL0를 단순한 RL 성능 개선 논문보다 한 단계 더 흥미롭게 만드는 부분이다.

요컨대 SKILL0의 제안은 스킬 시스템을 폐기하자는 급진적 주장보다, 스킬 시스템의 성공 기준을 바꾸자는 쪽에 가깝다. 많이 저장하고 많이 붙이는 시스템이 아니라, 점점 덜 붙여도 되는 시스템이 더 성숙한 에이전트라는 관점이다. 논문이 보여준 수치와 곡선은 적어도 두 벤치마크에서는 그 방향이 충분히 실험 가능한 목표임을 보여준다.

이 때문에 SKILL0는 단발성 benchmark score보다도, 장기적으로 어떤 에이전트가 유지비가 낮고 구조적으로 단단한가를 묻는 논문으로 기억될 가능성이 크다. 외부 스킬의 도움을 받되 그 도움을 영구 부착하지 않는다는 사고방식 자체가 이후 연구의 기준선을 바꿀 여지가 있다.

그 의미에서 SKILL0는 단순히 더 잘 맞히는 정책이 아니라, 더 적은 외부 보조로도 서는 정책을 향한 학습 전략을 제시한 사례라고 정리할 수 있다. 그리고 바로 그 점이 이 논문을 agent memory 연구와 RL 연구의 접점 위에 놓이게 만든다. 스킬을 없애는 것이 아니라, 스킬 의존을 학습으로 낮춘다는 해석이 가장 정확하다. 비용과 자립성을 함께 본다는 점도 중요하다. 실전 배치 관점에서도 의미가 있다. 이 점은 장기 운영 비용 논의와도 맞닿아 있다. 유지비 절감과도 직접 연결된다.총소유비용관점도남는다.분명하다.

9. 요약 정리

마지막으로 Tistory 글용으로 핵심만 빠르게 다시 정리하면 아래와 같다.

  • SKILL0의 문제의식은 단순하다. 추론 시 스킬 검색은 유용하지만, retrieval noise와 token overhead를 남기고 무엇보다 능력이 컨텍스트 바깥 파일에 머문다.
  • 핵심 전환은 skill augmentation에서 skill internalization으로의 이동이다. 훈련 중에는 스킬을 적극 사용하되, 최종 추론은 스킬 없이 수행하게 만들어 정책 내부로 절차 지식을 옮긴다.
  • 방법론의 실질적 단위는 개별 문장이 아니라 skill file이다. general skill과 task-specific skill을 markdown 파일로 묶고, helpfulness를 파일 단위로 평가해 남길지 제거할지 결정한다.
  • ALFWorld에서는 Clean, Heat처럼 순서가 명확한 태스크에서 internalization 효과가 특히 강했고, Look·Cool·Pick2처럼 탐색과 상태 추적이 더 어려운 카테고리에서는 여전히 난도가 남았다.
  • Search-QA에서는 Bamboogle, TriviaQA처럼 out-of-domain 또는 절차형 검색 전략이 잘 먹히는 데이터셋에서 강했고, MuSiQue처럼 높은 compositional burden을 요구하는 셋에서는 아직 한계가 남았다.
  • 3B와 7B 비교에서 보이는 것은 단순한 스케일 이득이 아니다. 더 큰 모델은 internalization을 더 안정적으로 수행하지만, Search-QA에서는 추론 시 끝까지 스킬을 붙이는 방법이 주는 상한과의 긴장도 더 또렷해진다.
  • skill budget ablation은 이 논문의 핵심 증거다. [6,3,0] 같은 점진 감쇠는 w/o skill에서 +1.6 transfer를 만들지만, [6,6,6]처럼 끝까지 full skill을 주면 training-inference gap 때문에 크게 무너진다.
  • Dynamic Curriculum의 Filter·Rank·Select는 각각 역할이 다르다. Filter는 해로운 문맥을 버리고, Rank는 현재 정책에 가장 필요한 스킬을 우선순위화하며, Select는 제한된 budget 안에서 강제로 자립을 유도한다.
  • validation interval도 중요하다. 너무 드문 helpfulness 갱신은 이미 변한 정책 상태를 따라가지 못하고, 너무 잦은 갱신은 계산량이 커진다. 논문은 d=10을 실용적인 균형점으로 채택했다.
  • SKILL0는 “스킬을 잘 검색하는 에이전트”보다 “스킬을 한때 배우고 나중에는 버릴 수 있는 에이전트”를 목표로 한 RL 프레임워크다.

SKILL0는 “스킬을 잘 넣는 에이전트”가 아니라 “스킬 없이도 할 수 있게 배우는 에이전트”를 목표로 하는 RL 프레임워크다. 논문은 이 전환이 ALFWorld와 Search-QA에서 실질적인 성능·비용 이득으로 이어진다고 보고한다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.