[논문 리뷰]/[최신 논문] / [arXiv 2604.08545] Act Wisely: 메타인지적 도구 절제로 멀티모달 에이전트를 더 정확하고 더 영리하게 만드는 HDPO.md

[arXiv 2604.08545] Act Wisely: 메타인지적 도구 절제로 멀티모달 에이전트를 더 정확하고 더 영리하게 만드는 HDPO

2026. 4. 13. 14:46 조회

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou | Accio Team, Alibaba Group; Huazhong University of Science and Technology | arXiv:2604.08545 | 2026년 4월

이 논문은 최근의 에이전트형 멀티모달 모델이 보여 주는 흥미로운 모순을 정면으로 겨냥한다. 모델이 코드 실행, 텍스트 검색, 이미지 검색 같은 외부 도구를 자유롭게 쓸 수 있게 되면 성능이 올라갈 것처럼 보이지만, 실제로는 많은 시스템이 도구를 너무 쉽게, 너무 자주, 너무 반사적으로 호출한다. 논문은 이를 단순한 효율성 저하가 아니라 메타인지 결핍으로 규정한다. 즉 모델이 자기 내부 지식으로 답할 수 있는지, 시각 문맥만으로 충분한지, 아니면 외부 도구가 진짜 필요한지를 구분하지 못한다는 것이다. 이 진단은 상당히 설득력이 있는데, 고성능 멀티모달 에이전트일수록 도구를 더 많이 쓰는 것이 아니라 언제 도구를 쓰지 않아야 하는지를 알아야 하기 때문이다.

저자들은 기존 강화학습 방식이 이 문제를 잘못 다뤘다고 본다. 많은 방법이 정확도 보상과 도구 사용 패널티를 하나의 스칼라 보상으로 섞어 최적화한다. 겉으로는 자연스럽지만, 논문이 지적하듯 이 구조에서는 정확히 맞혔지만 도구를 많이 쓴 경로와 틀렸지만 도구를 거의 안 쓴 경로가 비슷한 혼합 보상을 받는 일이 생긴다. 그러면 정책 경사는 어떤 행동을 강화해야 하는지 명확한 방향을 잃는다. 결국 도구 효율 신호가 정확도 보상의 분산에 잠식되면서, 툴 남용을 줄여야 한다는 메시지가 학습 과정에서 사라진다.

이를 해결하기 위해 논문은 HDPO, 즉 Hierarchical Decoupled Policy Optimization를 제안한다. 핵심은 정확도와 효율을 싸우는 두 목표로 보지 않고, 정확한 궤적 안에서만 효율을 비교하는 방식으로 재구성하는 데 있다. 정확도 채널은 모든 롤아웃을 대상으로 정답률을 끌어올리고, 효율 채널은 정답을 맞힌 롤아웃끼리만 서로 비교해 더 적은 도구 호출로도 맞힐 수 있었는가를 묻는다. 이렇게 하면 학습은 자연스럽게 먼저 맞추고, 그다음 절제하는 커리큘럼을 갖게 된다. 논문이 제시한 결과물인 Metis는 이 설계를 통해 표준 GRPO 대비 도구 호출을 98%에서 2% 수준으로 낮추는 예시를 보이면서도 정확도를 함께 끌어올린다.

흥미로운 점은 이 논문이 단순히 성능 표 하나를 더 잘 만든 연구가 아니라, 에이전트의 자기조절 능력을 학습 목표로 올려놓았다는 데 있다. 같은 2026년 4월 흐름에서도 2604.08401은 자기감사를 통해 추론의 충실성을 높이는 문제를, Self-Guide(2604.03098)는 언어 에이전트의 내부 보상 공동진화를, Reflective Context Learning(2604.03189)는 컨텍스트 공간 최적화를 전면에 내세웠다. 그에 비해 이 논문은 도구 호출 여부 자체를 메타인지 판단 문제로 정식화한다. 그래서 읽고 나면 인상에 남는 메시지는 단순하다. 유능한 에이전트는 도구를 잘 쓰는 에이전트가 아니라, 도구를 써야 할 때와 안 써도 될 때를 분별하는 에이전트라는 것이다.

1. 서론: 왜 도구를 많이 쓰는 에이전트가 꼭 더 똑똑한 것은 아닌가

멀티모달 대형모델은 이미 이미지 이해, 문서 파싱, 수학 추론, 도구 연동을 한 시스템 안에서 수행하는 단계까지 왔다. 문제는 능력이 늘수록 결정해야 할 것도 많아졌다는 점이다. 예전의 비에이전트형 모델은 입력을 보고 곧장 답을 생성하면 됐지만, 에이전트형 모델은 이제 지금 바로 답할지, 이미지를 더 확대해 볼지, 검색으로 외부 근거를 찾을지, 코드로 계산을 돌릴지를 매 단계 선택해야 한다. 논문은 이 분기점에서 많은 오픈소스 시스템이 아직 서툴다고 본다. 가능성이 열려 있다는 사실만으로 도구를 부르고, 심지어 원본 이미지에 이미 정보가 선명히 보이는 상황에서도 습관적으로 도구를 호출한다는 것이다.

저자들이 이 현상을 blind tool invocation, 즉 맹목적 도구 호출이라고 부르는 이유는 분명하다. 이 행동은 단지 API 비용만 키우는 것이 아니라, 실제로 추론 품질을 떨어뜨릴 수 있는 노이즈를 끌어들인다. 코드 실행 결과가 애매하게 나오거나, 검색 결과가 불완전하거나, 이미지 검색이 비슷하지만 다른 대상을 끌고 오면 모델은 원래 갖고 있던 올바른 내부 판단보다 더 혼란스러운 외부 신호를 따라갈 수 있다. 다시 말해 툴 남용은 정보 획득이 아니라 불필요한 관측 추가가 되어 버린다. 논문은 기존 모델들이 도구 호출률은 80%에서 90%를 넘기면서도 그 계산 비용을 성능으로 충분히 전환하지 못한다고 비판한다.

이 지점에서 논문은 아주 실용적인 질문을 던진다. 정답을 맞히는 것과 쓸데없는 도구 호출을 줄이는 것은 정말 상충하는가? 직관적으로는 어느 정도 충돌할 것처럼 보인다. 패널티를 세게 주면 필요한 도구까지 안 쓰게 되고, 패널티를 약하게 주면 툴 남용이 그대로 남을 수 있다. 그런데 저자들은 이 딜레마 자체가 보상 설계에서 비롯된 거짓 충돌이라고 말한다. 정확도와 효율이 본질적으로 적대적인 것이 아니라, 그것들을 한 그릇에 섞어 최적화했기 때문에 서로의 신호를 훼손한다는 주장이다. 이 관점 전환이 이 논문의 가장 중요한 출발점이다.

또 하나 눈여겨볼 점은, 논문이 메타인지를 추상적인 심리학 개념으로 쓰지 않는다는 것이다. 여기서 메타인지는 모델이 자기 자신에게 “나는 이 문제를 지금 가진 시각 정보와 파라메트릭 지식만으로 해결할 수 있는가?”를 묻는 능력이다. 즉 자기 역량의 경계를 추정하고, 그 경계 안에서는 과감히 직접 답하고, 경계 밖에서는 외부 도구를 전략적으로 부르는 능력이다. 결국 메타인지적 도구 사용은 도구 사용 능력보다 한 단계 위에 있는 도구 사용 판단 능력이라고 볼 수 있다.

Figure 1: 도구 사용 효율과 과제 성능의 관계. 논문은 툴을 많이 쓰는 것과 잘 푸는 것이 동일하지 않음을 시각적으로 보여 준다.

Figure 1은 이 논문의 문제의식을 가장 직관적으로 압축한 그림이다. 기존 에이전트형 모델들은 높은 도구 호출률을 보이지만, 그만큼의 성능 우위를 안정적으로 보여 주지 못한다. 반면 Metis는 훨씬 선택적으로 도구를 쓰면서도 상위권 성능을 만든다. 이 그림이 전달하는 메시지는 간단하지만 강력하다. 도구를 쓰는 행위 자체가 가치가 아니라, 필요할 때만 쓰는 판단이 가치라는 것이다. 제품 관점에서도 이는 매우 중요하다. 실제 서비스에서는 한 번의 응답에서 줄어든 불필요한 툴 호출이 곧 지연시간, 비용, 실패 확률 감소로 이어지기 때문이다.

관찰된 병목	왜 문제가 되는가	논문이 제안한 처방
맹목적 도구 호출	직접 답할 수 있는 문제에서도 외부 호출이 늘어나 지연과 노이즈가 커진다.	정답을 맞힌 궤적 안에서만 효율을 비교하는 조건부 효율 채널을 둔다.
정확도-효율 보상의 혼합	정확하지만 비효율적인 경로와 틀렸지만 효율적인 경로가 비슷한 보상을 받아 학습 신호가 흐려진다.	정확도와 효율 보상을 분리해 각각의 독립 advantage를 계산한다.
도구 사용 시연 데이터의 오염	실행 불가능한 코드나 환각된 관측이 학습되면 환경 접지성이 무너진다.	샌드박스 재실행, pass@8 필터, 다차원 판정기로 고품질 궤적만 남긴다.

표로 다시 보면 논문의 기여는 단순하다. 도구를 아예 쓰지 말자가 아니라, 맞는 상황에서만 쓰게 만들자는 것이다. 이 미묘한 차이가 결과적으로 정확도 향상과 효율 향상을 동시에 가능하게 한다는 것이 본문의 핵심 주장이다.

2. 배경 및 관련 연구: 멀티모달 추론의 진화가 왜 메타인지적 도구 선택 문제로 이어졌는가

2.1 멀티모달 대형모델의 확장은 왜 수동 해석에서 능동 상호작용으로 넘어갔는가

관련 연구 맥락에서 보면, 이 논문은 먼저 멀티모달 대형모델의 발전선 위에 놓여 있다. 초기 MLLM은 주로 이미지-질문-응답 형태에서 입력을 해석하고 답을 생성하는 수동적 체제에 가까웠다. 이후 Chain-of-Thought와 단계적 추론이 멀티모달 영역에도 확장되면서, 모델은 단순 인식이 아니라 중간 추론 텍스트를 생성하며 더 복잡한 문제를 다루기 시작했다. 최근에는 연속적 시각 표현을 reasoning 과정에 삽입해 공간 추론까지 강화하는 흐름도 있다. 하지만 그럼에도 많은 모델은 여전히 입력 해석기에 머물렀고, 외부 도구를 능동적으로 부르는 행위까지는 충분히 체계화되지 못했다.

에이전트형 멀티모달 모델이 등장하면서 상황은 달라졌다. 이제 시스템은 이미지를 보고 바로 답하는 대신, 잘라 보기, 확대하기, 외부 검색하기, 코드 실행하기 같은 도구 사용을 중간 단계에 삽입한다. 이 전환은 고해상도 문서, 복잡한 차트, 다단계 수학 문제에서 큰 이점을 줬다. 하지만 동시에 의사결정 공간이 폭발적으로 커졌다. 모델은 정답만 생각하면 되는 것이 아니라, 어떤 도구를 언제 얼마나 쓸지까지 함께 최적화해야 한다. 바로 이때부터 성능 문제는 단순 추론 문제가 아니라 행동 정책 문제가 된다.

논문은 기존 연구가 주로 더 강한 도구 자체와 더 긴 상호작용 능력에 집중해 왔다고 지적한다. 반면 도구 사용의 효율성, 더 정확히는 도구를 써야 하는지 말아야 하는지의 자기판단은 상대적으로 덜 다뤄졌다. 이 빈칸이 중요한 이유는 명확하다. 시각 정보만으로 충분한 질문에 이미지 검색이나 코드 실행을 억지로 붙여 봐야 정보가 늘어나는 것이 아니라 불필요한 절차만 길어질 수 있기 때문이다. 따라서 에이전트형 멀티모달 모델의 다음 단계는 단순한 도구 사용 능력 향상이 아니라, 도구 절제 능력의 학습이어야 한다는 것이 이 논문의 배경 주장이다.

2.2 관련 연구와의 차별점은 왜 도구를 잘 쓰는 문제가 아니라 도구를 안 써도 될 때를 아는 문제인가

같은 시기 에이전트 연구와 나란히 놓고 보면 이 논문의 위치가 더 선명해진다. 2604.08401은 제목 그대로 자기감사를 통해 에이전트의 믿음과 행동이 근거를 벗어나지 않도록 관리하려는 흐름에 속한다. 관심사는 내부 추론 궤적이 신뢰할 만한가이다. 반면 이 논문은 그보다 앞선 분기, 즉 애초에 외부 도구를 호출해야 하는가를 묻는다. 따라서 두 연구는 경쟁한다기보다 보완적이다. 하나가 생성된 믿음의 충실성을 다루고, 다른 하나가 행동 선택의 절제를 다룬다.

또한 Self-Guide(2604.03098)는 언어 에이전트가 희소하고 지연된 보상을 다루도록 내부 보상을 공동진화시키는 방향을 제안한다. 이 논문과 만나는 지점은 둘 다 보상 설계를 핵심 학습 변수로 본다는 점이다. 다만 Self-Guide가 장기 언어 에이전트의 내부 지도 신호를 풍부하게 만드는 데 초점이 있다면, HDPO는 정확도와 효율이라는 두 목적의 간섭을 제거하는 데 초점을 둔다. 다시 말해 하나는 보상 자체를 더 잘 만들려는 흐름이고, 다른 하나는 서로 다른 보상 채널을 어떻게 격리해 학습할지를 묻는 흐름이다.

한편 Reflective Context Learning(2604.03189)은 컨텍스트 아티팩트를 학습 대상으로 놓고, 배칭·리플레이·크레딧 할당 같은 최적화 프리미티브를 연구한다. 이 논문과의 접점은 매우 흥미롭다. 둘 다 에이전트 성능 향상을 위해 더 큰 모델만 보지 않고, 에이전트가 스스로를 조정하는 루프를 핵심 연구 대상으로 삼는다. 하지만 RCL이 플레이북과 메모리 같은 컨텍스트 공간의 수정에 집중한다면, Act Wisely는 정책 최적화 자체를 다시 설계한다. 즉 전자는 문맥을 고치는 문제, 후자는 보상을 나누어 학습 신호를 정제하는 문제다.

이 비교를 통해 드러나는 차별점은 명확하다. 이 논문은 메타인지적 도구 중재를 하나의 독립 주제로 세운다. “도구를 쓸 수 있는가”가 아니라 “도구를 써야 하는가”를 묻고, 그 질문을 멀티모달 강화학습 목표식으로 구현한다. 그래서 관련 연구 맥락 속에서도 이 논문은 행동 선택의 절제를 가장 선명한 연구 대상 중 하나로 제시한다고 볼 수 있다.

연구	핵심 질문	이 논문과의 연결점	차이점
2604.08401	내부 추론과 기억은 얼마나 충실한가	에이전트의 자기점검 능력을 강화하려는 흐름이라는 점에서 연결된다.	본 논문은 도구 호출 여부의 메타인지 판단에 더 직접적이다.
Self-Guide 2604.03098	에이전트가 내부 보상을 어떻게 만들 것인가	둘 다 보상 설계를 성능 병목으로 본다.	Self-Guide는 내부 보상 강화, HDPO는 보상 채널 분리에 초점이 있다.
Reflective Context Learning 2604.03189	컨텍스트 공간은 어떻게 최적화되는가	둘 다 에이전트 자기개선의 메커니즘을 연구한다.	RCL은 문맥 수정, 본 논문은 정책 목적함수 재설계가 핵심이다.

이 표는 관련 연구를 단순히 나열하려는 목적이 아니라, 이 논문이 어디에 힘을 주는지 선명하게 보여 주기 위한 것이다. 결론적으로 이 연구의 독창성은 정확도와 효율의 trade-off를 전제로 받아들이지 않고, 그 충돌이 사실은 잘못된 보상 결합에서 생긴다고 본 데 있다.

3. 방법론: HDPO와 Metis가 어떻게 메타인지적 도구 선택을 학습하는가

3.1 문제 정식화와 기존 보상 설계의 한계는 왜 단일 혼합 보상에서 시작되는가

논문은 먼저 멀티모달 정책을 매우 명확하게 정식화한다. 정책은 하나의 프롬프트에 대해 그룹 단위의 여러 롤아웃을 생성하고, 각 롤아웃은 최종 답을 내기 전까지 여러 번의 도구 상호작용을 포함할 수 있다. 여기서 중요한 변수는 각 응답의 정확도와 도구 호출 횟수다. 기존 방식은 이 둘을 한 번에 합쳐 $R_{\mathrm{mix}} = R_{\mathrm{acc}} + \alpha \cdot R_{\mathrm{tool}}$ 같은 형태로 보상을 만든다. 얼핏 보면 간단하지만, 논문은 바로 여기서 학습 신호의 의미가 무너진다고 말한다.

왜냐하면 혼합 보상은 결국 하나의 평균과 하나의 분산으로 정규화되기 때문이다. 그 순간 정확도에서 온 변동과 도구 사용에서 온 변동이 같은 분모 아래 들어간다. 논문은 이를 reward coupling problem이라 부른다. 정확하게 맞혔지만 도구를 많이 쓴 롤아웃과, 틀렸지만 도구를 안 쓴 롤아웃이 수치상 비슷한 위치에 놓이면, 정책은 어떤 행동이 더 가치 있는지 분간하기 어려워진다. 결과적으로 효율 보상은 정확도 보상의 큰 분산에 묻혀 버리고, 툴 남용 억제라는 의도가 정책 경사에서 씻겨 나간다.

저자들은 이 결합 구조가 세 가지 병리를 만든다고 정리한다. 첫째, gradient entanglement다. 두 목적의 경사가 하나의 정규화 구조를 공유하면서 서로의 업데이트 크기를 교란한다. 둘째, semantic ambiguity다. 정답이지만 비효율적인 궤적과 오답이지만 효율적인 궤적이 같은 수치로 뭉개질 수 있다. 셋째, hyperparameter fragility다. 표면적으로는 α 하나를 조절하면 될 것 같지만, 실제 최적화는 데이터 분포에 따라 바뀌는 공분산 구조에 크게 의존해 매우 불안정해진다. 결국 패널티가 너무 세면 필요한 도구까지 억누르고, 너무 약하면 거의 작동하지 않는다.

이 부분이 중요한 이유는 논문이 “도구 패널티를 좀 더 잘 튜닝하자”라고 말하지 않기 때문이다. 오히려 문제 자체가 보상 스칼라화에 있다고 본다. 즉 기존 접근의 한계는 하이퍼파라미터를 못 맞춘 데서 생긴 것이 아니라, 의미가 다른 두 목적을 같은 확률적 기준선으로 정규화한 구조적 결함에서 생겼다는 주장이다. 이 진단이 맞다면 해결책 역시 패널티 계수 수정이 아니라 학습 채널 분리가 되어야 한다.

Figure 2: 혼합 보상 최적화와 HDPO의 대비. 정확도와 효율을 한데 섞는 대신, 논문은 두 목적을 분리해 마지막 손실에서만 결합한다.

Figure 2는 이 논문의 논리적 핵심을 시각적으로 보여 준다. 위쪽의 기존 방식은 정확도와 효율을 하나의 축에 섞으면서 정확하지만 느린 경로와 틀렸지만 빠른 경로를 같은 테이블 위에 놓는다. 반면 아래쪽의 HDPO는 정확도 채널과 효율 채널을 따로 계산한 뒤 마지막 손실에서만 가중 합으로 묶는다. 이 분리가 결국 메타인지적 행동을 만들 수 있다는 것이 저자들의 주장이다.

논문이 수식으로 보여 주는 첫 번째 포인트는, 문제의 핵심이 단순한 패널티 크기 조절이 아니라 정규화 구조에 있다는 점이다. 기존 혼합 보상은 다음처럼 정의된다.

$$R_i^{\mathrm{mix}} = R_i^{\mathrm{acc}} + \alpha \cdot R_i^{\mathrm{tool}}$$

이 자체는 단순해 보이지만, GRPO류 업데이트에 들어가면 그룹 평균과 표준편차를 공유하는 advantage로 바뀐다. 그 순간 도구 효율 신호는 독립적인 최적화 대상이 아니라 정확도 분산에 종속된 잔차처럼 취급된다. 논문은 바로 이 지점을 수학적으로 짚는다. 작은 $\alpha$는 정확도 분산에 묻혀 버리고, 큰 $\alpha$는 필요한 도구 사용까지 억누른다. 즉 잘못된 것은 패널티의 세기가 아니라, 서로 다른 의미를 가진 신호를 같은 통계량으로 정규화한 구조다.

HDPO의 전환점은 효율을 “모든 롤아웃 사이의 우열”이 아니라 “정답인 롤아웃 내부의 우열”로 재정의한다는 데 있다. 본문 표기대로 효율 보상은 정답을 맞힌 궤적에서만 $\frac{1}{T+1}$ 형태로 살아 있고, 효율 advantage는 적어도 두 개 이상의 정답 롤아웃이 있을 때만 계산된다. 따라서 정답을 희생한 절약은 더 이상 보상받지 않는다. 실제 최적화 관점에서 보면 이는 굉장히 중요한 분기다. 느리지만 정답인 경로와 빠르지만 오답인 경로를 같은 축에서 비교하지 않고, 먼저 정답 집합을 만든 뒤 그 내부에서만 효율 경쟁을 붙이는 것이다.

정확도 채널 내부의 설계도 세밀하다. 논문은 정확도 보상을 단순 정답 여부 하나로 두지 않고, 정답 보상 $R^{\mathrm{ans}}$과 형식 보상 $R^{\mathrm{fmt}}$를 $0.9$와 $0.1$ 비중으로 결합한다. 이는 멀티모달 에이전트가 최종 답을 맞히는 것만큼이나, 평가기와 상호작용 가능한 형식으로 응답하는 것도 중요하다는 판단을 반영한다. 또 효율 채널을 활성화하려면 정답 롤아웃이 최소 두 개 이상 있어야 한다는 조건을 두는데, 이 덕분에 비교 대상이 충분하지 않은 배치에서 잘못된 효율 업데이트가 일어나는 것을 막는다. 다시 말해 HDPO는 도구 절제를 공격적으로 밀어붙이는 방식이 아니라, 비교가 성립할 때만 절제 신호를 흘려보내는 보수적 설계를 택한다.

이 구조를 학습 과정으로 읽으면 HDPO의 암묵적 커리큘럼이 더 선명해진다. 초반에는 모델이 정답을 거의 맞히지 못하기 때문에 효율 채널이 사실상 작동하지 않는다. 이 시점의 모델은 우선 정답을 만들 수 있는 추론 사슬을 학습한다. 이후 정답 롤아웃이 늘어나면, 같은 정답 집합 안에서 “어떤 경로가 더 적은 외부 호출로 해결되었는가”가 비교되기 시작한다. 그러면 모델은 뒤늦게 효율을 학습하는 것이 아니라, 정답성을 확보한 상태에서만 효율을 세밀하게 조정하게 된다. 논문이 말하는 메타인지적 절제는 결국 이 2단계 진화에서 나온다.

수식 구성요소	본문 의미	실전 해석
$R_i^{\mathrm{acc}}$	정답성과 형식 준수에 대한 정확도 보상	에이전트가 우선적으로 풀어야 할 최상위 목표를 담당한다.
$R_i^{\mathrm{tool}}$	정답 궤적에서만 유효한 효율 보상	빠르지만 틀린 경로를 효율적인 행동으로 오인하지 않게 만든다.
$\mathcal{Q}$	정답을 맞힌 롤아웃들의 qualifying set	효율 비교의 기준집합을 정답 내부로 제한한다.
$w_{\mathrm{acc}}, w_{\mathrm{tool}}$	최종 손실 결합 가중치	정답 우선 원칙은 유지하면서 절제 학습의 강도를 조절한다.

항목	기존 혼합 보상	HDPO
보상 구조	$R_{\mathrm{mix}} = R_{\mathrm{acc}} + \alpha \cdot R_{\mathrm{tool}}$	R_acc와 R_tool을 별도로 정규화한다.
효율 비교 기준	모든 롤아웃을 한꺼번에 비교	정답을 맞힌 롤아웃끼리만 조건부 비교
대표 병목	경사 간섭, 의미 혼선, 하이퍼파라미터 불안정	채널 분리로 간섭을 줄이고, 효율을 정답 내부의 우열로 재정의
학습 해석	정확도와 효율이 계속 서로 발목을 잡는다.	먼저 맞추고, 그다음 절제하는 커리큘럼이 자연스럽게 생긴다.

3.2 HDPO의 정확도 채널과 효율 채널은 무엇이 다르고 왜 조건부 advantage가 핵심인가

HDPO의 첫 번째 축은 정확도 채널이다. 논문은 정확도 보상을 최종 응답 품질 중심으로 정의하고, 여기에는 정답 여부와 형식 준수가 함께 들어간다. 본문에 따르면 정확도 보상은 답안 정확도와 형식 점수를 0.9 대 0.1로 결합한다. 그리고 이 채널의 advantage는 기존 GRPO처럼 그룹 내 모든 롤아웃을 대상으로 계산한다. 즉 기본적인 목표는 여전히 “문제를 맞혀라”이며, 이는 멀티모달 에이전트의 가장 상위 목표로 유지된다.

두 번째 축이 이 논문의 진짜 핵심인 효율 채널이다. 저자들은 효율 보상을 단순 패널티가 아니라 정답 조건부 보상으로 정의한다. 도구 보상은 맞힌 경우에만 $\frac{1}{T+1}$ 형태로 주어지고, 틀린 롤아웃은 도구를 하나도 안 썼더라도 0점을 받는다. 이것은 매우 중요한 설계다. 왜냐하면 틀린 답을 빨리 내놓는 것은 효율이 아니라 그냥 실패이기 때문이다. 따라서 이 효율 보상은 “아무것도 안 하고 끝내는 편법”을 장려하지 않는다.

그다음 단계에서 논문은 정답을 맞힌 롤아웃들의 집합을 따로 모은다. 본문 표기대로라면 이것이 qualifying set이다. 그리고 효율 advantage는 이 집합 안에서만 계산된다. 즉 정확도 채널이 “누가 맞았는가”를 가르고, 효율 채널은 그 뒤에 “맞은 사람들 중 누가 더 적게 도구를 써서 맞았는가”를 묻는다. 이 구조 덕분에 효율 채널은 정답을 희생한 절약을 절대 보상하지 않는다. 또한 정답 롤아웃이 둘 이상일 때만 비교하므로, 비교 자체가 성립하지 않는 상황에서는 효율 업데이트를 강제로 하지 않는다.

최종 손실은 두 채널의 PPO 스타일 손실을 가중합으로 묶는다. 실험 설정에서 저자들은 w_acc = 1.0, w_tool = 0.15를 사용한다. 여기서 아름다운 점은, 이 방식이 별도 스케줄링 없이도 자연스럽게 암묵적 커리큘럼을 만든다는 것이다. 학습 초기에 정답 궤적이 거의 없으면 효율 채널은 사실상 잠잠하고, 모델은 먼저 문제를 푸는 능력에 집중한다. 이후 정답 궤적이 늘어나면 그때 비로소 효율 채널이 작동해 도구 절제를 학습한다. 논문은 이를 명시적 보상 스케줄 없이 얻어낸 점을 HDPO의 큰 장점으로 제시한다.

Figure 3: Metis의 전체 개요. 시스템은 다중 턴 추론 중 코드 실행, 텍스트 검색, 이미지 검색을 선택적으로 호출한다.

Figure 3은 결과 모델 Metis의 운영 방식을 보여 준다. Metis는 도구를 기본값처럼 붙여 두는 시스템이 아니라, 추론 과정에서 코드 실행, 텍스트 검색, 이미지 검색이 실제로 필요하다고 판단될 때만 이를 사용한다. 결국 HDPO는 단순한 목적식 변경이 아니라, 전략적 도구 중재자를 길러내는 학습 장치로 읽는 편이 더 정확하다.

3.3 Metis를 떠받치는 데이터 정제와 학습 파이프라인은 왜 환경 접지성을 먼저 복구하는 데서 시작되는가

저자들이 매우 신중한 부분은 학습 데이터 정제다. 논문은 수학적으로 좋은 RL 목표가 있어도, 입력 궤적이 오염되어 있으면 정책은 결국 나쁜 습관을 학습한다고 본다. 그래서 SFT 단계에서 먼저 기존 공개 도구 사용 멀티모달 궤적을 모으되, 세 가지 필터를 강하게 적용한다. 첫째는 환각된 환경 동역학 제거다. 코드가 실제로는 실행되지 않는데 성공한 것처럼 기록되거나, 런타임 에러를 무시한 채 정답만 써 놓은 사례를 샌드박스 재실행으로 제거한다. 이는 매우 중요하다. 이런 궤적을 학습하면 모델은 환경과 상호작용하는 법이 아니라 환경 오류를 무시하고도 넘어가는 법을 배울 수 있기 때문이다.

둘째는 진짜 도구 필요성 분리다. 저자들은 기본 모델인 Qwen3-VL-8B로 도구 없이 직접 추론을 수행해 pass@8 = 1인 샘플을 과감하게 제거한다. 이 설계는 논문의 철학을 잘 보여 준다. 과거 약한 모델이 도구를 써야 했던 샘플이라도, 현재의 더 강한 기본 모델이 이미 푼다면 이제 그 예시는 필수 도구 사용의 예가 아니라 구시대적 툴 습관의 예가 된다. 즉 데이터셋 자체가 더 강한 모델 시대에 맞게 다시 정렬되어야 한다는 뜻이다.

셋째는 다차원 메타인지 필터링이다. 논문은 Gemini-3.1-Pro를 자동 판정기로 써서 궤적을 시각 관련성, 추론 일관성, 도구 사용 근거 같은 항목으로 평가한다. 특히 명확한 이미지에 의미 없는 회전 같은 행동은 blind tool invocation의 예로 간주되어 명시적으로 감점된다. 이 부분은 상당히 인상적이다. 많은 연구가 도구 사용 궤적이 있으면 그것을 곧바로 양질 데이터로 가정하지만, 이 논문은 도구를 사용했다는 사실보다 왜 사용했는가를 더 중요하게 다룬다.

RL 단계에서도 데이터 선택은 엄격하다. 저자들은 V-Interaction, Thyme, SenseNova-MARS, DeepEyesV2 등에서 프롬프트를 모은 뒤, 먼저 멀티모달 판정기로 이미지 품질, 질문 명확성, 이미지-텍스트 일치성을 확인한다. 그 후 G = 8 샘플 롤아웃을 통해 너무 쉬운 문제도, 너무 어려운 문제도 제거하고, 오직 pass@8이 0과 1 사이인 샘플만 남긴다. 이 방식은 advantage 분산이 살아 있는 문제만 남긴다는 뜻이며, 결과적으로 RL 신호를 더 유효하게 만든다. 최종 RL 세트는 약 5천 개 프롬프트로, 지각 관련 45%, 검색 지향 36%, 수학 및 일반 추론 19% 비중을 가진다.

단계	구체적 작업	의도
SFT 필터 1	샌드박스 재실행으로 비실행 코드와 환각 관측 제거	환경과의 상호작용을 실제 가능성에 맞춘다.
SFT 필터 2	pass@8 = 1 샘플 제거	도구가 없어도 푸는 문제를 남겨 두지 않아 툴 남용 습관을 줄인다.
SFT 필터 3	Gemini-3.1-Pro 기반 메타인지 품질 판정	도구 사용 근거가 빈약한 궤적을 배제한다.
RL 필터 1	이미지 품질과 질의 명확성 검증	보상 자체가 노이즈에 물들지 않도록 한다.
RL 필터 2	pass@8 ∈ (0, 1)인 샘플만 유지	학습에 필요한 비자명한 분산을 확보한다.

정리하면, 이 논문은 보상함수만 잘 만든 것이 아니라 메타인지적 도구 사용을 시연하는 데이터가 무엇인지부터 다시 정의한다. 그래서 HDPO와 데이터 정제는 별개 부품이 아니라 함께 움직이는 한 시스템으로 보는 편이 맞다.

여기서 특히 주목할 부분은 SFT와 RL 데이터가 서로 다른 이유로 정제된다는 점이다. SFT 단계는 “올바른 도구 사용 습관을 보여 주는 예시”를 만드는 데 집중한다. 그래서 비실행 코드, 환각된 관측, 불필요한 호출 같은 나쁜 시연을 제거하는 것이 핵심이다. 반면 RL 단계는 “학습 신호가 살아 있는 문제”를 고르는 데 더 집중한다. pass@8이 항상 0이거나 항상 1인 문제는 정책을 구분하기 어렵기 때문에 제외하고, 오직 정답과 오답이 함께 나올 수 있는 경계 영역의 문제만 남긴다. 이 차이는 매우 중요하다. 전자는 정책의 시작점을 안정화하고, 후자는 정책의 개선 방향을 선명하게 만든다.

또한 논문은 데이터 정제 자체를 메타인지 훈련의 일부로 본다. 예를 들어 base model이 직접 추론만으로 이미 풀 수 있는 샘플을 제거하는 과정은, 사실상 “이 문제는 더 이상 외부 도구가 필수적이지 않다”는 재판정이다. 이는 모델이 강해질수록 데이터셋도 함께 강해져야 한다는 주장으로 읽힌다. 과거 모델에게는 어려웠던 문제가 오늘의 백본에게는 쉬울 수 있기 때문이다. 그 상태에서 예전 도구 사용 시연을 계속 남겨 두면, 새 모델은 불필요한 호출 습관을 다시 학습할 수 있다.

즉 Act Wisely는 도구 사용을 늘리는 데이터셋을 더 모으는 방식이 아니라, 도구가 정말 필요한 사례만 남기는 방향으로 학습 분포를 다시 설계한다. 이 점은 후반 실험 해석과도 직접 연결된다. Metis의 성능은 좋은 목적식 하나의 결과가 아니라, 도구 사용이 실제로 필요한 문제만으로 policy improvement를 수행한 결과이기도 하다.

논문이 Appendix에서 공개한 system prompt도 같은 철학을 반복 확인시켜 준다. 프롬프트는 사용 가능한 도구의 이름과 호출 형식을 알려 주는 데서 끝나지 않고, “직접 답할 수 있으면 곧바로 답하라”, “도구는 genuinely useful information을 줄 때만 호출하라”는 규범을 명시한다. 중요한 것은 이 지시가 단순한 운영 메모가 아니라, SFT 예시와 RL 보상 설계를 통해 실제로 강화된다는 점이다. 많은 에이전트 시스템이 프롬프트에만 절제 규칙을 적어 두고 끝나는 반면, Metis는 프롬프트 규칙과 목적함수 설계가 서로를 지지하는 구조를 택한다.

시스템 프롬프트 요소	역할	HDPO와의 연결
도구 목록과 호출 형식	코드 실행·텍스트 검색·이미지 검색의 사용법을 명시한다.	정책이 어떤 행동 공간 안에서 최적화되는지 분명히 만든다.
직접 답변 우선 규칙	내부 지식과 시각 문맥만으로 충분하면 즉답하도록 유도한다.	정답 내부의 효율 경쟁이 실제 행동 습관으로 굳어지게 돕는다.
유용성 기반 호출 원칙	도구가 genuinely useful information을 줄 때만 호출한다.	불필요한 툴 호출을 줄이려는 효율 채널의 목표와 정렬된다.

4. 실험 설정: 어떤 데이터와 어떤 비교군으로 HDPO의 주장을 검증했는가

4.1 실험 벤치마크 구성은 왜 지각·문서 이해와 수학·논리 추론을 모두 포함해야 했는가

논문은 평가를 크게 두 묶음으로 나눈다. 첫째는 지각 및 문서 이해로, V*Bench, HRBench-4K, HRBench-8K, TreeBench, MME-RealWorld, SEEDBench2-Plus, CharXiv의 descriptive question과 reasoning question이 포함된다. 이 그룹은 고해상도 시각 정보, 문서 구조 이해, 차트와 표 해석처럼 시각 세부를 얼마나 정교하게 다루는가를 시험한다. 여기서는 이미지 확대, 잘라 보기, 외부 시각 검색이 특히 큰 역할을 할 수 있다.

둘째는 수학 및 논리 추론 그룹으로, MathVista mini, MathVerse mini, WeMath, DynaMath, LogicVista가 포함된다. 이 묶음은 단순 시각 해석을 넘어 기호 조작, 정답 계산, 논리적 비교가 중요하다. 저자들이 여기서 강조하는 포인트는, 도구 사용 효율이 단순한 비용 절감이 아니라 정확도 향상의 촉매가 될 수 있다는 것이다. 특히 코드 실행이 진짜 필요한 순간에만 호출될수록, 불필요한 우회 없이 계산 중심 추론에 집중할 수 있다.

이 평가 구성이 좋은 이유는, HDPO가 특정 유형의 도구 하나에만 최적화된 기법이 아님을 보여 주기 때문이다. 이미지 세부 확대가 필요한 과제, 외부 사실 검색이 필요한 과제, 그리고 계산 정확성이 중요한 과제를 함께 다루기 때문에, 논문의 주장은 보다 넓은 범위에서 검증된다. 즉 도구 절제가 단지 이미지 검색을 덜 쓰는 습관이 아니라, 멀티모달 에이전트 전반의 의사결정 정책이라는 점이 드러난다.

벤치마크 묶음	대표 데이터셋	주로 검증하는 능력	도구 사용과의 관계
고해상도 지각	V*Bench, HRBench-4K, HRBench-8K	세부 영역 판독, 공간적 디테일 해석	코드 실행을 통한 crop·zoom이 언제 필요한지 판단해야 한다.
문서·차트 이해	TreeBench, CharXiv, SEEDBench2-Plus	문서 구조, 표·차트 reasoning, 설명 질의	보이는 정보만으로 충분한지, 추가 분석이 필요한지 구분해야 한다.
외부 사실 결합	MME-RealWorld	시각 식별과 외부 사실 지식 결합	텍스트 검색이나 이미지 검색이 진짜 필요한 순간을 판정해야 한다.
계산·논리 추론	MathVista mini, MathVerse mini, WeMath, DynaMath, LogicVista	계산 정확도, 기호 추론, 다단계 논리	코드 실행을 정말 필요한 순간에만 호출해야 성능과 효율을 함께 잡을 수 있다.

이 표에서 보듯, 저자들은 도구 절제를 하나의 응용 도메인에 가둬 두지 않는다. 예컨대 HRBench류는 시각 세부를 더 얻기 위한 국소 확대가 중요하고, MME-RealWorld는 시각 인식 이후의 외부 사실 회수가 중요하며, WeMath는 계산 과정 자체를 기계적으로 검산할 수 있는 코드 실행이 중요하다. HDPO가 여러 영역에서 유효하다는 것은, 이 기법이 특정 툴 하나의 사용법이 아니라 도구 호출 전반의 의사결정 구조를 개선한다는 뜻이다.

또한 평가군을 이렇게 넓게 구성했기 때문에, 논문은 “도구를 덜 쓰면 당연히 쉬운 데이터셋에서만 좋아진다”는 반론을 피한다. 오히려 가장 설득력 있는 개선은 고해상도 문서와 수학 reasoning처럼, 잘못된 도구 호출이 곧바로 성능 저하로 이어질 수 있는 과제에서 나온다. 이는 HDPO의 효율 채널이 단순 절약 장치가 아니라 성능 향상을 유도하는 구조적 규제로 작동했음을 시사한다.

여기에 RL 학습용 프롬프트 분포가 지각 45%, 검색 36%, 수학·일반 추론 19%로 구성된다는 점을 함께 보면, 저자들이 실제로 어떤 병목을 겨냥했는지도 드러난다. 가장 큰 비중이 시각적 세부와 정보 부족 사이의 경계 문제이고, 그다음이 외부 검색 필요성 판정이다. 순수 수학 비중이 상대적으로 작은데도 reasoning 개선이 크게 나타난다는 사실은, HDPO의 효과가 단순히 수학 데이터에 과적합된 것이 아니라 여러 유형의 도구 판단 경험이 reasoning 능력 전체를 함께 밀어 올렸기 때문일 가능성을 시사한다.

특히 검색 지향 프롬프트가 36%를 차지한다는 점은 이 논문의 문제의식과 정확히 맞물린다. Metis가 배우려는 것은 “검색을 잘하는 법”이 아니라 “검색을 해야 하는지를 판별하는 법”이기 때문이다. 시각 인식만으로 충분한 문제에서 검색이 끼어들면 노이즈가 되고, 반대로 외부 사실 확인이 필요한 문제에서 검색을 생략하면 정답성이 무너진다. 따라서 이 비중은 단순 데이터 통계가 아니라, HDPO가 겨냥하는 메타인지적 병목의 분포를 보여 주는 지표로 읽을 수 있다.

4.2 구현 세부와 학습 예산은 왜 강한 백본 위에서의 정책 개선이라는 해석을 가능하게 하는가

백본 모델은 Qwen3-VL-8B-Instruct다. 학습은 두 단계로 진행된다. 먼저 SFT에서 2 epoch를 수행하고, AdamW와 cosine learning rate decay를 사용하며, 피크 학습률은 1 × 10의 마이너스 5승, 글로벌 배치 크기는 128이다. 이후 RL 단계에서 HDPO를 적용하는데, 이때도 배치 크기 128을 유지하고 프롬프트당 G = 16 롤아웃을 샘플링한다. RL 학습률은 1 × 10의 마이너스 6승이며, KL 패널티 계수는 0으로 두어 더 넓은 탐색을 허용한다.

응답 길이는 최대 16,384 토큰으로 설정되어 복잡한 다중 턴 도구 상호작용을 담을 수 있게 했다. 또한 손실 가중치는 w_acc = 1.0, w_tool = 0.15다. 이 설정은 뒤의 ablation에서 가장 좋은 균형으로 확인된다. 하드웨어는 NVIDIA Blackwell B200 GPU 8장 서버다. 이 정보는 단순한 부록이 아니라, 논문이 제안한 방법이 “초대형 폐쇄형 모델만 가능한 요령”이 아니라 8B급 공개 백본 위에서도 유의미한 정책 개선을 만든다는 점을 보여 준다.

비교군도 꽤 강하다. 비도구 오픈소스 모델로는 LLaVA-OneVision, InternVL3-8B, Qwen2.5-VL-7B, Qwen2.5-VL-32B, Qwen3-VL-8B가 포함되고, 텍스트 중심 reasoning 모델로는 MM-Eureka, ThinkLite-VL, VL-Rethinker, VLAA-Thinker가 들어간다. 에이전트형 비교군에는 Pixel-Reasoner, DeepEyes, Thyme, DeepEyesV2, Mini o3, Skywork-R1V4-30B-A3B, SenseNova-MARS-8B 등이 포함된다. 따라서 Metis의 성과는 약한 기준선 위의 착시가 아니라, 꽤 강한 동시대 공개 모델들과의 경쟁 속에서 나온 결과로 읽어야 한다.

구현 세부에서 흥미로운 부분은 KL 계수를 0으로 두었다는 점이다. 일반적으로 RLHF나 GRPO 계열에서는 참조 정책으로부터 너무 멀어지는 것을 막기 위해 KL 패널티를 둔다. 하지만 이 논문은 이미 강하게 정제된 데이터와 분리된 목적함수를 바탕으로, 오히려 더 넓은 정책 탐색을 허용하는 편이 메타인지적 행동 학습에 유리하다고 본다. 이것은 다소 공격적인 선택이지만, Metis가 단순히 기존 툴 습관을 미세조정한 모델이 아니라 도구 호출 규칙 자체를 다시 배우는 모델임을 보여 주는 힌트이기도 하다.

여기에 최대 응답 길이 16,384 토큰과 8 × B200이라는 설정을 함께 보면, 논문이 상정한 에이전트 상호작용의 길이와 복잡도도 짐작할 수 있다. Metis는 한두 번의 짧은 툴 호출만 흉내 내는 모델이 아니라, 필요하면 다중 턴 추론과 중간 도구 출력까지 소화하는 정책을 학습한다. 그럼에도 최종 메시지가 “더 길게 생각하라”가 아니라 “불필요한 단계는 제거하라”인 점이 이 연구의 핵심이다. 즉 긴 문맥 창은 더 많은 툴을 쓰기 위한 여유가 아니라, 정말 필요한 단계만 남기기 위해 충분한 비교 공간을 확보하는 장치로 기능한다.

학습 단계	주요 설정	의미
SFT	2 epoch, AdamW, cosine decay, lr 1e-5, batch 128	도구 호출의 기본 문법과 합리적 습관을 안정적으로 심는다.
RL rollout	prompt당 G = 16, max length 16,384	정답과 오답, 과도한 툴 사용과 절제된 사용이 함께 나타날 여지를 만든다.
Loss weighting	$w_{\mathrm{acc}} = 1.0$, $w_{\mathrm{tool}} = 0.15$	정답 우선 원칙을 유지하면서도 절제를 학습시킨다.
Policy freedom	KL coefficient 0	기존 참조 정책의 툴 습관에서 더 과감히 벗어날 수 있게 한다.

항목	설정
백본	Qwen3-VL-8B-Instruct
SFT	2 epoch, AdamW, cosine decay, lr 1e-5, batch 128
RL	HDPO, batch 128, G = 16, lr 1e-6, KL 0
최대 응답 길이	16,384 tokens
손실 가중치	w_acc = 1.0, w_tool = 0.15
RL 데이터	약 5K 프롬프트, 지각 45%, 검색 36%, 수학·일반 추론 19%
연산 자원	8 × NVIDIA Blackwell B200

4.3 비교 기준은 왜 정확도만이 아니라 도구 전략의 질까지 함께 해석해야 하는가

실험 설계에서 중요한 부분은, 저자들이 결과를 단순 leaderboard로만 읽지 않는다는 점이다. 본문은 도구 사용이 가능한 에이전트와 그렇지 않은 모델을 함께 비교하면서도, 최종 해석의 중심을 도구 전략의 질에 둔다. 예컨대 어떤 비교군이 특정 벤치마크에서 높은 점수를 내더라도, 그것이 훨씬 높은 도구 호출률과 더 긴 상호작용을 대가로 얻은 것이라면 실용성이 달라진다. 이 논문은 바로 이 부분에서 성능 대 효율을 한 화면에 놓고 읽는 시각을 제안한다.

또한 논문은 Metis가 모든 개별 지표에서 절대적인 1등이라는 식으로 과장하지 않는다. 실제로 V*Bench에서는 SenseNova-MARS-8B의 92.2가 Metis 91.1보다 높다. 그러나 HRBench-4K, HRBench-8K, TreeBench, CharXiv reasoning question처럼 고해상도 분석과 복잡 문서 추론이 중요한 벤치마크에서는 Metis가 훨씬 설득력 있는 우위를 보인다. 따라서 이 논문을 읽을 때는 평균적 우세 여부보다 어떤 종류의 난제를 더 잘 푸는가에 주목하는 편이 적절하다.

결국 비교의 핵심은 이렇다. 강한 백본 Qwen3-VL-8B 자체도 이미 상당한 시각 추론 능력을 갖고 있다. 그런데 HDPO와 데이터 정제를 거친 Metis가 그 위에서 추가 개선을 만든다면, 그 차이는 대부분 도구를 언제 어떻게 쓸지에 대한 정책 품질에서 왔다고 보는 것이 합리적이다. 그래서 이 실험은 “새 모델이 더 크다”가 아니라, 같은 급의 모델이라도 더 영리한 도구 중재 정책을 배우면 성능이 올라간다는 점을 입증하는 실험으로 읽힌다.

비교군 유형	대표 모델	왜 중요한 비교인가
비도구 오픈소스 MLLM	LLaVA-OneVision, InternVL3-8B, Qwen2.5-VL-7B/32B, Qwen3-VL-8B	도구 없이도 강한 백본과 비교해, 도구 중재 정책이 가져오는 추가 이득을 분리해 볼 수 있다.
텍스트 중심 reasoning 모델	MM-Eureka, ThinkLite-VL, VL-Rethinker, VLAA-Thinker	사고 사슬 강화만으로는 부족하고, 실제 환경 상호작용 판단이 별도 병목인지 볼 수 있다.
에이전트형 멀티모달 모델	Pixel-Reasoner, DeepEyes, Thyme, DeepEyesV2, Mini o3, SenseNova-MARS, Skywork-R1V4	같은 문제를 실제로 도구와 함께 푸는 모델과 비교해, HDPO의 정책 설계 차이를 검증할 수 있다.

이 구성은 공정성 면에서도 의미가 있다. 논문은 거대한 폐쇄형 상용 모델만을 약한 형태로 흉내 낸 것이 아니라, 실제로 도구를 쓰는 에이전트들과도 정면 비교한다. 특히 DeepEyesV2, SenseNova-MARS, Skywork-R1V4 같은 비교군은 각기 다른 방식으로 고해상도 인식이나 reasoning을 강화한 모델들이다. Metis가 이들 사이에서 강한 결과를 보인다면, 이는 단순히 “도구를 붙였다”가 아니라 도구 사용의 타이밍과 종류를 더 정교하게 고른다는 의미를 갖는다.

또 하나 중요한 점은, Metis가 강한 성능을 보이는 구간이 대체로 결정 지점이 많은 과제라는 사실이다. 고해상도 분석, 차트 reasoning, 수학·논리 추론은 모두 “지금 직접 답할지, 조금 더 보강할지, 계산기로 넘길지”를 계속 결정해야 하는 영역이다. 따라서 이 비교 결과는 HDPO가 정답 그 자체보다 정답에 도달하는 경로 선택을 개선했다는 해석과 잘 맞는다.

5. 주요 실험 결과: HDPO는 실제로 어떤 벤치마크에서 무엇을 바꾸었는가

5.1 지각·문서 이해 결과는 왜 Metis가 특히 고해상도와 복잡 문서 과제에서 강하다는 사실을 보여 주는가

Table 1 결과를 보면 Metis는 시각 지각과 문서 이해 전반에서 Qwen3-VL-8B 백본을 안정적으로 상회한다. V*Bench는 86.4에서 91.1로, HRBench-4K는 78.9에서 83.5로, HRBench-8K는 74.6에서 82.0으로 오른다. 터미널 계산 기준으로 백본 대비 향상 폭은 각각 4.7점, 4.6점, 7.4점이다. 특히 HRBench-8K의 증분은 크다. 이는 고해상도 장면에서 필요한 순간에만 확대나 도구 분석을 부르는 전략이 유효하다는 해석과 잘 맞는다.

더 흥미로운 지점은 복잡 문서와 차트 질문에서의 개선이다. TreeBench는 40.7에서 45.2로, CharXiv descriptive question은 83.0에서 83.4로, CharXiv reasoning question은 46.3에서 54.1로 오른다. 그중 CharXiv reasoning question은 백본 대비 7.8점 상승으로 가장 두드러진다. 이는 단순 정보 추출보다 더 복잡한 구조적 해석이 필요한 영역에서, Metis가 무조건 검색하지 않고 필요할 때만 시야를 재구성하거나 외부 단서를 추가하는 방식으로 추론을 정교화했음을 시사한다.

비교군 대비 우위도 주목할 만하다. HRBench-8K에서는 Skywork-R1V4-30B-A3B의 79.8보다 Metis가 2.2점 높고, CharXiv reasoning question에서는 DeepEyesV2의 48.9보다 5.2점 높다. TreeBench 역시 기존 최고권 42.5를 45.2로 넘어선다. 즉 Metis의 장점은 단순 백본 개선이 아니라, 고해상도 분석이 필요한 순간에만 세밀한 도구 조작을 실행하는 정책이 실제 점수로 연결된다는 점에 있다.

물론 이 결과를 “모든 시각 벤치마크에서 무조건 최고”로 읽으면 과장이다. V*Bench에서는 SenseNova-MARS-8B가 더 높다. 하지만 논문이 정말 설득력 있는 곳은 오히려 툴 사용 판단이 어려운 벤치마크다. 해상도가 높고, 문서 구조가 복잡하고, 어디를 확대해야 할지 스스로 결정해야 하는 과제에서 Metis가 보여 주는 일관된 강세는, HDPO가 단순 패널티 학습이 아니라 도구 선택 정책을 정교화하는 방법임을 뒷받침한다.

지표	Qwen3-VL-8B	Metis	차이
MME-RealWorld	61.9	70.3	+8.4
SEEDBench2-Plus	71.0	72.5	+1.5
CharXiv descriptive question	83.0	83.4	+0.4
CharXiv reasoning question	46.3	54.1	+7.8

이 추가 표를 보면 정답 개선의 성격이 더 입체적으로 보인다. 설명형 질문인 CharXiv descriptive question에서는 개선 폭이 크지 않다. 이는 원래 백본도 충분히 강하다는 뜻이다. 반면 MME-RealWorld와 CharXiv reasoning question처럼 시각 인식 뒤에 외부 사실 결합이나 구조적 추론이 필요한 항목에서는 개선 폭이 더 크다. 다시 말해 HDPO의 이득은 단순 perception boost가 아니라, 경계 사례에서 어떤 행위를 추가할지 선택하는 능력에서 두드러진다.

또한 TreeBench와 HRBench의 상승을 함께 보면, Metis는 “작은 글씨를 잘 본다” 수준을 넘어 어디를 봐야 하는지 잘 고른다는 쪽에 가깝다. 고해상도 이미지를 그냥 더 오래 보는 것이 아니라, 정말 필요한 순간에만 crop과 확대를 불러온다는 것이 정성 사례와 정량 결과를 함께 통해 확인된다. 이 때문에 저자들이 말하는 tool efficiency는 단순 latency 절감이 아니라, 추론 예산을 더 가치 있는 곳에 배치하는 정책으로 이해하는 편이 맞다.

비교군의 구성을 다시 떠올리면 이 결과는 더욱 의미가 커진다. SenseNova-MARS-8B나 Skywork-R1V4는 이미 강한 시각 reasoning 성능을 갖춘 모델이고, DeepEyesV2는 실제 도구 사용 파이프라인을 갖춘 에이전트다. 그럼에도 Metis가 HRBench-8K, TreeBench, CharXiv reasoning 같은 영역에서 더 높은 점수를 낸다는 것은, 단순히 백본 품질이 아니라 중간 결정을 더 적절하게 내렸기 때문이라고 보는 편이 자연스럽다. 즉 성능 향상이 모델 규모나 사전학습 데이터량이 아니라, 행동 정책의 정교화에서 왔다는 해석이 더 설득력을 얻는다.

수치로만 봐도 그 해석은 꽤 강하다. reasoning 평균에서 Metis는 백본 Qwen3-VL-8B의 59.4를 66.9로 끌어올려 7.5점 차이를 만들고, DeepEyesV2의 53.7과는 13.2점 격차를 낸다. 이는 단일 benchmark의 운 좋은 승리가 아니라, 여러 reasoning 데이터셋에 걸친 일관된 개선이다. 다시 말해 Metis의 장점은 특정 툴 하나를 더 잘 쓰는 데 있지 않고, 툴 호출 자체를 언제 시작해야 하는지에 대한 기준선을 더 잘 세운 데 있다.

이 평균 개선은 모델 평가 관점에서도 의미가 크다. 어떤 방법은 특정 데이터셋에서만 큰 이득을 보이고 다른 데이터셋에서는 손해를 보기도 한다. 하지만 Metis는 WeMath처럼 큰 폭의 상승이 있는 영역을 중심으로, 나머지 reasoning 데이터셋에서도 대체로 손해를 보지 않는다. 즉 HDPO는 하나의 데이터셋 트릭이 아니라, 도구 호출의 기본 전략을 더 일관되게 만든 정책 개선으로 읽힌다. 이 점이 있기 때문에 논문이 주장하는 “tool parsimony as a catalyst for accuracy”라는 문장이 과장처럼 들리지 않는다.

모델	V*Bench	HRBench-4K	HRBench-8K	TreeBench	CharXiv(RQ)
Qwen3-VL-8B-Instruct	86.4	78.9	74.6	40.7	46.3
DeepEyesV2	81.8	77.9	73.8	42.5	48.9
Skywork-R1V4-30B-A3B	88.0	82.8	79.8	-	-
Metis	91.1	83.5	82.0	45.2	54.1

5.2 수학·논리 추론 결과는 왜 도구 절제가 정확도 향상의 촉매라는 논문의 주장을 가장 강하게 뒷받침하는가

Table 2는 이 논문의 가장 인상적인 결과다. Metis는 MathVista mini 78.0, MathVerse mini 65.9, WeMath 65.2, DynaMath 69.2, LogicVista 56.2, 평균 66.9를 기록한다. 백본 Qwen3-VL-8B의 평균 59.4보다 7.5점 높다. 무엇보다 모든 개별 reasoning 데이터셋에서 listed 모델 중 최고 점수를 보인다는 점이 강하다. 이는 단순히 툴 호출을 줄였다는 주장보다 더 중요하다. 잘 절제된 툴 사용이 오히려 계산과 논리를 더 정확하게 만든다는 뜻이기 때문이다.

특히 WeMath는 인상적이다. 백본 38.8에서 Metis 65.2로 올라 26.4점 상승했고, DeepEyesV2의 38.1과 비교하면 27.1점 높다. 이는 툴 사용을 줄였기 때문에 정확도가 오른다는 논문의 메시지를 가장 극적으로 보여 준다. 불필요한 도구 호출이 줄어들면, 정말 필요한 순간의 코드 실행이 더 선명한 역할을 맡고, 모델의 핵심 추론 체인이 외부 잡음에 덜 흔들리게 된다. 저자들이 “전략적 tool parsimony가 accuracy의 catalyst”라고 말하는 이유가 여기에 있다.

MathVerse mini에서도 61.3에서 65.9로 4.6점 상승하고, DynaMath는 65.5에서 69.2로 3.7점 오른다. LogicVista도 54.9에서 56.2로 올라간다. 개선폭이 데이터셋마다 다르다는 점도 자연스럽다. 어떤 문제는 직접 시각 해석만으로 풀 수 있지만, 어떤 문제는 코드 실행이 반드시 필요하고, 어떤 문제는 중간에 외부 검색보다 조용한 내부 계산이 더 중요하다. HDPO는 სწორედ 이 다양성 속에서 도구 호출 여부를 균일한 습관이 아니라 상황별 정책으로 만든다.

이 대목이 특히 중요한 이유는 많은 에이전트 연구가 “도구를 붙였더니 좋아졌다”에서 멈추는 반면, 이 논문은 한 걸음 더 나아가 “도구를 덜 쓰게 했더니 더 좋아졌다”를 보였기 때문이다. 이는 도구를 부정하는 결과가 아니다. 오히려 도구가 강력할수록 더더욱 언제 부를지의 선택이 중요하다는 뜻이다. 다시 말해 Metis의 성과는 도구 능력의 강화라기보다 도구 호출 정책의 정제에서 나온 결과라고 읽는 편이 정확하다.

모델	MathVista mini	MathVerse mini	WeMath	DynaMath	LogicVista	평균
Qwen3-VL-8B-Instruct	76.3	61.3	38.8	65.5	54.9	59.4
DeepEyesV2	71.9	52.7	38.1	57.2	48.7	53.7
Metis	78.0	65.9	65.2	69.2	56.2	66.9

정량 결과를 한 줄로 줄이면 이렇다. Metis는 지각과 문서 이해에서 강한 상위권, 수학과 논리 추론에서는 매우 강한 선도권을 보인다. 그리고 그 중심에는 언제든 도구를 부르는 습관이 아니라, 도구를 아껴서 더 정확해지는 정책이 놓여 있다.

지표	Qwen3-VL-8B	Metis	차이
MathVista mini	76.3	78.0	+1.7
MathVerse mini	61.3	65.9	+4.6
WeMath	38.8	65.2	+26.4
DynaMath	65.5	69.2	+3.7
LogicVista	54.9	56.2	+1.3

이 표를 보면 reasoning 계열 개선은 균일하지 않다. 가장 극적인 이득은 WeMath이며, 이는 시각 정보 해석과 계산 행위가 함께 필요한 복합 상황에서 HDPO가 특히 강함을 보여 준다. 반면 LogicVista나 MathVista mini에서는 향상 폭이 상대적으로 작다. 이는 백본이 이미 강하다는 의미이기도 하고, 모든 문제에서 적극적인 툴 절제가 같은 크기의 이득으로 이어지는 것은 아니라는 뜻이기도 하다. 그럼에도 평균 개선이 안정적으로 유지된다는 점이 중요하다.

또 하나의 해석 포인트는, reasoning 개선이 단순히 코드 실행을 더 많이 사용한 결과가 아니라는 점이다. 본문의 정성 사례와 서론의 98%→2% 예시는 오히려 그 반대 방향을 가리킨다. 즉 Metis는 필요한 문제에서는 코드 실행을 확실히 쓰고, 필요 없는 문제에서는 조용히 직접 답한다. 이 선택적 사용이 계산 도구의 가치를 더 크게 만든다. 결과적으로 HDPO는 툴을 줄이는 정책이 아니라, 잘못된 툴 사용을 줄여 올바른 툴 사용의 신호 대 잡음비를 높이는 정책으로 이해할 수 있다.

특히 MathVerse mini와 DynaMath의 상승을 함께 보면, HDPO의 이득은 계산기를 덜 부르는 것이 아니라 계산기가 진짜 필요한 단계만 남기는 것에 가깝다. 시각 질문을 읽는 단계에서는 내부 추론으로 충분한데도 도구를 조기 호출하면, 오히려 파싱 오류나 중간 정보 오염이 생길 수 있다. 반대로 문제 핵심이 수치 비교나 식 계산으로 넘어가는 순간에는 코드 실행이 매우 높은 가치를 가진다. Metis는 이 전환 지점을 더 잘 배우기 때문에 reasoning 평균이 안정적으로 오른다.

6. 추가 분석 및 Ablation Study: HDPO의 어떤 요소가 실제로 작동했고 어떤 균형점이 중요했는가

6.1 목표 분리와 도구 가중치 조정은 왜 0.15 부근에서 가장 자연스러운 메타인지 균형을 만들었는가

Ablation 결과는 이 논문의 주장에 꽤 직접적인 증거를 제공한다. 우선 w_tool = 0으로 두면 HDPO는 사실상 표준 GRPO가 된다. 이때도 RL 자체의 효과로 기본 백본보다 성능이 오른다. 예를 들어 V*Bench는 86.4에서 88.7로, HRBench-8K는 74.6에서 79.2로, CharXiv reasoning question은 46.3에서 51.0으로 올라간다. 즉 RL 자체는 분명 가치가 있다. 그러나 저자들이 보여 주는 포인트는 여기서 끝나지 않는다. 도구 효율 채널을 분리해서 넣으면, 같은 RL이라도 더 높은 성능 천장이 열린다는 것이다.

가장 좋은 설정인 w_tool = 0.15에서는 V*Bench가 91.1, HRBench-4K가 83.5, HRBench-8K가 82.0, CharXiv reasoning question이 54.1, MathVista mini가 78.0이 된다. 논문 본문이 직접 강조하듯, 이는 표준 GRPO 대비 V*Bench +2.4점, HRBench-8K +2.8점, CharXiv reasoning question +3.1점 개선이다. 즉 효율 채널은 정확도를 잠식하지 않고, 오히려 정확도를 더 밀어 올리는 방향으로 작동한다.

반대로 효율 가중치가 너무 약한 0.10이면 개선은 있지만 최적은 아니다. 효율 신호가 충분히 강하지 않아 blind tool invocation을 완전히 누르지 못한다는 해석이 가능하다. 또 너무 강한 0.20에서는 전 지표가 다시 떨어진다. 이는 저자들이 말한 대로, 도구 절제를 지나치게 강조하면 모델이 필요한 순간에도 툴 사용을 주저하는 과보수적 정책으로 기울기 때문이다. 결국 그래프는 전형적인 역 U자형을 보이고, 그 정점 근처가 0.15다.

이 결과는 이 논문의 철학과도 잘 맞는다. 목표는 “도구를 가능한 적게 써라”가 아니라 “정답을 해치지 않는 범위에서 도구를 현명하게 아껴라”다. 그래서 0.15라는 값은 단순한 튜닝 결과 이상의 의미를 갖는다. 정답 우선이라는 축을 유지하면서도, 정답을 맞힌 뒤에는 불필요한 외부 의존을 줄이게 하는 메타인지 균형점으로 읽을 수 있다.

설정	V*Bench	HRBench-4K	HRBench-8K	CharXiv(RQ)	MathVista mini
Qwen3-VL-8B-Instruct	86.4	78.9	74.6	46.3	76.3
+ standard GRPO, w_tool = 0	88.7	81.0	79.2	51.0	76.9
+ HDPO, w_tool = 0.10	88.0	83.5	81.0	52.7	77.4
+ HDPO, w_tool = 0.15	91.1	83.5	82.0	54.1	78.0
+ HDPO, w_tool = 0.20	87.4	82.5	80.5	51.5	77.2

결국 ablation의 메시지는 한 줄이다. 효율 목표는 부가 기능이 아니라 핵심 목표지만, 정답보다 앞설 수는 없다. HDPO는 이 균형을 수학적으로 표현하고, 실험은 그 균형점이 실제로 존재함을 보여 준다.

이 결과를 목적식 수준으로 다시 읽어 보면, $w_{\mathrm{tool}}$는 단순한 규제 강도가 아니라 모델이 “정답 내부의 우열”을 얼마나 민감하게 구분할지 정하는 손잡이처럼 작동한다. 값이 너무 작으면, 효율 채널은 존재하더라도 학습 후반에만 약하게 드러난다. 값이 너무 크면, 모델은 정답을 찾기 위한 적극적 탐색보다 불필요한 호출 회피 자체를 더 중요한 것으로 받아들이기 쉽다. 따라서 0.15 부근의 최적점은 우연한 숫자라기보다, 정답성 우선과 절제 학습이 공존하는 좁은 지역을 반영한다고 볼 수 있다.

이 점은 실제 시스템 설계에도 시사점이 크다. 서비스형 에이전트는 흔히 “안전하게 더 많이 확인하라”와 “빠르게 끝내라” 사이에서 흔들린다. HDPO의 ablation은 이 갈등을 하나의 슬로건이 아니라 측정 가능한 목적함수로 내려놓는다. 어떤 수준까지는 절제가 정확도를 높이고, 그 선을 넘으면 절제가 다시 정확도를 해친다. 즉 절제는 미덕이지만, 정답성을 침식하는 절제는 좋은 전략이 아니다. 이 균형감이 바로 논문이 말하는 메타인지의 핵심이라고 볼 수 있다.

6.2 메타인지적 도구 중재 사례는 왜 Metis가 단순 절약형 모델이 아니라 상황판단형 모델임을 보여 주는가

논문의 후반 qualitative analysis가 중요한 이유는, 정량 결과만으로는 “Metis가 단지 도구 호출 자체를 싫어하도록 학습된 것 아닌가”라는 의심을 완전히 지우기 어렵기 때문이다. 하지만 사례 분석을 보면 Metis는 일괄적으로 툴을 회피하지 않는다. 오히려 문제의 불확실성이 어디에 있는지를 구분해, 시각 해상도의 문제인지, 외부 사실 지식의 문제인지, 내부 추론만으로 충분한 문제인지를 나눠 본다. 이 구분이 가능해야만 코드 실행·이미지 검색·텍스트 검색이 서로 다른 역할을 갖는다.

부록의 시스템 프롬프트 설명도 이 해석을 강화한다. Metis는 툴을 사용할 수 있다는 사실만 배우는 것이 아니라, “직접 답할 수 있으면 먼저 직접 답하라”, “외부 도구가 genuinely useful information을 줄 때만 호출하라”는 운영 원칙을 함께 학습한다. 중요한 것은 이 지침이 단순한 추론 규칙으로 끝나지 않고, HDPO를 통해 실제 policy gradient의 대상이 된다는 점이다. 다시 말해 prompt-level guideline과 objective-level incentive가 같은 방향을 가리킬 때, 비로소 메타인지적 절제가 행동 패턴으로 굳어진다.

Figure 4와 Figure 6은 시각 문맥만으로 충분한 문제에서 직접 답하는 사례다. 여기서 Metis는 도구를 안 쓰는 것이 아니라, 도구를 쓸 이유가 없음을 판정한다. Figure 5는 반대로 원본 이미지 해상도로는 구분이 어려운 국소 세부를 판별하기 위해 코드 실행을 호출한다. Figure 7과 Figure 8은 더 흥미롭다. 하나는 외부 시각 참조가 필요한 작품 식별 문제이고, 다른 하나는 대상은 식별했지만 정확한 수치 사실은 외부 지식에서 찾아야 하는 문제다. 즉 Metis는 도구 사용 여부뿐 아니라 어느 도구가 적합한지까지 구분한다.

이 사례들은 메타인지를 막연한 자기반성으로 보지 않게 해 준다. 여기서 메타인지는 “나는 지금 무엇을 모르는가”를 유형별로 나누는 능력이다. 시각 해상도 부족이면 코드 실행이나 확대가 맞고, 대상 식별 불확실성이면 이미지 검색이 맞고, 외부 사실 지식의 부재이면 텍스트 검색이 맞다. 반대로 어느 유형에도 해당하지 않는다면 직접 답해야 한다. 논문이 보여 주는 가장 설득력 있는 메시지는, 바로 이 유형 구분이 학습될 수 있다는 점이다.

이 구분 능력은 앞으로의 에이전트 연구에서 꽤 중요한 기준이 될 가능성이 높다. 많은 시스템이 현재는 “도구를 쓸 수 있다”는 사실만으로 에이전트성을 주장하지만, 실제 운영 품질은 도구를 서로 다른 epistemic gap에 맞춰 호출할 수 있는가에서 갈린다. 어떤 문제는 추가 시각 증거가 필요하고, 어떤 문제는 외부 사실 확인이 필요하며, 어떤 문제는 아무것도 필요 없다. Act Wisely는 이 세 경우를 한 정책 안에서 구분하도록 학습시키려는 시도라는 점에서, 단순한 efficiency 논문을 넘어 에이전트 의사결정의 분류 체계를 제안한 작업으로도 읽힌다.

동시에 이는 qualitative example의 역할을 다시 보게 만든다. 많은 논문에서 정성 사례는 단지 보기 좋은 그림에 그치지만, 여기서는 사례 하나하나가 “어떤 불확실성 유형에 어떤 도구를 연결할 것인가”라는 정책의 semantics를 설명한다. 그래서 Figure 4~8은 결과 부록이 아니라, HDPO가 실제로 무엇을 학습했는지 보여 주는 행동 의미론의 증거에 가깝다. 이 점이 있기 때문에 Act Wisely는 단순한 throughput 최적화 논문보다 훨씬 넓은 함의를 가진다.

불확실성 유형	대표 사례	적합한 행동	논문이 주는 메시지
불확실성 없음	Figure 4, Figure 6	직접 추론 및 즉답	자기 역량 안의 문제는 툴 없이 해결한다.
국소 시각 해상도 부족	Figure 5	코드 실행으로 crop·zoom	도구는 장식이 아니라 세밀 분석 수단이다.
대상 식별 불확실성	Figure 7	이미지 검색	시각 인식과 외부 레퍼런스 매칭을 결합한다.
외부 사실 지식 부재	Figure 8	텍스트 검색	보이는 것과 알아야 하는 사실을 구분한다.

Figure 4: 시각 문맥만으로 충분한 상황에서는 직접 추론으로 답하고 도구 호출을 생략하는 사례.

정성 사례는 정량 결과의 해석을 훨씬 또렷하게 만든다. Figure 4에서 Metis는 이미지와 내재 지식만으로 답할 수 있는 문제에서 도구를 아예 부르지 않는다. 이 사례의 포인트는 단순 절약이 아니다. 모델이 “지금은 내 능력 안이다”라고 판단하고 바로 답하는 것이다. 이는 논문이 말한 메타인지적 절제의 정수다. 많은 에이전트는 도구가 있으면 부르는 방향으로 편향되지만, Metis는 자기 역량에 대한 신뢰를 학습했다는 점이 드러난다.

Figure 5: 원본 해상도로는 애매한 세부를 판별하기 위해 코드 실행으로 특정 영역을 잘라 확대하는 사례.

반대로 Figure 5에서는 도구가 정확히 필요한 순간에 호출된다. 특정 subplot 영역의 곡선을 비교해야 하는데 원본 이미지 해상도만으로는 구분이 어렵다. 이때 Metis는 무턱대고 추측하지 않고 코드 실행으로 relevant region을 잘라 확대해 정확한 판단을 만든다. 이 예시는 Metis가 도구를 회피하는 모델이 아니라, 도구를 정밀 기구처럼 사용하는 모델임을 보여 준다. 논문이 “도구 사용 효율”을 말할 때 실제로 의도한 것은 바로 이런 장면이다.

Figure 6: 화면의 텍스트가 충분히 선명해 도구 없이 바로 읽어 내는 추가 사례.

Appendix의 Figure 6 역시 같은 메시지를 반복 확인시켜 준다. 화면 속 텍스트가 원본 이미지에서 이미 충분히 읽히는 상황에서 Metis는 코드도 검색도 부르지 않고 답을 추출한다. 이런 사례가 중요한 이유는, 툴 남용이 흔한 시스템이라면 오히려 이런 쉬운 문제일수록 도구를 덧붙일 가능성이 크기 때문이다. Metis는 쉬운 문제를 쉬운 방식으로 처리한다. 이것이야말로 실제 배포에서 가장 중요한 평균 지연 감소와 연결될 가능성이 높은 행동 패턴이다.

Figure 7: 시각 특징만으로는 작품을 확정하기 어려울 때 이미지 검색을 전략적으로 호출하는 사례.

그렇다고 Metis가 보수적으로만 움직이는 것은 아니다. Figure 7에서는 작품 식별을 위해 이미지 검색이 필요하다고 판단한다. 원본 시각 특징만으로는 특정 작품을 확정하기 어렵기 때문에, 외부 시각 참조를 가져와 completion year를 찾는다. 이는 도구가 필요한 순간을 모델이 꽤 세밀하게 구분한다는 뜻이다. 단순히 “이미지면 이미지 검색”이 아니라, 내부 시각 인식만으로 충분하지 않은 식별 문제라는 판단이 먼저 선행된다.

Figure 8: 대상은 눈으로 알아보지만 수치 사실은 이미지에서 알 수 없을 때 텍스트 검색으로 전환하는 사례.

Figure 8은 더 미묘한 차이를 보여 준다. 대상 자체는 시각적으로 식별 가능하지만, 질문은 그 대상의 정확한 수치 정보를 묻는다. 즉 문제는 인식이 아니라 외부 사실 지식이다. Metis는 이 차이를 구분해 텍스트 검색을 호출한다. 논문이 메타인지라고 부르는 것이 바로 이런 종류의 분별력이다. 무엇이 시각 불확실성이고, 무엇이 지식 공백인지 구분할 수 있어야 올바른 도구를 고를 수 있다.

사례	질문의 본질	Metis의 행동	읽히는 의미
Figure 4	시각 문맥과 내부 지식만으로 해결 가능	도구 호출 생략	자기 역량 안의 문제는 직접 푼다.
Figure 5	세부 시각 판별이 원본 해상도로는 애매함	코드 실행으로 영역 crop 및 확대	도구를 정밀 분석 수단으로 사용한다.
Figure 6	텍스트가 이미 선명함	직접 읽기	쉬운 문제를 쉬운 방식으로 푼다.
Figure 7	작품 식별에 외부 시각 참조 필요	이미지 검색	시각 인식과 외부 레퍼런스 매칭을 구분한다.
Figure 8	시각 식별은 가능하지만 정확한 사실 수치는 외부 지식 필요	텍스트 검색	시각 불확실성과 지식 공백을 구분한다.

정리하면 정성 사례는 HDPO가 실제로 무엇을 학습시켰는지 보여 준다. 아예 툴을 끄는 모델이 아니라, 문제 유형에 따라 도구를 다르게 호출하는 모델을 만들어 냈다는 것이다. 그리고 이것이 정량 성능 향상과 잘 맞물린다.

7. 한계점 및 향후 연구 방향: 무엇이 아직 남아 있고 어떤 부분을 더 정교하게 다뤄야 하는가

첫 번째 한계는 평가 환경의 범위다. 논문은 다양한 시각·문서·수학 벤치마크를 포함하지만, 여전히 대부분은 비교적 잘 정의된 문제들이다. 저자들도 결론에서 향후 과제로 더 개방적이고 더 긴 지평선의 환경을 언급한다. 실제 제품 환경에서는 문제 정의가 불완전하고, 사용자 의도가 흔들리고, 도구 결과 자체가 불안정할 수 있다. 그런 환경에서도 HDPO식 조건부 효율 채널이 같은 방식으로 잘 작동하는지는 아직 더 검증이 필요하다.

두 번째 한계는 데이터 정제 비용과 의존성이다. 이 논문이 높은 설득력을 가지는 이유 중 하나가 엄격한 데이터 필터링인데, 역설적으로 그 점이 재현성과 비용 측면의 부담이 될 수도 있다. 샌드박스 재실행, 강한 멀티모달 판정기, pass@8 기반 필터링은 모두 유효하지만, 이것은 곧 준비 단계의 비용이 크다는 뜻이기도 하다. 즉 HDPO 자체는 깔끔하지만, Metis 수준의 성과를 얻으려면 환경 접지성을 관리하는 정교한 데이터 운영이 함께 필요하다.

세 번째 한계는 효율 정의의 단순화다. 본문에서 도구 효율 보상은 기본적으로 호출 횟수 T를 기준으로 $\frac{1}{T+1}$ 형태로 계산된다. 이는 매우 직관적이고 강력하지만, 모든 도구 호출을 같은 비용으로 본다는 한계도 남긴다. 실제로는 코드 실행, 텍스트 검색, 이미지 검색의 지연시간, 금전 비용, 실패 확률이 다를 수 있다. 따라서 향후 연구에서는 효율 채널이 단순 call count를 넘어 도구별 실제 비용 구조를 더 정교하게 반영할 여지가 있다.

네 번째 한계는 도구 집합의 고정성이다. 본 논문에서 Metis가 다루는 도구는 코드 실행, 텍스트 검색, 이미지 검색으로 비교적 명확하다. 그러나 실제 에이전트 시스템은 데이터베이스 질의, 브라우저 조작, 파일 편집, API 호출, 장기 메모리 접근처럼 훨씬 많은 도구를 쓴다. 도구 종류가 늘어날수록 “써야 할지 말아야 할지”의 문제는 “어느 도구를 어떤 순서로 엮어야 할지”의 문제로 확장된다. HDPO의 아이디어는 이 확장에도 자연스럽게 연결되지만, 본문 실험은 아직 그 지점까지 직접 다루지는 않는다.

다섯 번째 한계는 정답 롤아웃이 충분히 존재해야 효율 채널이 활성화된다는 구조적 특성이다. 이것은 HDPO의 장점이기도 하지만, 매우 어려운 문제 영역에서는 초기 단계의 효율 학습이 느리게 나타날 수 있음을 의미한다. 물론 논문은 이를 암묵적 커리큘럼으로 해석하고, 실제로도 긍정적으로 작동했다고 보고한다. 다만 완전히 개방형 환경이나 장기 계획 환경에서는 qualifying set의 형성이 더 늦어질 수 있으므로, 이런 설정에서도 같은 안정성이 유지되는지는 앞으로 더 살펴볼 필요가 있다.

여기에 더해, benchmark 중심 검증과 실제 서비스 사이의 간극도 남는다. 논문은 이미 지연시간과 비용을 중요한 문제로 제기하지만, 공개 벤치마크는 여전히 상대적으로 짧고 잘 정돈된 질의가 많다. 실제 배포 환경에서는 사용자가 질문을 여러 번 바꾸거나, 도구 응답 포맷이 흔들리거나, 외부 검색 결과의 품질이 시간에 따라 달라질 수 있다. 이런 상황에서 Metis가 보여 준 절제 규칙이 얼마나 견고하게 유지되는지, 그리고 재시도나 fallback까지 포함한 정책으로 확장되는지는 후속 검증이 필요하다.

더 나아가 실환경에서는 잘못된 도구 호출의 비용이 단순 지연시간 이상으로 커질 수 있다. 예를 들어 검색 결과가 부분적으로만 맞거나, 코드 실행 환경의 라이브러리 상태가 바뀌거나, 이미지 검색이 서로 유사한 객체를 반환하면 에이전트는 본래 갖고 있던 올바른 내부 판단을 오히려 잃어버릴 수 있다. 논문이 초반에 “redundant tool interactions inject extraneous noise”라고 지적한 이유가 바로 이것이다. 따라서 후속 연구에서는 HDPO가 이런 환경 노이즈의 형태별 강건성까지 검증하는 방향으로 이어질 필요가 있다.

마지막으로, 이 연구는 도구 사용의 규범을 누가 정의하는가라는 문제도 은근히 남긴다. 논문에서는 Gemini-3.1-Pro 기반의 메타인지 판정과 재실행 검증으로 “좋은 도구 사용”을 가려냈다. 이것은 실무적으로는 매우 합리적이지만, 동시에 어떤 호출이 genuinely useful한지에 대한 판단이 데이터 큐레이션 단계에서 일정 부분 규범화된다는 뜻이기도 하다. 향후에는 서로 다른 운영 목표를 가진 시스템, 예를 들어 속도 최우선 시스템과 정확도 최우선 시스템이 서로 다른 메타인지 기준을 학습할 수도 있다. 그런 차이를 어떻게 명시적 objective로 반영할지 역시 중요한 후속 과제다.

8. 내 해석: 약점 1 + 후속 제안 1

약점 1은 방금 언급한 효율 정의의 단순화가 실제 서비스형 에이전트에선 꽤 크게 작용할 수 있다는 점이다. 이 논문은 도구 사용 횟수를 줄이는 데 매우 성공했지만, 한 번의 코드 실행과 한 번의 텍스트 검색, 한 번의 이미지 검색이 현업 시스템에서 갖는 비용은 다를 수 있다. 따라서 지금의 HDPO는 “도구를 적게 쓰는 법”은 잘 가르치지만, “무엇이 더 비싼 도구인가”까지 학습시키지는 못한다. 특히 분산 시스템이나 유료 API 환경에서는 횟수보다 도구 종류별 비용 가중치가 더 중요해질 수 있다.

후속 제안 1으로는 cost-aware HDPO를 생각해 볼 수 있다. 아이디어는 간단하다. 효율 채널을 단순 T가 아니라 도구별 비용 벡터에 기반한 가중 합 비용으로 바꾸고, 정답 궤적 내부 비교라는 HDPO의 장점은 그대로 유지하는 것이다. 예를 들어 코드 실행은 3, 텍스트 검색은 2, 이미지 검색은 4 같은 상대 비용을 둘 수 있고, 실제 wall-clock latency와 monetary cost를 함께 반영한 동적 비용도 가능하다. 이렇게 하면 메타인지 판단은 “도구를 쓸까 말까”를 넘어 “어떤 도구를 어떤 순서로 쓸까”까지 확장될 수 있다.

즉 제 해석으로는 이 논문이 이미 도구 절제의 첫 번째 문을 열었다면, 다음 단계는 도구 포트폴리오 최적화다. 정답을 맞히는 범위 안에서 가장 값싼 도구를 먼저 쓰고, 실패했을 때만 더 무거운 도구로 넘어가는 식의 계층적 도구 비용 정책이 붙는다면, Metis 계열은 실제 운영 환경에서 더욱 강한 의미를 가질 것이다. 이는 본 논문의 방향과도 잘 맞고, 억지스러운 외삽도 아니다. 이미 논문이 효율 채널을 별도 목표로 분리했기 때문에, 그 채널의 정의만 더 현실 비용에 맞게 바꾸는 것은 비교적 자연스러운 확장이다.

9. 결론: 이 논문이 남기는 가장 큰 메시지는 도구 실행 능력보다 도구 절제 능력이 중요하다는 점이다

논문은 맹목적 도구 호출을 멀티모달 에이전트의 핵심 실패 모드로 규정하고, 이를 해결하기 위해 HDPO라는 분리형 강화학습 목적식을 제안했다. 정확도와 효율을 하나의 보상에 섞는 대신, 정확도 채널은 전역적으로 문제 해결을 밀고, 효율 채널은 정답 궤적 내부에서만 절제를 학습한다. 이 간단한 재구성이 실제로는 상당히 큰 변화를 만든다. 논문 속 Metis는 도구 호출을 과감히 줄이면서도 지각, 문서 이해, 수학, 논리 추론에서 강한 성능을 보여 준다.

이 논문의 공헌은 크게 두 가지로 읽힌다. 첫째, 효율은 정확도의 적이 아니다라는 점을 실험적으로 설득했다. 불필요한 툴 호출은 단지 비용만 늘리는 것이 아니라, 추론 체인에 잡음을 넣어 정확도 자체를 해칠 수 있음을 보여 준다. 둘째, 메타인지적 도구 중재를 멀티모달 에이전트의 독립 연구 주제로 끌어올렸다. 이 덕분에 앞으로의 에이전트 연구는 “무슨 도구를 붙일까”뿐 아니라 “그 도구를 언제 부를까”를 더 본격적으로 다루게 될 가능성이 크다.

또한 이 논문은 제품 관점에서도 의미가 크다. 실제 배포 환경에서는 도구 호출 한 번이 지연시간, 실패율, 비용과 직결된다. 따라서 Metis가 보여 준 98%에서 2%로의 호출 축소 예시는 단순 미학적 절제가 아니라 매우 실용적인 가치다. 계산상 이는 96%포인트 감소이며, 호출률 기준으로 보면 약 49배 수준의 축소다. 물론 모든 환경에서 동일 수치가 재현된다고 말할 수는 없지만, 논문이 보여 준 방향성은 분명하다. 에이전트의 다음 경쟁력은 더 많은 행동이 아니라 더 현명한 행동이라는 점이다.

특히 이 논문은 최근 에이전트 연구가 서로 다른 층위에서 무엇을 다루고 있는지도 정리하게 만든다. 어떤 연구는 믿음의 충실성을 감사하고, 어떤 연구는 내부 보상을 공동진화시키며, 어떤 연구는 플레이북과 메모리를 최적화한다. Act Wisely는 그 사이에서 행동 호출의 분기점을 연구 대상으로 삼는다. 즉 에이전트 파이프라인 안에서 “생각을 더 할까”, “외부로 나갈까”, “그 외부 중 어떤 도구를 고를까”를 결정하는 얇지만 핵심적인 계층을 전면화한다. 이 계층이 정교해질수록 이후의 reasoning quality, latency, cost가 함께 달라진다는 점을 실험으로 보여 준 것이 이 논문의 큰 의의다.

그래서 이 연구를 한 문장으로 줄이면 단순한 efficiency paper라기보다, 멀티모달 에이전트의 자기경계 인식을 학습 가능한 목표로 바꾼 논문이라고 할 수 있다. 모델이 무엇을 할 수 있는지 못지않게, 지금은 무엇을 하지 않아도 되는지를 알게 만드는 일은 실제 배포에서 매우 중요하다. Metis는 이 방향이 추상적 미덕이 아니라 측정 가능한 성능 향상과 연결될 수 있음을 보여 주고, HDPO는 그 연결을 가능하게 하는 목적함수의 한 예를 제시한다.

결국 Act Wisely가 남기는 가장 긴 파장은, 에이전트 성능을 더 많은 툴과 더 긴 추론으로만 설명하던 관성을 끊어냈다는 데 있다. 이 논문은 오히려 과잉 행동을 줄이는 것이 고성능의 조건일 수 있음을 보여 준다. 정답을 맞힌 뒤에야 효율을 비교하도록 만든 HDPO의 구조, 도구 필요성이 없는 시연을 제거한 데이터 정제, 그리고 시각 해상도 부족·외부 사실 공백·대상 식별 불확실성을 구분하는 정성 사례는 모두 같은 방향을 가리킨다. 즉 Metis의 강점은 도구를 많이 소유한 데 있지 않고, 도구를 호출해야 할 이유를 분별하는 정책을 갖게 된 데 있다.

그 점에서 이 논문은 에이전트 연구의 질문 자체를 약간 바꿔 놓는다. 앞으로 중요한 것은 더 많은 툴을 붙이는 일이 아니라, 각 툴 호출을 정답에 필요한 정보획득으로 정당화할 수 있는지 묻는 일이다. Metis가 보여 준 성과는 바로 그 방향이 성능과 효율을 동시에 잡는 현실적인 경로가 될 수 있음을 시사한다.

그리고 이 전환은 멀티모달 에이전트에만 국한되지 않는다. 장기적으로는 웹 에이전트, 코드 에이전트, 연구 보조 에이전트처럼 도구 종류가 더 많은 시스템에서도 “먼저 맞추고, 그다음 아껴라”라는 HDPO의 구조가 충분히 재해석될 여지가 있다. 결국 이 논문은 도구 사용을 능력의 과시가 아니라 판단의 문제로 되돌려 놓는다. 그 한 문장이 Metis의 실험 결과 전체를 가장 잘 요약한다. 이 점이 이 논문을 오래 남게 만든다. 실제 적용 가치도 크다. 운영 관점의 함의도 분명하다. 후속 가치도 크다. 파급력도 있다. 이 방향은 앞으로도 반복해서 참조될 만하다.

10. 요약 정리: 핵심 주장과 실험 메시지를 빠르게 다시 묶어 보기

문제 정의: 논문은 멀티모달 에이전트의 핵심 실패 모드를 blind tool invocation, 즉 필요 없는 외부 도구 호출의 습관으로 규정한다.
핵심 진단: 정확도 보상과 도구 패널티를 하나의 스칼라 보상으로 섞으면 효율 신호가 정확도 분산에 잠식되어 툴 남용 억제가 잘 학습되지 않는다.
핵심 방법: HDPO는 정확도 채널과 효율 채널을 분리하고, 마지막 손실에서만 결합해 두 목표의 경사 간섭을 줄인다.
조건부 효율 설계: 효율 보상은 정답을 맞힌 궤적 내부에서만 비교되므로, 빠르지만 틀린 응답이 효율적인 행동으로 보상받지 않는다.
데이터 운영: 샌드박스 재실행, pass@8 기반 필터링, 멀티모달 판정기를 통해 비실행 코드·환각 관측·불필요한 툴 시연을 제거했다.
대표 성과: Metis는 HRBench-8K 82.0, CharXiv reasoning question 54.1, WeMath 65.2, reasoning 평균 66.9를 기록하며 강한 결과를 보였다.
해석 포인트: 특히 WeMath의 26.4점 상승은 도구를 무조건 더 많이 쓰는 것이 아니라, 필요한 순간에만 쓰는 정책이 정확도를 함께 끌어올릴 수 있음을 보여 준다.
한 줄 결론: 좋은 에이전트는 도구를 많이 쓰는 에이전트가 아니라, 도구를 써야 할 때와 쓰지 않아도 될 때를 구분하는 에이전트다.

저작자표시 비영리 변경금지 (새창열림)

'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글

[arXiv 2604.08401] Verify Before You Commit: 행동 커밋 전 belief 검증으로 LLM 에이전트 추론의 faithfulness를 확보하는 SAVeR (0)	2026.04.13
[arXiv 2604.09377] 태스크 인식 LLM 라우팅: 콜드스타트 환경을 위한 다단계 태스크 프로파일 기반 데이터 합성 (0)	2026.04.13
[arXiv 2604.03098] Self-Guide: 언어 에이전트의 정책과 내부 보상을 함께 진화시키는 방법 (0)	2026.04.10
[arXiv 2604.03189] Reflective Context Learning: 컨텍스트 공간을 최적화 대상으로 재정의한 에이전트 학습 프레임워크 (0)	2026.04.06
[arXiv 2604.02324v1] GTI: 새 어휘 토큰을 사전학습 임베딩 공간에 정렬하는 생성형 추천의 초기화 전략 (0)	2026.04.06