[논문 리뷰]/[최신 논문] / [arXiv 2604.25917] RecursiveMAS: 잠재 공간 재귀로 다중 에이전트 협업을 확장하다.md

[arXiv 2604.25917] RecursiveMAS: 잠재 공간 재귀로 다중 에이전트 협업을 확장하다

조회

Recursive Multi-Agent Systems

https://arxiv.org/abs/2604.25917

Xiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou | UIUC, Stanford University, NVIDIA, MIT 등 | arXiv:2604.25917v1 | 2026년 4월


1. 서론: 다중 에이전트 협업을 재귀적 계산으로 다시 보기

1.1 문제의식: 협업은 늘었지만 시스템은 충분히 함께 학습하지 못했다

대규모 언어모델 기반 다중 에이전트 시스템은 복잡한 문제를 여러 역할로 나누어 푸는 데 강점을 보인다. Planner가 문제를 분해하고, Critic이 오류를 짚고, Solver가 최종 답을 내는 식의 순차 구조는 이미 수학, 과학 질의응답, 코드 생성에서 널리 쓰인다. 그러나 대부분의 시스템은 에이전트 사이의 상호작용을 텍스트 메시지 교환으로 구현한다. 이 방식은 해석이 쉽지만, 각 중간 에이전트가 긴 답변을 디코딩하고 다음 에이전트가 다시 인코딩해야 하므로 지연과 토큰 비용이 빠르게 커진다.

이 논문은 질문을 한 단계 더 밀어붙인다. 단순히 더 많은 에이전트를 붙이거나 더 긴 프롬프트를 주는 대신, 에이전트 협업 자체를 재귀적으로 스케일링할 수 있는가를 묻는다. 최근 단일 모델 쪽에서는 Recursive Language Model 또는 looped model이 같은 계산 블록을 반복 적용해 잠재 표현을 점진적으로 다듬는 방향을 보여 주었다. 저자들은 이 아이디어를 개별 모델 내부에만 두지 않고, 여러 이질적 에이전트가 구성하는 전체 시스템으로 확장한다.

제안법인 RecursiveMAS의 핵심은 전체 다중 에이전트 시스템을 하나의 잠재 공간 재귀 계산으로 재해석하는 것이다. 각 에이전트는 독립적인 LLM이면서 동시에 재귀 계산 그래프 안의 한 층처럼 동작한다. 중간 에이전트는 매 라운드마다 텍스트를 길게 출력하지 않고, 자신의 마지막 hidden state에서 나온 latent thoughts를 다음 에이전트에게 넘긴다. 마지막 재귀 라운드에서만 최종 에이전트가 텍스트 답변을 디코딩한다.

논문의 추상적 메시지는 명확하다. 기존 MAS가 협업 구조를 설계하는 데 집중했다면, RecursiveMAS는 그 구조 전체를 학습 가능한 재귀 시스템으로 만든다. 구체적으로는 모든 LLM 파라미터를 업데이트하지 않고, 에이전트 내부와 에이전트 사이를 잇는 작은 모듈인 RecursiveLink만 학습한다. 이 선택 덕분에 대형 모델 전체를 미세조정하는 비용을 피하면서도, 시스템 수준의 credit assignment를 구현할 수 있다.

Performance landscape and collaboration patterns of RecursiveMAS

Figure 1: RecursiveMAS의 재귀 깊이 성능 지형과 협업 패턴 일반화.

Figure 1은 두 가지 메시지를 함께 보여 준다. 위쪽 패널은 학습 시 재귀 깊이와 추론 시 재귀 깊이를 동시에 늘릴수록 성능 지형이 우상향한다는 점을 요약한다. 이는 재귀가 단순 반복 연산을 넘어, 훈련과 추론 양쪽에서 다음 라운드가 활용하기 좋은 시스템 상태를 만드는 축임을 뜻한다. 아래쪽 패널은 순차형 외에도 mixture, deliberation, distillation에서 같은 잠재 루프가 유지된다는 점을 강조하며, 구조가 바뀌어도 연결 학습의 효과가 남는지를 보여 준다.

논문 초록과 본문이 제시하는 대표 수치는 꽤 공격적이다. RecursiveMAS는 9개 벤치마크에 걸쳐 고급 단일 에이전트, 텍스트 기반 다중 에이전트, 재귀 계산 베이스라인보다 평균 8.3% 정확도 향상을 보고한다. 같은 MAS 구조에서 텍스트로 재귀하는 Recursive-TextMAS와 비교하면 재귀 라운드가 깊어질수록 이득이 커져, 1.2배에서 2.4배까지의 추론 속도 향상34.6%에서 75.6%까지의 토큰 사용량 감소를 동시에 보인다.

1.2 논문의 기여: 잠재 전달, 재귀 루프, 전체 시스템 학습

이 글에서 중점적으로 볼 기여는 세 가지다. 첫째, RecursiveLink는 각 에이전트 내부의 dense-to-shallow 전환과 에이전트 사이의 cross-model 전환을 모두 처리한다. 둘째, 여러 에이전트를 하나의 순환 루프로 엮어, 이전 라운드의 잠재 출력이 다음 라운드의 조건으로 되돌아오게 한다. 셋째, inner-loop와 outer-loop를 나눈 학습 절차를 통해 개별 에이전트의 latent thought 생성 능력과 전체 시스템의 재귀적 협업 능력을 단계적으로 맞춘다.

RecursiveMAS가 단순한 압축 통신 기법에 머물지 않는 이유도 여기에 있다. 잠재 공간에서 중간 출력을 주고받으면 토큰을 덜 쓰는 것은 자연스럽다. 하지만 논문은 효율성만 주장하지 않고, 학습 동역학의 차이를 분석한다. 텍스트 기반 재귀는 hidden state를 vocabulary softmax로 통과시키는 과정에서 gradient가 약해질 수 있지만, residual MLP 형태의 RecursiveLink는 야코비안이 항등 경로를 포함하므로 재귀 훈련 중 gradient 흐름이 더 안정적이라는 이론적 논지를 제시한다.

따라서 이 논문은 다중 에이전트 연구를 세 방향으로 재배치한다. 첫째, MAS를 단순한 오케스트레이션 패턴이 아닌 미분 가능한 시스템으로 본다. 둘째, 에이전트 사이의 의사소통 매체를 자연어 텍스트에서 연속 잠재 표현으로 옮긴다. 셋째, 재귀 깊이를 테스트 시간 계산량의 축으로 사용하면서도, 텍스트 토큰 폭증을 억제한다. 이 조합이 실제로 얼마나 일반적인지는 더 검증되어야 하지만, 문제 설정 자체는 기존 MAS의 병목을 정면으로 찌른다.

RecursiveMAS를 제대로 읽으려면 배경, 구조, 학습법, 실험 결과를 한 줄로 이어 보아야 한다. 먼저 텍스트 기반 MAS와 재귀 언어모델의 병목을 확인하고, 이어 RecursiveLink가 에이전트 내부와 에이전트 사이의 전이를 어떻게 처리하는지 살핀다. 그다음 실험 설정, 핵심 결과, ablation, 비용 분석을 표와 그림으로 검토하면, 이전에 다룬 MASS-RAG의 multi-agent 이득이 텍스트 합성 단계에서 잠재 재귀 전이로 어떻게 이동하는지 더 분명하게 보인다.

2. 배경 및 관련 연구: 텍스트 기반 협업에서 잠재 공간 협업으로

2.1 LLM 기반 다중 에이전트 시스템의 기본 병목

LLM 기반 MAS는 보통 하나의 모델이 모든 능력을 갖추기를 기대하지 않는다. 서로 다른 모델 또는 같은 모델의 서로 다른 역할 프롬프트를 Planner, Critic, Solver, Specialist, Summarizer처럼 배치하고, 각 역할이 부분 문제를 맡게 한다. 순차형 구조는 계획, 검토, 풀이가 단계적으로 진행되어 디버깅이 쉽다. mixture 구조는 여러 domain specialist가 병렬로 의견을 내고 summarizer가 통합한다. deliberation 구조는 반성자와 도구 호출자가 반복적으로 상호작용한다.

하지만 이런 설계는 대체로 텍스트 기반 상호작용에 묶여 있다. 중간 에이전트는 자연어 chain-of-thought 또는 요약문을 생성하고, 다음 에이전트는 그 텍스트를 컨텍스트로 받아 다시 추론한다. 이 방식은 사람에게 읽히는 설명을 남기는 장점이 있지만, 시스템 입장에서는 디코딩, 토큰 전달, 재인코딩이 반복되는 구조다. 재귀 라운드를 늘리면 이 오버헤드는 선형 이상으로 누적되고, 긴 중간 답변은 다음 에이전트의 attention 비용도 함께 키운다.

또 다른 병목은 학습의 단위다. 기존 연구는 프롬프트를 고치거나 자연어 피드백을 누적하거나, 개별 에이전트 하나를 supervised fine-tuning하는 경우가 많다. 그러나 MAS의 성능은 개별 에이전트의 독립 성능만으로 결정되지 않는다. Planner의 잠재 표현이 Critic에게 어떤 형태로 넘어가는지, Critic의 수정 신호가 Solver가 쓰기 쉬운 형태인지, 이 연결부가 전체 성능을 크게 좌우한다. RecursiveMAS는 바로 이 연결부를 학습 대상으로 삼는다.

2.2 재귀 언어모델과 잠재 추론의 확장 축

재귀 언어모델 계열은 모델의 같은 계산 블록을 여러 번 적용해 reasoning depth를 늘리는 관점을 제시했다. 일반적인 Transformer가 입력 embedding을 한 번 층 스택에 통과시킨 뒤 다음 토큰을 예측한다면, recursive 또는 looped model은 hidden representation을 다시 같은 블록에 넣어 여러 번 정제한다. 이를 추상화하면 초기 표현 \(H^{(0)}=E\)에서 시작해 다음처럼 반복된다.

\[ H^{(r)} = f_{\theta}\big(H^{(r-1)}\big), \qquad r=1,\dots,n. \]

이 관점의 장점은 모델 파라미터 수를 늘리지 않고도 계산 깊이를 늘릴 수 있다는 점이다. 테스트 시간에 더 많은 반복을 허용하면 더 긴 추론 경로를 쓸 수 있고, 학습 시 반복 구조를 노출하면 모델은 다음 라운드가 활용하기 쉬운 표현을 만들도록 조정된다. RecursiveMAS는 이 아이디어를 단일 모델 내부의 layer reuse로 제한하지 않고, 여러 LLM 에이전트가 형성한 시스템 전체의 hidden stream으로 확장한다.

잠재 추론에서는 다음 토큰을 바로 vocab distribution으로 뽑지 않고, 마지막 hidden state를 다음 step의 입력 embedding처럼 다시 사용한다. 논문은 표준 auto-regressive generation과 대비되는 latent generation을 다음 식으로 정리한다.

\[ h_{t+1}=f_{\theta}\big([E_{\leq t};\,h_t]\big). \]

여기서 새로 얻은 \(h_{t+1}\)는 모델이 아직 텍스트로 펼치지 않은 ongoing latent thought다. RecursiveMAS는 이 latent thought를 에이전트 내부에서는 다음 latent step으로 보내고, 에이전트 사이에서는 다른 모델의 입력 공간으로 변환해 전달한다. 따라서 기존 CoT가 사람이 읽는 토큰 열이라면, RecursiveMAS의 중간 사고는 모델이 직접 소비하는 연속 벡터 열에 가깝다.

2.3 잠재 공간 협업 연구와 RecursiveMAS의 차별점

최근에는 서로 다른 LLM이 hidden embedding을 공유하거나, 내부 상태를 재사용해 모델 간 통신을 줄이려는 연구도 늘고 있다. 이 흐름은 자연어를 거치지 않고 latent interface를 만드는 점에서 RecursiveMAS와 닮았다. 그러나 논문이 강조하는 차이는, RecursiveMAS가 단발성 hidden transfer보다 재귀적인 시스템 진화를 목표로 한다는 데 있다. 마지막 에이전트의 잠재 결과가 첫 번째 에이전트로 되돌아가 다음 라운드를 조건화하므로, 통신은 한 번 넘기고 끝나는 handoff를 넘어선다.

이 차이는 학습 목표에도 반영된다. 단순 latent transfer라면 한 모델의 hidden state를 다른 모델의 embedding space에 잘 맞추는 회귀 문제로 충분할 수 있다. RecursiveMAS에서는 각 링크가 여러 라운드 뒤 최종 답변에 미치는 영향을 함께 고려해야 한다. 그래서 outer-loop training은 최종 cross-entropy 손실을 통해 전체 loop를 unroll하고, 각 outer RecursiveLink가 최종 예측에 기여한 정도를 공유 gradient로 받게 한다. 이는 MAS를 일종의 연쇄적 계산 그래프로 다룬다는 뜻이다.

관련 연구와 비교하면 RecursiveMAS의 위치는 다음처럼 정리할 수 있다. TextGrad는 자연어 피드백을 gradient처럼 사용해 프롬프트와 에이전트 출력을 개선한다. MoA는 여러 에이전트의 텍스트 응답을 계층적으로 집계한다. LoopLM은 단일 모델의 반복 계산을 강화한다. Recursive-TextMAS는 같은 다중 에이전트 구조를 텍스트로 재귀한다. RecursiveMAS는 이 네 흐름을 가로지르며, 다중 에이전트 구조, 잠재 공간 통신, 재귀적 테스트 시간 계산, 전체 시스템 학습을 하나의 프레임에 묶는다.

3. 방법론: RecursiveMAS와 RecursiveLink의 잠재 루프 설계

3.1 전체 구조: 에이전트를 재귀 언어모델의 층처럼 보기

RecursiveMAS는 \(N\)개의 에이전트 \(\mathcal{A}=\{A_1,\dots,A_N\}\)로 구성된다. 각 에이전트 \(A_i\)는 고유한 모델 \(f_{\theta_i}\)와 hidden dimension을 갖는다. 논문은 이 에이전트들을 하나의 재귀 계산 체인으로 보고, 각 에이전트의 마지막 hidden state 집합 \(\mathcal{H}=\{H_1, \dots,H_N\}\)를 시스템 상태로 둔다. 재귀 evolution은 \(\mathcal{S}^{(0)}\)에서 시작해 각 라운드마다 잠재 상태를 업데이트하고, \(\mathcal{S}^{(n)}\)에서 최종 답을 낸다.

핵심 비유는 간단하다. 단일 RLM에서 여러 Transformer block이 순서대로 hidden stream을 처리하듯, RecursiveMAS에서는 여러 에이전트가 순서대로 latent thoughts를 처리한다. 첫 번째 에이전트가 자신의 역할 지시와 문제를 읽고 잠재 thought를 만든다. 이 thought는 외부 링크를 거쳐 두 번째 에이전트의 입력 공간으로 옮겨진다. 마지막 에이전트가 latent answer를 만든 뒤, 그것이 다시 첫 번째 에이전트에게 돌아간다. 이 순환이 재귀 라운드 수만큼 반복된다.

Overall architecture of RecursiveMAS

Figure 2: RecursiveMAS의 전체 아키텍처와 에이전트 간 재귀 루프.

Figure 2는 RecursiveMAS가 중간 단계에서 텍스트를 생성하지 않는다는 점을 잘 보여 준다. 각 에이전트는 inner RecursiveLink로 자신의 latent thought를 몇 step 더 만들고, outer RecursiveLink로 그 thought를 다음 에이전트의 입력 공간에 맞춘다. 마지막 에이전트의 잠재 출력은 다시 첫 번째 에이전트로 돌아가며, 최종 라운드에서만 텍스트 답변이 나온다. 이 도식은 latency 절감의 출처가 단순 캐싱보다 통신 매체 자체의 변경에 있음을 보여 준다.

3.2 RecursiveLink: 내부 링크와 외부 링크의 역할 분리

RecursiveLink는 작은 projection 모듈이지만, RecursiveMAS에서 가장 중요한 학습 대상이다. 논문은 전환 상황을 두 가지로 나눈다. 첫째는 Dense-to-Shallow Transition이다. 에이전트가 방금 계산한 마지막 layer hidden state를 다음 latent generation step의 입력 embedding처럼 써야 하므로, 같은 모델 안에서도 출력 공간과 입력 공간 사이의 분포 차이를 보정해야 한다. 둘째는 Cross-Model Transition이다. 서로 다른 모델 계열과 hidden dimension을 가진 에이전트 사이에서 의미를 전달해야 한다.

각 에이전트 내부의 inner RecursiveLink는 residual two-layer MLP로 정의된다. hidden vector \(h\)에 대해 논문이 사용하는 기본 형태는 다음과 같다.

\[ \mathcal{R}_{\mathrm{in}}(h)=h+W_2\,\sigma(W_1h). \]

여기서 \(\sigma\)는 GELU activation이고, residual branch는 원래 latent semantics를 보존한다. 이 구조는 기존 hidden state를 중심으로 필요한 distribution shift만 학습하도록 설계되어, 새 벡터를 처음부터 다시 만드는 부담을 줄인다. 그래서 inner-loop training에서는 이 링크가 ground-truth answer의 embedding distribution과 정렬되도록 cosine similarity 손실을 사용한다.

에이전트 사이의 outer RecursiveLink는 hidden dimension이 다를 수 있으므로 residual branch에 추가 선형 사상을 둔다. 논문은 이를 다음처럼 쓴다.

\[ \mathcal{R}_{\mathrm{out}}(h)=W_3h+W_2\,\sigma(W_1h). \]

이 식에서 \(W_3\)는 source agent의 hidden dimension을 target agent의 입력 embedding dimension으로 맞춘다. 두 번째 항은 단순 차원 변환 이상으로 의미 분포를 조정한다. 중요한 점은 이 링크가 매우 작다는 것이다. 모든 LLM agent parameter는 frozen으로 유지되고, 학습되는 부분은 inner 및 outer RecursiveLink뿐이다. 따라서 RecursiveMAS는 full-SFT보다 훨씬 적은 trainable parameter로 시스템 수준 최적화를 수행한다.

Inner and outer RecursiveLink design

Figure 3: inner RecursiveLink와 outer RecursiveLink의 설계 차이.

Figure 3은 두 링크의 차이를 구조적으로 분리한다. inner link는 같은 모델의 마지막 hidden state를 다시 입력 embedding 쪽으로 돌려 latent thought 생성을 돕는다. outer link는 모델 사이의 hidden dimension과 의미 분포 차이를 동시에 보정한다. 이 작은 구분이 텍스트 디코딩 없이도 이질적인 LLM을 하나의 루프로 묶는 핵심 장치다. 특히 residual branch는 기존 의미를 보존하고 MLP branch는 필요한 분포 이동만 학습하게 만든다.

3.3 에이전트 루프: latent thoughts 생성과 cross-agent transfer

실제 추론 과정을 순서대로 보면 RecursiveMAS의 작동 방식이 더 분명하다. 먼저 첫 번째 에이전트는 문제와 역할 지시로 구성된 embedding sequence \(E_{A_1}\)을 읽고, 마지막 hidden state \(h_t\)를 얻는다. 이후 inner RecursiveLink가 \(h_t\)를 다음 step의 입력 embedding에 맞춰 변환하고, 같은 절차를 \(m\)번 반복해 latent thought sequence \(H_{A_1}=[h_t,h_{t+1},\dots,h_{t+m}]\)를 만든다. 여기까지는 텍스트 토큰이 생성되지 않는다.

그다음 \(H_{A_1}\)는 outer RecursiveLink를 통해 두 번째 에이전트의 embedding space로 변환된다. 두 번째 에이전트는 자신의 입력 context와 이전 에이전트의 transformed latent thoughts를 함께 조건으로 받아 latent generation을 수행한다. 이 과정이 모든 에이전트에 대해 반복된다. 마지막 에이전트의 latent output은 다음 재귀 라운드를 위해 첫 번째 에이전트에게 되돌아가며, 이 되먹임 경로가 시스템 전체를 recursive loop로 만든다.

텍스트 기반 MAS와의 가장 큰 차이는 중간 결과의 관측 가능성이다. Recursive-TextMAS라면 Planner가 계획문을 쓰고, Critic이 비판문을 쓰고, Solver가 그 텍스트를 다시 읽는다. RecursiveMAS에서는 중간 역할의 계산이 hidden representation으로 남아 다음 에이전트에 전달된다. 이는 해석 가능성을 일부 낮추지만, 반복 라운드가 늘어날 때 디코딩 비용토큰 누적을 크게 줄인다. 논문이 효율성 수치를 강하게 제시할 수 있는 이유도 이 설계에 있다.

3.4 inner-outer loop training: 개별 적응과 시스템 최적화의 분리

학습은 두 단계로 진행된다. 첫 번째 단계인 inner-loop training은 각 에이전트의 inner RecursiveLink를 따로 warm start한다. 오프더셸프 LLM은 원래 텍스트 토큰을 생성하도록 훈련되어 있으므로, hidden state를 다시 입력 embedding처럼 사용하는 latent generation에 바로 최적화되어 있지 않다. 논문은 정답 텍스트 \(y\)를 각 에이전트의 embedding layer \(\mathrm{Emb}_{\theta_i}(y)\)에 통과시켜 target latent distribution을 만들고, inner link 출력과의 cosine distance를 줄인다.

\[ \mathcal{L}_{\mathrm{in}}=1-\cos\big(\mathcal{R}_{\mathrm{in}}(H),\mathrm{Emb}_{\theta_i}(y)\big). \]

두 번째 단계인 outer-loop training은 여러 에이전트와 여러 재귀 라운드를 모두 unroll한다. 최종 라운드에서 나온 텍스트 예측과 정답 \(y\) 사이의 cross-entropy 손실을 계산하고, 그 gradient가 전체 loop를 따라 outer RecursiveLink들로 전파된다. 논문은 이를 시스템 수준 학습으로 보며, 아래처럼 최종 시스템 상태의 prediction을 목표로 둔다.

\[ \mathcal{L}_{\mathrm{out}}=\mathrm{CE}\!\left(\mathcal{S}^{(n)}\!\bigl(\mathcal{S}^{(n-1)}(\cdots\mathcal{S}^{(1)}(x))\bigr),\,y\right). \]

이 절차의 실용적 의미는 크다. 모든 에이전트의 거대한 파라미터를 동시에 업데이트하지 않아도, 에이전트 사이 정보 흐름만 조정해 최종 답변을 개선할 수 있다. 또한 같은 RecursiveLink가 여러 라운드에서 반복적으로 쓰이므로, outer-loop는 다음 라운드가 활용하기 좋은 latent state를 만드는 방향으로 링크를 훈련한다. 이는 일반적인 prompt optimization과 다르게, 시스템 내부의 연속 인터페이스를 직접 맞추는 훈련이다.

Two-stage training pipeline of RecursiveMAS

Figure 4: RecursiveMAS의 inner-loop와 outer-loop 2단계 학습 파이프라인.

Figure 4는 학습 순서를 분명히 나눈다. 먼저 각 에이전트는 자기 내부의 latent thought 생성을 안정화하도록 inner RecursiveLink를 따로 맞춘다. 이후 전체 MAS 루프를 펼쳐 outer RecursiveLink를 공동 최적화한다. 이 분리는 초기에 분포가 크게 어긋난 latent generation을 바로 시스템 손실로 학습할 때 생길 수 있는 불안정을 줄인다. 즉 로컬한 latent 생성 능력과 글로벌한 협업 경로를 한 번에 섞지 않는 안정화 장치다.

3.5 이론적 관점: 시간 복잡도와 gradient 안정성

논문은 RecursiveMAS가 왜 텍스트 기반 재귀보다 효율적인지 복잡도 식으로 설명한다. 각 에이전트의 context length를 \(t\), latent thought 길이를 \(m\), hidden dimension을 \(d_h\), vocabulary size를 \(|V|\)라고 하자. Transformer 자체의 feed-forward 및 attention 비용은 두 방법에 공통이다. 차이는 중간 정보를 처리하는 방식에서 생긴다. 텍스트 기반 재귀는 매 step vocab projection을 거치므로 \(m|V|d_h\) 항을 갖는다.

\[ \Theta\big(N(m|V|d_h+(t+m)d_h^2+(t+m)^2d_h)\big) \]

반면 RecursiveMAS는 각 latent embedding을 RecursiveLink로 변환하므로 추가 비용이 \(md_h^2\)로 정리된다. 전체 시스템에 대한 식은 다음과 같다.

\[ \Theta\big(N(md_h^2+(t+m)d_h^2+(t+m)^2d_h)\big). \]

이 복잡도 비교는 vocabulary projection이 큰 모델에서 왜 병목이 되는지를 보여 준다. 물론 \(d_h^2\) 항도 작지 않지만, text decoding은 token sampling, serialization, 다음 에이전트의 재인코딩까지 동반한다. 실험에서 재귀 깊이가 늘수록 속도와 토큰 절감 이득이 커지는 현상은 이 분석과 방향이 맞다.

gradient 측면에서도 논문은 text-based link와 RecursiveLink를 대비한다. 텍스트 경로는 \(\mathcal{R}_{\mathrm{text}}(h)=W_{\mathrm{in}}\operatorname{softmax}(W_{\mathrm{out}}h)\)로 볼 수 있는데, confident token distribution에서는 softmax covariance가 작아져 gradient norm이 \(O(\epsilon)\) 수준으로 줄어든다. 반대로 residual RecursiveLink는 항등 경로를 포함하므로 높은 확률로 gradient norm이 1 근처를 유지한다는 분석을 제시한다. 이론적 가정은 단순화되어 있지만, 재귀 loop를 학습 가능한 구조로 만들기 위해 residual link가 필요하다는 직관을 잘 뒷받침한다.

4. 실험 설정: 협업 패턴, 벤치마크, 학습 조건

4.1 평가 태스크와 데이터셋

실험은 총 9개 벤치마크를 대상으로 한다. 수학 추론에는 MATH500, AIME2025, AIME2026이 포함된다. 과학 및 의학에는 GPQA-DiamondMedQA가 쓰인다. 코드 생성은 LiveCodeBench-v6MBPP Plus로 평가한다. 검색 질의응답 설정에는 HotpotQABamboogle이 들어간다. AIME 계열은 robustness를 보기 위해 Pass@10 accuracy를 보고한다.

이 구성은 RecursiveMAS가 단순히 수학 전용 chain-of-thought 개선인지, 아니면 더 일반적인 MAS 연결 방식인지 보기 위한 설계다. 수학 문제는 긴 symbolic reasoning과 정확한 최종값이 중요하고, GPQA-Diamond는 graduate-level 과학 지식과 다단계 추론을 요구한다. MedQA는 임상 시나리오에서 진단적 판단을 필요로 하며, 코드 생성은 형식적 실행 가능성과 알고리즘 정확도를 동시에 요구한다. 검색 QA는 tool-augmented deliberation의 일반성을 확인하는 축이다.

4.2 에이전트 구성과 협업 패턴

논문은 RecursiveMAS를 네 가지 대표 협업 패턴으로 구성한다. 가장 기본이 되는 Sequential Style은 Planner, Critic, Solver를 둔다. Light 설정은 Qwen3-1.7B, Llama3.2-1B-Instruct, Qwen2.5-Math-1.5B-Instruct처럼 작은 모델을 사용하고, Scaled 설정은 Gemma3-4B-it, Llama3.2-3B-Instruct, Qwen3.5-4B처럼 더 강한 모델을 사용한다. 이렇게 light와 scaled를 나누어 재귀 스케일링이 작은 모델과 중간 크기 모델 모두에서 작동하는지 확인한다.

표 1. RecursiveMAS의 협업 패턴별 에이전트 구성
Collaboration Pattern Role Model
Sequential Light Planner Qwen3-1.7B
Sequential Light Critic Llama3.2-1B-Instruct
Sequential Light Solver Qwen2.5-Math-1.5B-Instruct
Sequential Scaled Planner Gemma3-4B-it
Sequential Scaled Critic Llama3.2-3B-Instruct
Sequential Scaled Solver Qwen3.5-4B
Mixture Code Specialist Qwen2.5-Coder-3B-Instruct
Mixture Science Specialist BioMistral-7B
Mixture Math Specialist DeepSeek-R1-Distill-Qwen-1.5B
Mixture Summarizer Qwen3.5-2B
Distillation Learner Qwen3.5-4B
Distillation Expert Qwen3.5-9B
Deliberation Reflector Qwen3.5-4B
Deliberation Tool-Caller Qwen3.5-4B with tool integration

표 1에서 눈에 띄는 점은 모델 계열이 의도적으로 섞여 있다는 것이다. Qwen, Llama, Gemma, Mistral 계열을 함께 쓰기 때문에, RecursiveLink는 같은 tokenizer와 같은 hidden dimension을 공유하는 쉬운 조건만 처리하는 것이 아니다. 특히 outer RecursiveLink는 이질적 모델 사이의 cross-model transition을 담당하므로, RecursiveMAS의 유효성은 이 표의 heterogeneity 위에서 검증된다.

4.3 학습 데이터와 구현 세부사항

학습 데이터는 여러 도메인에서 모았다. 수학 문제에는 s1K, 의학 및 과학 태스크에는 m1K, 코드 생성에는 OpenCodeReasoning, tool-augmentation 설정에는 ARPO-SFT가 쓰인다. 각 협업 패턴에 맞춰 role-specific supervision target도 구성한다. 예를 들어 Sequential Style에서는 대형 Qwen3.5-397B-A17B를 사용해 초기 계획과 critic-guided plan을 만들고, Planner와 Critic은 각각 그 역할별 target으로 학습한다. Solver는 원래 정답을 target으로 유지한다.

모든 LLM agent parameter는 freeze하고, 업데이트되는 부분은 RecursiveLink뿐이다. optimizer는 AdamW, learning rate는 5e-4, cosine scheduler, batch size는 4로 설정된다. 추론에서는 reasoning task에 top-p 0.95와 temperature 0.6을, 코드 생성에는 temperature 0.2를 사용한다. 최대 출력 길이는 각 task 난이도에 맞게 조정하며, hyperparameter tuning 후 다섯 번 독립 실행의 평균 성능을 보고한다.

4.4 비교 방법과 공정성 조건

비교군은 크게 세 부류다. 첫째, 각 협업 패턴에서 가장 강한 단일 에이전트를 분리해 쓰는 Single Agent 계열이다. 이들은 같은 데이터로 LoRA 또는 full supervised fine-tuning을 받는다. 둘째, recursion baseline으로 단일 recursive language model인 LoopLM과, 같은 MAS 구조를 텍스트로 재귀하는 Recursive-TextMAS가 포함된다. 셋째, 대표 MAS 프레임워크인 TextGradMixture-of-Agents가 비교된다.

논문은 같은 backbone model, 같은 training budget, 비슷한 trainable parameter 규모를 맞추려 한다고 설명한다. 이 조건은 중요하다. RecursiveMAS가 단지 더 큰 모델을 썼거나 더 많은 학습 데이터를 쓴 결과라면 방법론적 결론이 약해진다. 하지만 표 3의 비교는 동일한 scaled sequential setting에서 여러 baseline을 나란히 두고, RecursiveMAS가 MATH500, AIME, GPQA-D, LiveCodeBench, MedQA에서 일관되게 높은 값을 얻었음을 보여 준다.

5. 주요 실험 결과: 재귀 깊이와 잠재 통신의 성능 효과

5.1 재귀 라운드가 깊어질수록 성능과 효율이 함께 개선된다

가장 먼저 볼 결과는 재귀 라운드 \(r=1,2,3\)에 따른 변화다. 논문은 같은 MAS 구조에서 Recursive-TextMAS와 RecursiveMAS를 비교하고, accuracy, end-to-end runtime, token usage를 함께 보고한다. 평균 요약은 표 2처럼 정리할 수 있다. 라운드가 1일 때도 RecursiveMAS는 8.1% 향상을 보이고, 2와 3으로 깊어지면 향상폭이 19.6%, 20.2%로 커진다. 동시에 speedup과 token reduction도 증가한다.

표 2. 재귀 라운드별 RecursiveMAS 평균 요약
Recursion Round Accuracy Improvement Inference Speedup Token Reduction
r=1 8.1% 1.2x 34.6%
r=2 19.6% 1.9x 65.5%
r=3 20.2% 2.4x 75.6%

표 2는 단순히 정확도만 오른다는 이야기가 아니다. 보통 test-time compute를 늘리면 정확도는 오르더라도 비용이 커진다. RecursiveMAS는 중간 협업을 latent space에서 수행하기 때문에, 재귀 라운드를 늘려도 텍스트 기반 재귀보다 비용 증가가 훨씬 작다. 그래서 r=3에서는 정확도 향상과 2.4배 속도 향상, 75.6% 토큰 절감이 동시에 보고된다. 이는 재귀가 깊어질수록 텍스트 인터페이스의 비효율도 함께 드러난다는 결과로 읽힌다.

Inference time speedup across recursion rounds

Figure 5: 세 재귀 라운드에서 RecursiveMAS의 추론 시간 speedup.

Figure 5는 라운드가 늘어날수록 RecursiveMAS의 시간 이득이 커지는 추세를 보여 준다. r=1에서는 이미 텍스트 재귀보다 빠르지만, r=2와 r=3에서는 중간 텍스트 생성이 누적되는 Recursive-TextMAS와의 차이가 더 벌어진다. 이는 RecursiveLink가 단일 step 최적화에 머물지 않고 재귀 깊이가 커질 때 효과가 확대되는 구조적 개선임을 시사한다. 재귀를 많이 쓰는 설정일수록 latent interface의 가치가 커진다는 뜻이다.

Token reduction across recursion rounds

Figure 6: 세 재귀 라운드에서 RecursiveMAS의 토큰 사용량 감소.

Figure 6은 토큰 절감 효과를 직접 보여 준다. Recursive-TextMAS는 각 에이전트와 각 라운드에서 중간 답변을 텍스트로 남기므로 recursion depth가 커질수록 token budget이 빠르게 커진다. RecursiveMAS는 대부분의 중간 교환을 hidden representation으로 처리해 r=3에서 75.6% 절감을 달성한다. 이는 API 비용과 latency가 중요한 실제 MAS 배포에서 큰 차이를 만든다.

5.2 전체 비교: 단일 에이전트, MAS, recursive baseline을 모두 앞선다

더 넓은 비교에서는 r=3의 RecursiveMAS를 여러 방법과 나란히 둔다. 표 3을 보면 RecursiveMAS는 모든 열에서 가장 높은 수치를 낸다. MATH500은 88.0, AIME2025와 AIME2026은 각각 86.7, GPQA-Diamond는 66.2, LiveCodeBench는 42.9, MedQA는 79.3이다. 특히 AIME 계열에서 TextGrad와 Single Agent Full-SFT가 73.3 또는 76.7 수준인 데 비해 RecursiveMAS가 86.7을 기록한다.

표 3. RecursiveMAS와 주요 baseline 비교
Method MATH500 AIME2025 AIME2026 GPQA-D LiveCodeBench MedQA
Single Agent LoRA 83.1 70.0 73.3 62.0 37.4 76.1
Single Agent Full-SFT 83.2 73.3 76.7 62.8 38.6 77.0
MoA 79.8 60.0 63.3 47.6 27.0 57.5
TextGrad 84.9 73.3 76.7 62.5 39.8 77.2
LoopLM 84.6 66.7 63.3 48.1 24.9 56.4
Recursive-TextMAS 85.8 73.3 73.3 61.6 38.7 77.0
RecursiveMAS 88.0 86.7 86.7 66.2 42.9 79.3

표 3에서 가장 설득력 있는 부분은 RecursiveMAS가 특정 benchmark 하나에서만 튀지 않는다는 점이다. MoA는 mixture aggregation이 강한 상황에서는 유리할 수 있지만 여기서는 전반적으로 낮고, LoopLM은 단일 모델 재귀가 MAS의 역할 분업을 충분히 대체하지 못한다. Recursive-TextMAS는 구조는 같지만 통신 매체가 텍스트이기 때문에 정확도와 효율에서 모두 밀린다. 따라서 핵심 이득은 재귀 깊이 하나로 설명되기보다, 재귀를 잠재 공간의 다중 에이전트 연결로 구현한 점에서 나온다.

5.3 다양한 협업 패턴에서의 일반화

논문은 Sequential Style 외에도 Mixture, Distillation, Deliberation 설정을 별도로 분석한다. Mixture에서는 code, science, math specialist가 각자의 강점을 내고 Summarizer가 합친다. Distillation에서는 작은 Learner와 큰 Expert를 연결해, Expert 지식을 Learner 쪽으로 전달한다. Deliberation에서는 Reflector와 Tool-Caller가 tool integration 조건에서 상호작용한다. 이 세 설정은 MAS 토폴로지가 바뀌어도 RecursiveLink 기반 재귀가 작동하는지 보기 위한 stress test에 해당한다.

표 4. 협업 패턴별 추가 결과 요약
Pattern Comparison Reported Values Interpretation
Distillation Expert / Learner / RecursiveMAS AIME2026 90.0 / 76.7 / 83.3, GPQA-D 72.7 / 61.4 / 70.0, LiveCodeBench 46.2 / 38.4 / 40.1, MBPP+ 73.4 / 67.5 / 71.9, MedQA 86.0 / 77.9 / 83.0 Learner를 8.0% 개선하면서 Expert보다 1.5x 빠른 추론을 유지한다.
Mixture Specialists vs RecursiveMAS AIME2026 46.7, GPQA-Diamond 43.0, LiveCodeBench 23.8, MedQA 61.7 for RecursiveMAS 강한 단일 specialist 선택보다 cross-domain latent composition이 더 나은 경우를 만든다.
Deliberation Reflector / Tool-Caller / RecursiveMAS RecursiveMAS: AIME2026 90.0, GPQA-Diamond 65.0, HotpotQA 41.4, Bamboogle 53.7 도구 호출 환경에서도 reflector 신호를 잠재 공간으로 반복 전달해 성능을 높인다.

표 4는 RecursiveMAS가 순차형 Planner-Critic-Solver에 특화된 트릭이 아님을 보여 준다. 특히 Distillation Style에서 Learner가 Expert 전체를 따라잡지는 못하지만, Expert보다 훨씬 빠른 경로로 상당한 성능을 끌어올린다는 점이 실용적이다. Deliberation Style에서는 tool-calling 환경에서도 latent recursive coordination이 유지된다. 다만 mixture 결과는 benchmark마다 specialist 강도가 크게 달라, 어떤 domain에서는 Summarizer의 bottleneck이 남을 가능성도 함께 시사한다.

5.4 훈련-추론 재귀 스케일링의 해석

Figure 1의 위쪽 패널은 training recursion depth와 inference recursion depth를 함께 바꾸어 성능 landscape를 그린다. 여기서 중요한 관찰은 inference recursion만 늘려도 일정한 이득이 있지만, training recursion을 함께 늘리면 전체 frontier가 위로 이동한다는 점이다. 이는 모델이 훈련 중에 다음 라운드가 읽기 쉬운 latent state를 생성하는 법을 배워야, 테스트 시간 재귀가 더 잘 작동한다는 뜻이다.

이 결과는 test-time compute 연구와 맞닿아 있다. 일반적으로 더 오래 생각하게 하면 성능이 좋아질 수 있지만, 그 생각이 구조적으로 다음 단계에 전달되지 않으면 추가 계산이 낭비될 수 있다. RecursiveMAS에서는 outer-loop training이 재귀 라운드 간 전달을 직접 최적화하므로, inference에서 라운드를 늘리는 행위가 단순 반복을 넘어 learned refinement path를 더 오래 따라가는 일이 된다. 이 점이 단순 self-consistency 또는 다중 샘플링과 구별된다.

6. 추가 분석 및 Ablation Study: 링크 구조와 잠재 길이의 민감도

6.1 RecursiveLink 설계 ablation: residual 2-layer가 가장 강하다

논문은 RecursiveLink 구조를 네 가지로 비교한다. 1-layer, residual 1-layer, 2-layer, residual 2-layer가 그 대상이다. 실험은 scaled sequential-style RecursiveMAS에서 수행하고, inner 및 outer RecursiveLink 모두 같은 설계로 바꾼다. 결과는 표 5와 같다. residual 2-layer가 MATH500 88.0, GPQA-D 66.2, LiveCodeBench 42.9로 세 benchmark 모두에서 가장 높다.

표 5. RecursiveLink 설계 ablation
RecursiveLink Design Math500 GPQA-D LiveCodeBench
1-Layer 84.4 63.2 40.1
Res+1-Layer 86.7 65.3 41.4
2-Layer 85.6 64.5 40.5
Res+2-Layer 88.0 66.2 42.9

표 5에서 residual connection의 효과가 특히 선명하다. 1-layer에 residual을 붙이면 GPQA-D가 63.2에서 65.3으로 오른다. 2-layer plain보다도 residual 1-layer가 더 높다는 점은, 깊이보다 원래 latent semantics를 보존하는 경로가 더 중요할 수 있음을 보여 준다. 최종 설계인 Res+2-Layer는 표현 변환 능력과 의미 보존을 함께 확보한다.

6.2 semantic representation 분석: 재귀가 ground truth 분포 쪽으로 이동한다

논문은 scaled sequential setting에서 500개의 question-answer pair를 샘플링하고, ground-truth answer와 RecursiveMAS의 생성 답변을 같은 solver embedding layer로 매핑한 뒤 PCA로 시각화한다. 목적은 재귀 라운드가 늘어날수록 생성 답변의 semantic distribution이 정답 분포와 더 가까워지는지 보는 것이다. r=1에서는 두 분포가 분리되어 보이지만, r=3으로 갈수록 orange generated distribution이 purple ground truth distribution과 더 많이 겹친다.

Semantic representation analysis across recursion rounds

Figure 7: 재귀 라운드별 생성 답변과 정답의 semantic representation 정렬.

Figure 7은 RecursiveMAS의 재귀가 단순히 같은 답을 여러 번 반복하는 과정이 아님을 보여 준다. r=1의 생성 답변 임베딩은 정답 분포에서 눈에 띄게 벗어나지만, r=2와 r=3에서는 분포 간 간격이 줄어든다. 논문의 case study도 초반에는 틀린 답을 내다가 더 깊은 재귀에서 수정되는 패턴을 보고한다. 따라서 이 그림은 latent thoughts가 최종 의미 공간에서 점진적 보정 신호로 작동한다는 간접 증거로 읽을 수 있으며, 분포 정렬이 실제 정확도 상승과 같은 방향으로 움직인다는 점을 확인시킨다.

물론 PCA 시각화만으로 정답 메커니즘을 증명할 수는 없다. 그러나 표 2와 표 3의 수치 개선과 결합하면, latent thoughts가 의미 없는 압축 노이즈에 그치지 않고 최종 답변의 semantic alignment에 기여한다는 근거가 된다. 특히 같은 solver embedding layer로 정답과 생성 답변을 모두 매핑했다는 점은 비교 축을 어느 정도 통제한다. 향후에는 PCA보다 더 정량적인 distribution distance나 trajectory curvature 분석도 붙일 수 있다.

6.3 latent thought 길이: 약 80 step 근처에서 포화

RecursiveMAS는 각 에이전트가 생성하는 latent thought 길이 \(m\)에도 민감할 수 있다. 너무 짧으면 다음 에이전트가 활용할 정보가 부족하고, 너무 길면 불필요한 계산과 noise가 늘 수 있다. 논문은 \(m=0\)부터 128까지 여러 값을 비교하며 MATH500, GPQA-D, LiveCodeBench 성능을 본다. 결과는 초반에는 길이를 늘릴수록 좋아지고, 약 \(m=80\) 전후에서 plateau에 도달한다.

Effectiveness of latent thoughts with different step lengths

Figure 8: latent thought step length 변화에 따른 RecursiveMAS 성능.

Figure 8은 latent thought budget이 무한히 길 필요가 없다는 점을 보여 준다. MATH500, GPQA-D, LiveCodeBench 모두 0에서 64 또는 80 step까지는 꾸준히 개선되지만, 그 뒤에는 상승폭이 작아진다. 이는 RecursiveMAS가 긴 텍스트 CoT 없이도 비교적 짧은 잠재 thought sequence로 필요한 협업 정보를 전달할 수 있음을 시사한다. 운영 관점에서는 문제 난이도에 맞춘 latent step 예산 조절이 가능하다는 의미도 갖는다.

이 ablation은 실용적으로 중요하다. 중간 텍스트를 줄이는 대신 hidden vector sequence를 길게 늘리면 비용 절감이 약해질 수 있다. 그러나 논문 결과처럼 moderate latent budget에서 성능이 포화된다면, 운영자는 task 난이도와 latency 제약에 맞춰 \(m\)을 조정할 수 있다. 예를 들어 AIME처럼 고난도 reasoning task에서는 더 큰 \(m\)을 쓰고, 간단한 QA나 실시간 tool-calling에서는 더 작은 \(m\)으로 제한하는 식의 adaptive latent budget 연구가 가능하다.

6.4 비용 분석: Full-SFT보다 작고 LoRA보다도 효율적인 trade-off

비용 측면에서 RecursiveMAS는 전체 모델을 fine-tuning하지 않는 전략의 장점을 보여 준다. 표 6에 따르면 LoRA training은 peak GPU memory 21.67GB, trainable parameter 15.92M, estimated cost $6.64, 평균 정확도 66.9를 기록한다. Full-SFT는 41.40GB와 4.21B trainable parameter를 쓰고 cost도 $9.67로 더 높지만 평균 정확도는 68.6이다. RecursiveMAS는 15.29GB, 13.12M parameter, $4.27 cost로 평균 정확도 74.9를 낸다.

표 6. RecursiveMAS 비용 분석
Method GPU Mem. Trainable Param. Cost Avg. Acc.
LoRA Training 21.67GB 15.92M (0.37%) $6.64 66.9
Full-SFT 41.40GB 4.21B (100%) $9.67 68.6
RecursiveMAS 15.29GB 13.12M (0.31%) $4.27 74.9

표 6은 RecursiveMAS의 가장 실용적인 장점을 압축한다. trainable parameter 비율은 LoRA와 비슷하거나 더 작고, GPU memory와 estimated cost는 더 낮은데 평균 정확도는 더 높다. 이는 성능 향상이 backbone 자체를 더 잘 맞춘 결과라기보다, 에이전트 사이의 정보 흐름을 최적화한 결과라는 해석을 강화한다. 실제 서비스에서는 여러 대형 에이전트를 매번 fine-tuning하기 어렵기 때문에, 링크만 학습하는 접근의 운영 장점이 크다.

7. 한계점 및 향후 연구 방향: 숨겨진 추론과 운영 안정성

7.1 한계점: 잠재 협업의 해석 가능성과 오류 전파

RecursiveMAS의 가장 직접적인 한계는 해석 가능성 감소다. 텍스트 기반 MAS에서는 Planner의 계획, Critic의 비판, Solver의 풀이를 사람이 읽고 어디서 실패했는지 확인할 수 있다. RecursiveMAS는 중간 협업을 hidden representation으로 처리하므로, 각 에이전트가 어떤 근거를 다음 에이전트에게 전달했는지 직접 보기가 어렵다. 최종 답이 틀렸을 때 링크 변환이 문제였는지, 특정 에이전트의 latent generation이 문제였는지, 재귀 라운드가 오류를 강화했는지 분리하기 쉽지 않다.

두 번째 한계는 이질적 모델 간 의미 정렬의 안정성이다. 표 1은 다양한 모델 계열을 연결한다는 장점을 보여 주지만, hidden space 간 정렬이 항상 잘 된다는 보장은 없다. 논문은 residual RecursiveLink와 inner-outer training으로 이 문제를 완화하지만, 특정 모델 조합이나 tokenizer 차이가 큰 조합에서 semantic drift가 발생할 수 있다. 특히 safety-critical domain에서는 latent transfer가 원래 모델의 instruction-following boundary를 우회하지 않는지 점검해야 한다.

세 번째 한계는 벤치마크 범위와 실제 에이전트 환경의 간극이다. 논문은 수학, 과학, 의학, 코드, 검색 QA까지 넓게 다루지만, 대부분은 정답이 명확한 supervised benchmark다. 실제 장기 에이전트 환경에서는 상태가 변하고, tool result가 noisy하며, 사용자 목표가 시간에 따라 바뀐다. RecursiveMAS의 latent loop가 이런 open-ended setting에서도 안정적으로 credit assignment를 수행하는지, 그리고 잘못된 latent memory가 다음 라운드에 누적되지 않는지는 추가 검증이 필요하다.

7.2 향후 연구: 관측 가능한 latent debugging과 adaptive recursion

향후 연구의 첫 번째 방향은 latent debugging이다. RecursiveMAS가 텍스트 중간 산출물을 줄이는 만큼, 연구자는 hidden transfer를 점검할 별도 도구를 마련해야 한다. 예를 들어 각 RecursiveLink 출력에 대해 probe classifier를 붙여 어떤 role signal이 보존되는지 측정하거나, 특정 에이전트의 latent thought를 text decoder로 부분 복원해 사람이 읽을 수 있는 audit trace를 만들 수 있다. 이렇게 하면 efficiency와 해석 가능성 사이의 균형을 더 정밀하게 조정할 수 있다.

두 번째 방향은 adaptive recursion depth다. 논문은 r=1,2,3을 비교하지만, 모든 문제에 같은 r을 쓰는 것은 최적이 아닐 수 있다. 쉬운 문제는 r=1에서 충분하고, 어려운 AIME나 GPQA-D 질문은 r=3 또는 그 이상이 필요할 수 있다. uncertainty estimator, agreement score, latent distribution shift를 이용해 문제별로 recursion depth를 선택하면, RecursiveMAS의 비용 대비 성능을 더 끌어올릴 수 있다. 이는 Figure 1의 training-inference scaling 결과와 자연스럽게 이어진다.

세 번째 방향은 tool 및 environment feedback과의 결합이다. Deliberation Style에서 tool-caller가 포함되긴 하지만, 논문 전체의 중심은 여전히 latent agent-to-agent transfer다. 실제 배포형 MAS는 외부 검색, 코드 실행, 데이터베이스 질의, 사용자 피드백을 loop 안에 포함한다. RecursiveLink가 agent hidden state와 함께 tool result embedding까지 처리하도록 확장하면, retrieval 결과와 agent reasoning을 같은 latent loop 안에서 통합할 수 있다. 다만 이 경우 tool 오류가 latent space에서 증폭되지 않도록 gating과 validation이 필요하다.

마지막으로 cross-model compatibility benchmark가 필요하다. 현재 논문은 여러 모델 계열을 사용하지만, 어떤 조합에서 RecursiveLink가 잘 작동하고 어떤 조합에서 실패하는지 체계적인 지도는 제공하지 않는다. hidden dimension, tokenizer family, instruction tuning style, domain specialization 정도를 축으로 삼아 compatibility matrix를 만들면, RecursiveMAS를 실제로 구성할 때 어떤 에이전트 조합이 안전하고 효율적인지 판단하기 쉬워진다.

8. 내 해석: 관측 가능한 잠재 협업으로 확장하기

8.1 약점 1: 중간 추론을 숨기면서 얻은 효율의 비용

내가 보는 RecursiveMAS의 가장 큰 약점은 중간 추론의 관측 가능성을 비용 절감과 맞바꾼다는 점이다. 논문은 텍스트 중간 출력을 줄여 속도와 토큰 사용량을 크게 개선한다. 그러나 MAS가 실용적으로 쓰이는 이유 중 하나는 role별 산출물을 사람이 점검할 수 있다는 데 있다. Planner가 어떤 하위 문제를 설정했는지, Critic이 어떤 오류를 잡았는지, Solver가 어떤 근거로 답을 선택했는지 볼 수 있어야 디버깅과 책임소재 분석이 가능하다.

RecursiveMAS에서는 이런 정보가 hidden state로 이동한다. 성능 benchmark에서는 이것이 장점으로 드러나지만, 실제 운영에서는 문제가 생길 수 있다. 예를 들어 의료 QA에서 최종 답이 맞더라도 중간 latent transfer가 편향된 근거를 담았을 수 있고, 코드 생성에서 정답 테스트를 통과하더라도 특정 보안 취약 패턴이 latent loop를 통해 강화될 수 있다. 텍스트 로그가 없으면 이런 실패를 사후 분석하기 어렵다. 따라서 RecursiveMAS의 다음 단계는 성능 향상보다 latent auditability를 보강하는 쪽이어야 한다.

또 하나의 세부 약점은 figure와 table 결과가 대부분 평균 성능 중심이라는 점이다. 재귀 깊이가 깊어질수록 평균 accuracy가 오르는 것은 설득력 있지만, 어떤 문제 유형에서는 r=3이 오히려 초기 정답을 망치는지, 어떤 도메인에서 semantic drift가 커지는지에 대한 실패 분해가 더 필요하다. RecursiveMAS의 강점이 system-level recursion이라면, 실패 분석도 system-level로 제시되어야 한다. 현재 논문은 case study를 제공하지만, 운영자가 신뢰할 수 있는 failure taxonomy까지는 도달하지 못했다.

8.2 후속 제안 1: MASS-RAG식 증거 추적을 latent recursion에 접목하기

이전에 검토한 MASS-RAG는 multi-agent synthesis를 이용해 검색된 evidence를 처리하고, 여러 에이전트가 evidence selection과 answer synthesis에 기여하는 구조를 보였다. 그 논문에서 multi-agent의 이득은 주로 post-retrieval text synthesis 단계에 있었다. 즉 문서가 검색된 뒤, 여러 역할이 텍스트 근거를 읽고 종합하는 방식이었다. RecursiveMAS는 그 이득의 위치를 바꾼다. 협업의 핵심을 retrieval 이후의 텍스트 합성에서 latent recursive transfer와 system-level training으로 옮긴다.

두 흐름을 결합하면 좋은 후속 연구가 나온다. 제안은 evidence-grounded RecursiveMAS다. 검색된 문서나 tool result는 MASS-RAG처럼 명시적 evidence object로 유지하고, 에이전트 사이의 reasoning state는 RecursiveMAS처럼 latent link로 전달한다. 다만 각 latent transfer에는 어떤 evidence span을 조건으로 삼았는지 표시하는 lightweight attribution head를 붙인다. 이렇게 하면 latent recursion의 효율을 유지하면서도, 최종 답변이 어떤 외부 증거에 의해 지지되는지 추적할 수 있다.

구체적으로는 outer RecursiveLink 출력 \(\mathcal{R}_{\mathrm{out}}(H_i)\)와 evidence embedding \(E_k\) 사이의 alignment score를 계산하고, 최종 답변의 각 claim이 어떤 evidence cluster와 연결되는지 저장할 수 있다. 이때 alignment는 사람이 읽는 긴 중간 CoT를 요구하지 않는다. 대신 짧은 citation trace, evidence id, confidence score만 남긴다. 그러면 RecursiveMAS가 줄인 토큰 비용을 크게 훼손하지 않으면서도, RAG 환경에서 필요한 근거 추적성을 확보할 수 있다.

이 후속 연구의 평가도 단순 accuracy만으로는 부족하다. 답변 정확도, evidence attribution F1, latency, token usage, latent probe consistency를 함께 봐야 한다. 특히 hallucination-sensitive domain에서는 RecursiveMAS가 hidden transfer로 정답률을 올리더라도 evidence grounding이 약해지면 실용성이 떨어질 수 있다. MASS-RAG의 장점인 증거 처리와 RecursiveMAS의 장점인 latent recursive system training을 결합하면, 다음 세대 MAS는 빠르면서도 추적 가능한 협업에 가까워질 수 있다.

9. 결론: MAS를 학습 가능한 재귀 통신 그래프로 보는 관점

9.1 논문의 핵심 메시지

RecursiveMAS는 다중 에이전트 시스템의 스케일링 축을 새롭게 잡는다. 기존에는 더 큰 모델, 더 많은 에이전트, 더 긴 프롬프트, 더 많은 텍스트 토론이 자연스러운 확장 방향이었다. 이 논문은 반대로 중간 토론을 텍스트로 길게 남기지 않고, hidden representation을 재귀적으로 전달하고 학습하는 구조를 제안한다. 결과적으로 MAS를 사람이 설계한 prompt pipeline에서 학습 가능한 잠재 계산 시스템으로 바꾸려는 시도다.

방법론적으로 가장 중요한 요소는 RecursiveLink다. inner link는 각 에이전트가 latent thought를 생성하도록 돕고, outer link는 이질적 에이전트 사이의 hidden state를 연결한다. 이 작은 모듈만 학습함으로써 대형 LLM agent를 모두 fine-tuning하지 않고도 전체 시스템의 정보 흐름을 최적화한다. inner-outer loop training은 개별 latent generation과 시스템-level recursive collaboration을 나누어 안정화한다.

실험적으로는 수치가 강하다. RecursiveMAS는 MATH500 88.0, AIME2025 86.7, AIME2026 86.7, GPQA-D 66.2, LiveCodeBench 42.9, MedQA 79.3을 기록하며 표 3의 모든 baseline을 앞선다. 재귀 깊이가 늘어날수록 Recursive-TextMAS 대비 성능 이득, speedup, token reduction이 모두 커진다. cost table에서도 Full-SFT나 LoRA보다 낮은 비용으로 높은 평균 정확도를 얻는다.

다만 이 논문을 곧바로 모든 MAS의 해답으로 읽어서는 안 된다. latent collaboration은 효율적이지만, 중간 reasoning trace를 덜 남긴다. 해석 가능성, 오류 전파, evidence grounding, safety audit이 필요한 실제 환경에서는 추가 장치가 필요하다. 그럼에도 RecursiveMAS가 제시한 관점은 분명하다. 다중 에이전트의 가치는 단순히 여러 답변을 합치는 데서만 나오지 않는다. 에이전트 사이의 연속 표현 인터페이스를 학습하면, 협업 자체가 테스트 시간 계산과 함께 스케일링될 수 있다.

9.2 이 논문을 읽어야 하는 독자

이 논문은 세 부류의 독자에게 특히 유용하다. 첫째, MAS를 실제 제품이나 연구 파이프라인에 쓰면서 latency와 token cost에 부딪힌 독자다. RecursiveMAS는 중간 텍스트를 줄이는 구체적 설계를 제공한다. 둘째, recursive language model과 test-time compute 연구를 다중 에이전트로 확장하고 싶은 독자다. 단일 모델 loop를 시스템 loop로 옮기는 설계 사례로 볼 수 있다. 셋째, 여러 모델 계열을 조합하는 agentic AI에서 연결부를 어떻게 학습할지 고민하는 독자다.

개인적으로는 이 논문의 가치를 latent interface를 학습 가능한 시스템 자산으로 본 점에서 크게 본다. 에이전트 연구에서는 모델 자체보다 orchestration 코드, 프롬프트, 도구 래퍼가 성능을 좌우하는 경우가 많다. RecursiveMAS는 그 orchestration의 핵심인 agent-to-agent interface를 작은 residual projection으로 만들고, 최종 손실에서 직접 학습한다. 이는 앞으로의 agent framework가 단순한 라우팅 로직에서 differentiable middleware로 이동할 수 있음을 보여 주는 신호다.

9.3 재현성을 위해 확인해야 할 구현 포인트

RecursiveMAS를 재현하려면 가장 먼저 training recursion depthinference recursion depth를 분리해 기록해야 한다. Figure 1의 핵심이 두 축의 조합에서 나오기 때문에, r=3 추론 결과만 보고 학습도 r=3이었는지, 혹은 더 얕은 학습에서 test-time recursion만 늘린 것인지 확인해야 한다. 이 구분이 빠지면 재귀 깊이의 효과가 훈련된 표현의 효과인지, 단순 반복 계산의 효과인지 모호해진다.

두 번째 체크포인트는 latent thought length m이다. Figure 8에서 약 80 step 전후로 성능이 포화된다는 관찰은 매우 실용적이지만, 이 값은 hidden dimension, 모델 계열, task 난이도, max output length에 따라 달라질 수 있다. 따라서 재현 실험에서는 m을 고정값으로만 두지 말고, 최소한 0, 32, 64, 80, 128 같은 몇 개의 anchor point를 함께 보고해야 한다. 그래야 성능 향상이 latent budget 증가 때문인지 링크 구조 때문인지 분리된다.

세 번째는 backbone freeze 조건이다. 논문은 모든 LLM agent parameter를 고정하고 RecursiveLink만 업데이트한다고 설명한다. 이 조건이 무너지면 표 6의 비용 비교가 의미를 잃는다. 예를 들어 일부 layer norm이나 embedding table이 함께 업데이트되면 trainable parameter 수는 작아 보여도 실제로는 모델 내부 표현이 바뀐다. 그러면 RecursiveMAS의 기여가 lightweight interface learning인지, 부분 fine-tuning인지 구분하기 어렵다.

네 번째는 role-specific target construction이다. Sequential Style에서 Planner와 Critic이 각각 초기 계획과 critic-guided plan으로 warm start되는 과정은 단순한 부가 세부사항이 아니다. inner-loop가 얼마나 안정적으로 시작되는지를 결정하는 입력 분포이기 때문이다. mixture, distillation, deliberation도 각 역할에 맞는 supervision target을 갖는다. 이 데이터 구성 방식이 바뀌면 RecursiveLink 학습 난이도와 최종 성능이 크게 달라질 수 있다.

다섯 번째는 baseline의 topology 동등성이다. Recursive-TextMAS와 비교할 때는 에이전트 수, 역할 순서, 재귀 라운드, 사용 모델, decoding budget이 맞아야 한다. 텍스트 baseline이 더 짧은 중간 답변을 쓰거나, 반대로 불필요하게 긴 CoT를 쓰면 speedup과 token reduction의 해석이 왜곡된다. RecursiveMAS의 주장은 latent interface가 같은 구조에서 더 효율적이라는 것이므로, 구조가 달라진 비교는 보조 결과로만 읽어야 한다.

여섯 번째는 end-to-end time 측정 범위다. 논문은 RecursiveMAS가 Recursive-TextMAS보다 1.2배에서 2.4배 빠르다고 보고한다. 이 값을 재현하려면 모델 forward 시간, RecursiveLink projection, 데이터 이동, padding과 masking 처리, 마지막 텍스트 decoding을 모두 포함해야 한다. GPU kernel 수준의 microbenchmark만 보면 링크 자체는 작게 보일 수 있지만, 실제 MAS에서는 에이전트 간 handoff와 batch 구성 방식이 latency를 크게 좌우한다.

일곱 번째는 분산과 작은 benchmark의 불확실성이다. AIME2025와 AIME2026은 각각 30문항 규모의 challenging benchmark로, Pass@10을 쓰더라도 seed와 sampling 설정에 민감할 수 있다. 논문은 다섯 번 독립 실행 평균을 보고한다고 설명하지만, 실제 재현에서는 문항별 성공/실패 전환, temperature, top-p, maximum output length를 함께 기록하는 편이 좋다. 평균 정확도만 보면 특정 문제군에서 발생한 regression이 가려질 수 있다.

마지막으로 latent failure mode를 별도로 추적해야 한다. RecursiveLink가 학습되지 않은 초기 단계에서는 hidden vector가 다음 에이전트 입력 공간에서 의미 없는 방향으로 흐를 수 있고, 너무 깊은 재귀에서는 특정 잘못된 표현이 loop 안에서 강화될 수 있다. 이를 확인하려면 final accuracy 외에 link output norm, cosine drift, entropy proxy, probe accuracy 같은 보조 지표를 저장해야 한다. 이런 로그가 있어야 성능 저하가 어느 링크와 어느 라운드에서 시작되는지 찾을 수 있다.

9.4 실제 MAS 설계에 주는 교훈

실제 시스템 설계 관점에서 RecursiveMAS가 주는 첫 번째 교훈은 모든 중간 산출물을 텍스트로 남길 필요는 없다는 점이다. 사람이 검토해야 하는 checkpoint와 모델이 다음 단계에서 소비하면 되는 internal state를 구분하면, 비용을 크게 줄일 수 있다. 예를 들어 사용자가 보는 답변 근거, tool 호출 결과, 최종 decision rationale은 텍스트로 남기되, Planner와 Critic 사이의 반복적 사고 교환은 latent link로 처리하는 하이브리드 구조가 가능하다.

두 번째 교훈은 에이전트 사이 인터페이스도 버전 관리 대상이라는 점이다. 지금까지 많은 agent framework는 프롬프트, tool schema, memory format을 주로 관리했다. RecursiveMAS 관점에서는 outer RecursiveLink가 그와 같은 수준의 시스템 자산이 된다. 모델 하나를 업그레이드하면 link의 source 또는 target distribution이 바뀌므로, 해당 링크를 재학습하거나 최소한 compatibility test를 통과시켜야 한다. 그렇지 않으면 개별 모델 성능은 좋아졌는데 전체 MAS 성능은 내려갈 수 있다.

세 번째 교훈은 텍스트 로그와 latent loop의 역할 분담이다. 규제나 감사가 필요한 domain에서는 모든 reasoning을 latent로 숨기는 설계가 곧바로 받아들여지기 어렵다. 대신 특정 라운드마다 요약 decoder를 붙여 짧은 audit note만 남기거나, 높은 uncertainty가 감지될 때만 중간 latent를 텍스트로 복원하는 conditional logging을 쓸 수 있다. 이렇게 하면 평상시 비용은 낮추고, 위험한 사례에서는 사람이 읽을 수 있는 경로를 확보한다.

네 번째 교훈은 동적 계산 예산이다. 표 2는 r이 커질수록 평균 이득이 늘어남을 보여 주지만, 모든 입력에 r=3을 쓰는 것은 비용 최적이 아닐 수 있다. 실제 서비스에서는 질문 난이도, 모델 간 disagreement, latent representation shift, 초기 답변 confidence를 보고 r과 m을 함께 조절하는 controller가 필요하다. RecursiveMAS의 구조는 이런 controller와 잘 맞는다. latent loop를 더 돌릴지, 최종 답변을 디코딩할지 결정하는 지점이 명확하기 때문이다.

다섯 번째 교훈은 도구 호출 앞에서는 보수적 gate가 필요하다는 점이다. Deliberation Style은 tool-caller와 reflector를 latent recursion으로 연결할 수 있음을 보여 주지만, 외부 세계에 side effect를 일으키는 tool까지 무조건 hidden state로 제어하는 것은 위험하다. 검색이나 계산처럼 read-only tool은 latent condition만으로 충분할 수 있지만, 파일 수정, 결제, 배포, 이메일 전송처럼 side effect가 큰 tool은 실행 직전 텍스트 요약과 rule-based validation을 거치는 편이 안전하다.

여섯 번째 교훈은 작은 링크가 전체 시스템 성능을 크게 좌우할 수 있다는 점이다. 표 5에서 residual 여부만 바꿔도 정확도가 뚜렷하게 달라진다. 이는 agent framework에서 “연결부는 단순 glue code”라는 관점이 충분하지 않다는 뜻이다. 모델 본체가 강하더라도, 그 사이를 잇는 표현 변환이 부정확하면 협업 성능은 쉽게 무너진다. 반대로 잘 학습된 링크는 작은 파라미터로도 여러 에이전트의 역할 분업을 강화한다.

일곱 번째 교훈은 에이전트 선택보다 연결 학습이 먼저일 수 있다는 점이다. 많은 실무 팀은 어떤 모델을 Planner로 쓰고 어떤 모델을 Solver로 쓸지에 집중한다. RecursiveMAS 결과는 그 다음 질문, 즉 선택된 모델들이 서로 어떤 표현을 주고받아야 하는지를 더 정교하게 다뤄야 함을 보여 준다. 특히 서로 다른 회사와 모델 계열을 섞는 환경에서는 link learning이 prompt engineering만큼이나 성능과 비용을 좌우하는 병목이 될 수 있다.

9.5 연구적 가치와 검증 우선순위

연구적으로 RecursiveMAS의 가치는 재귀와 다중 에이전트의 결합에 있다. 단일 모델 재귀는 같은 파라미터를 반복 사용해 reasoning depth를 늘리는 방향이고, MAS는 역할 분업으로 능력의 폭을 늘리는 방향이다. RecursiveMAS는 이 둘을 결합해, 여러 이질적 모델이 하나의 looped computation처럼 작동하게 만든다. 이는 모델 크기, 에이전트 수, 재귀 깊이, latent step 길이라는 네 개의 스케일링 축을 함께 다루게 한다.

다만 검증 우선순위는 분명히 남아 있다. 첫째, compatibility matrix가 필요하다. Qwen, Llama, Gemma, Mistral 계열 조합에서 결과가 좋다는 사실은 출발점일 뿐이다. 모델 크기 차이, hidden dimension 차이, instruction tuning 데이터 차이, tokenizer 차이가 커질수록 outer RecursiveLink가 얼마나 안정적인지 정량화해야 한다. 이 지도가 있어야 사용자가 새로운 모델을 끼워 넣을 때 필요한 데이터와 비용을 예측할 수 있다.

둘째, failure taxonomy가 필요하다. RecursiveMAS가 틀릴 때는 여러 원인이 섞일 수 있다. 첫 에이전트가 문제를 잘못 파악했을 수도 있고, inner link가 latent thought를 왜곡했을 수도 있으며, outer link가 의미를 다른 모델 공간으로 잘못 옮겼을 수도 있다. 또한 재귀 라운드가 깊어지면서 초기에 옳았던 답이 잘못된 critic signal에 의해 바뀌는 경우도 가능하다. 이런 실패를 문항별로 분류해야 방법 개선의 방향이 명확해진다.

셋째, grounding-sensitive evaluation이 필요하다. 이 리뷰의 8장에서 제안한 MASS-RAG 결합은 그 한 방법이다. 정확한 최종 답만 보는 benchmark에서는 latent recursion이 근거를 잃어도 드러나지 않을 수 있다. 문서 기반 QA, 의료 가이드라인 질의, 법률 문서 분석처럼 citation과 evidence trace가 요구되는 task에서 RecursiveMAS를 평가하면, 잠재 협업이 근거 추적성과 충돌하는지 또는 보완되는지 더 잘 알 수 있다.

넷째, long-horizon agent setting에서의 검증이 필요하다. 현재 결과는 대부분 독립 문항형 benchmark 위에서 강하다. 그러나 장기 작업에서는 한 단계의 latent error가 다음 에피소드의 memory, tool choice, user state에 영향을 줄 수 있다. RecursiveMAS를 웹 탐색, 코드베이스 수정, 실험 자동화 같은 장기 task에 적용하려면, 재귀 라운드 내부 오류와 에피소드 간 누적 오류를 함께 측정해야 한다. 여기서는 rollback, checkpointing, human review gate가 함께 설계되어야 한다.

다섯째, theory와 empirical scaling의 접점을 더 좁힐 필요가 있다. 논문은 text-based recursion의 gradient vanishing과 RecursiveLink의 residual 안정성을 분석하지만, 실제 LLM의 hidden state 분포, layer norm, attention cache, mixed precision 연산은 이론 가정보다 복잡하다. 따라서 link Jacobian norm, singular value spectrum, recursion depth별 gradient norm을 실제 학습 로그에서 측정하면, 이론적 주장이 어느 범위에서 실험과 맞는지 더 명확해진다.

그럼에도 RecursiveMAS는 agentic AI 연구에서 보기 드문 방향 전환을 제시한다. 더 많은 텍스트 토론을 붙이는 대신, 시스템 내부의 표현 전달 경로를 학습하고 재귀적으로 재사용한다. 이 관점은 앞으로의 MAS가 단순한 prompt pipeline이나 agent chatroom을 넘어 differentiable communication graph로 발전할 수 있음을 보여 준다. 성능 수치보다 더 오래 남을 기여는 바로 이 설계 언어일 가능성이 크다.

9.6 배포형 시스템으로 옮길 때의 평가 절차

배포형 MAS에 RecursiveMAS를 적용하려면 먼저 shadow evaluation을 권한다. 기존 텍스트 기반 pipeline을 유지한 상태에서 RecursiveMAS를 병렬로 돌리고, 최종 답변, latency, token usage, tool invocation trace를 비교한다. 이 단계에서는 사용자가 RecursiveMAS 출력을 직접 보지 않으므로 위험이 낮고, latent link가 특정 도메인이나 질문 유형에서 실패하는 패턴을 조기에 찾을 수 있다.

다음 단계는 canary routing이다. 전체 트래픽을 한 번에 latent recursion으로 옮기기보다, 낮은 위험의 질의나 내부 사용자 요청부터 일부만 RecursiveMAS로 처리한다. 이때 성공 기준은 정확도 하나가 아니다. 기존 시스템 대비 응답 지연이 얼마나 줄었는지, 중간 로그가 얼마나 줄어 감사 요구를 충족하는지, 오류 발생 시 fallback이 제대로 작동하는지까지 함께 봐야 한다.

fallback 설계도 별도로 필요하다. 예를 들어 link output norm이 훈련 분포에서 크게 벗어나거나, final agent의 confidence가 낮거나, tool-caller가 side-effect action을 요청하는 경우에는 자동으로 텍스트 기반 MAS 또는 단일 강한 모델 경로로 전환할 수 있다. 이렇게 하면 latent recursion의 비용 절감 효과를 얻으면서도, out-of-distribution 입력에서 전체 시스템이 조용히 실패하는 위험을 줄일 수 있다.

보안과 개인정보 관점에서는 hidden state도 민감 정보가 될 수 있다. 텍스트로 보이지 않는다고 해서 안전한 것은 아니다. 사용자의 개인 정보, 내부 코드 조각, 검색 결과의 민감한 문장이 embedding과 hidden representation에 반영될 수 있다. 따라서 RecursiveLink 로그를 저장한다면 암호화, 보존 기간, 접근 권한, 삭제 정책을 텍스트 로그와 같은 수준으로 다뤄야 한다. latent trace를 외부 분석 도구로 보낼 때도 데이터 유출 위험을 평가해야 한다.

운영 지표는 네 묶음으로 나누는 편이 좋다. 첫째는 task accuracy와 benchmark score, 둘째는 end-to-end latency와 GPU memory, 셋째는 token usage와 API cost, 넷째는 auditability와 fallback rate다. RecursiveMAS는 두 번째와 세 번째 묶음에서 강점을 보이지만, 네 번째 묶음이 약하면 실제 도입이 어려울 수 있다. 따라서 성능표에는 항상 traceability budget 같은 운영 지표를 함께 붙이는 것이 바람직하다.

마지막으로 모델 업데이트 정책이 필요하다. 에이전트 하나를 새 버전으로 바꾸면 그 에이전트와 연결된 outer RecursiveLink는 더 이상 같은 분포를 보지 않는다. 실무적으로는 모델 버전, 링크 버전, 학습 데이터 버전을 함께 묶은 release artifact를 만들어야 한다. 새 모델을 넣을 때는 링크만 재학습해 충분한지, inner-loop warm start도 필요한지, 과거 링크를 재사용하면 어떤 benchmark에서 성능이 무너지는지를 회귀 테스트로 확인해야 한다.

9.7 운영 체크리스트: 성능표 밖에서 확인할 항목

운영 체크리스트의 첫 항목은 데이터 수집 경로다. RecursiveLink 학습에는 역할별 target과 최종 정답이 필요하므로, 실제 서비스 로그를 재사용할 때 사용자 동의, 민감 정보 제거, domain shift 라벨링이 선행되어야 한다. 특히 latent state는 원문을 직접 담지 않는 것처럼 보이지만, membership inference나 reconstruction attack 가능성을 배제할 수 없으므로 텍스트 데이터와 같은 수준의 관리가 필요하다.

두 번째 항목은 링크 재학습 주기다. MAS는 시간이 지나면서 새로운 tool, 새로운 prompt, 새로운 backbone model을 받아들인다. 이때 link만 그대로 두면 에이전트 사이의 의미 계약이 깨질 수 있다. 주기적 재학습을 자동화하더라도, 이전 버전과의 regression benchmark를 반드시 통과해야 한다. 평균 점수뿐 아니라 도메인별 하락폭, latency 변화, fallback 증가율을 함께 확인해야 한다.

세 번째 항목은 관측성 대시보드다. RecursiveMAS를 배포하면 중간 텍스트 로그가 줄어드는 대신, link output norm, cosine similarity, recursion round별 confidence, final decoding entropy 같은 수치 로그가 필요해진다. 이 지표들이 훈련 분포에서 벗어나는 순간을 alert로 잡아야 한다. 그래야 사람이 읽을 수 있는 문장이 없어도 시스템 이상 징후를 조기에 발견할 수 있다.

네 번째 항목은 human review gate다. 낮은 위험의 수학 풀이와 높은 위험의 의료 조언, 파일 수정, 배포 명령을 같은 방식으로 처리하면 안 된다. RecursiveMAS는 빠른 latent collaboration을 제공하지만, 사용자의 권리나 외부 상태를 바꾸는 행동 앞에서는 짧은 텍스트 rationale과 policy check를 남기는 것이 좋다. 이 gate는 성능을 조금 낮출 수 있어도 운영 리스크를 줄인다.

다섯 번째 항목은 부분 비활성화 전략이다. 어떤 도메인에서 outer link 하나가 불안정하면 전체 RecursiveMAS를 끄는 대신 해당 edge만 text handoff로 되돌릴 수 있다. 예를 들어 Planner와 Critic 사이는 latent로 유지하고, Critic에서 Solver로 넘어가는 경로만 텍스트 요약을 쓰는 hybrid fallback이 가능하다. 이런 edge-level 제어가 있으면 시스템을 전면 rollback하지 않고도 안정성을 회복할 수 있다.

여섯 번째 항목은 사용자 기대 관리다. RecursiveMAS는 중간 텍스트 토론을 줄이므로, 사용자는 왜 답이 나왔는지 덜 볼 수 있다. 따라서 사용자에게는 최종 답변 근거, 참조 문서, 사용한 tool, confidence 범위를 별도 UI로 제공해야 한다. latent recursion을 쓴다는 사실 자체를 노출할 필요는 없지만, 설명 가능한 출력을 요구하는 상황에서는 최소한의 audit summary를 함께 제공해야 신뢰를 유지할 수 있다.

일곱 번째 항목은 성능 저하의 국소화다. RecursiveMAS는 여러 링크와 여러 라운드가 얽힌 시스템이므로, 실패했을 때 전체 평균만 보면 원인을 찾기 어렵다. 운영 로그에는 어떤 에이전트 쌍에서 drift가 커졌는지, 어느 recursion round 이후 confidence가 떨어졌는지, 어떤 benchmark family에서 fallback이 늘었는지를 edge 단위로 남겨야 한다. 이렇게 국소화된 기록이 있어야 링크 재학습, 특정 에이전트 교체, r 또는 m 조정 중 어떤 처방이 필요한지 판단할 수 있다.

10. 요약 정리: RecursiveMAS를 읽을 때 남겨 둘 핵심 포인트

10.1 핵심 포인트

RecursiveMAS는 다중 에이전트 협업을 잠재 공간의 재귀 계산으로 다시 설계한다. inner RecursiveLink와 outer RecursiveLink는 각각 에이전트 내부 latent thought 생성과 에이전트 간 hidden state 전이를 담당한다. 실험은 정확도, 속도, 토큰 사용량, 비용 측면에서 강한 결과를 보였지만, 중간 추론의 관측 가능성과 evidence grounding은 후속 연구가 필요하다. 따라서 이 논문은 MAS 성능 향상 논문인 동시에, 에이전트 사이의 통신 인터페이스를 학습 가능한 시스템 구성요소로 다뤄야 한다는 설계 제안으로 읽을 수 있다. 실무자는 성능표만 보지 말고, link versioning, fallback, audit summary를 함께 설계해야 RecursiveMAS의 비용 이득을 안전하게 활용할 수 있다.

  • 문제 설정: RecursiveMAS는 “에이전트 협업 자체를 재귀로 스케일링할 수 있는가”라는 질문에서 출발하며, MAS를 하나의 latent-space recursive computation으로 본다.
  • 핵심 모듈: RecursiveLink는 inner link와 outer link로 나뉘며, 모든 LLM 파라미터를 고정한 채 작은 residual projection만 학습해 latent thoughts를 생성하고 전달한다.
  • 학습 방식: inner-loop는 각 에이전트의 latent generation을 warm start하고, outer-loop는 전체 에이전트 루프를 unroll해 최종 CE 손실로 system-level collaboration을 최적화한다.
  • 주요 성능: RecursiveMAS는 MATH500 88.0, AIME2025 86.7, AIME2026 86.7, GPQA-D 66.2, LiveCodeBench 42.9, MedQA 79.3으로 비교 방법들을 일관되게 앞선다.
  • 효율성: Recursive-TextMAS 대비 r=1에서 1.2x speedup과 34.6% token reduction, r=3에서 2.4x speedup과 75.6% token reduction을 보고한다.
  • 일반화: Sequential뿐 아니라 Mixture, Distillation, Deliberation 구조에서도 RecursiveMAS가 강한 단일 에이전트 또는 구성 요소보다 높은 성능을 낸다.
  • Ablation: RecursiveLink는 residual 2-layer 설계가 가장 강하며, latent thought 길이는 대략 80 step 근처에서 성능이 포화되는 경향을 보인다.
  • 비용: RecursiveMAS는 15.29GB peak GPU memory, 13.12M trainable parameter, $4.27 estimated cost로 LoRA와 Full-SFT보다 나은 cost-performance trade-off를 보인다.
  • 비판적 해석: 가장 큰 약점은 중간 추론을 hidden state에 숨기면서 디버깅과 책임 추적이 어려워진다는 점이며, MASS-RAG식 evidence tracing과 결합한 evidence-grounded RecursiveMAS가 유망한 후속 방향이다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.