Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei | Microsoft Research, Tsinghua University | arXiv:2604.01220v1 | 2026년 4월
이 글은 Yutao Sun 등의 Universal YOCO for Efficient Depth Scaling를 바탕으로, 논문이 제안하는 YOCO-U의 설계 의도와 수학적 구조, 복잡도 상의 이점, 학습 설정, 주요 실험 결과, 추가 분석과 한계까지를 체계적으로 정리한 Tistory용 장문 리뷰다. 논문의 핵심 문제의식은 분명하다. 최근 대형 언어모델 연구에서 test-time scaling과 재귀적 계산은 추론 성능을 올리는 강력한 도구로 주목받고 있지만, 기존 Transformer는 이러한 계산 깊이 증가를 효율적으로 수용하기 어렵다. 특히 전체 층을 반복 실행해야 하는 계산 비용과 깊이에 비례해 폭증하는 KV cache 메모리가 장문맥 서빙 환경에서 심각한 병목이 된다.
논문은 바로 이 병목을 겨냥한다. 저자들은 기존 YOCO가 가진 constant global KV cache와 linear prefilling의 장점을 유지하면서도, 깊이 확장을 위해 필요한 재귀적 계산을 완전히 포기하지 않는다. 대신 재귀를 어디에 배치해야 비용 구조가 무너지지 않는지를 다시 설계한다. 그 결과물이 Universal Self-Decoder와 공유 global KV 구조를 결합한 YOCO-U다. 이 구조는 전체 모델을 반복하지 않고 얕은 efficient-attention 블록만 반복하며, 반복 결과에서 만든 글로벌 K/V는 한 번만 생성한 뒤 Cross-Decoder 전체가 공유한다.
아래에서는 먼저 문제 배경과 기존 접근의 제약을 짚고, 이어서 YOCO-U의 설계를 단계적으로 해석한다. 이후 표와 그림을 통해 loss scaling, end-task accuracy, long-context perplexity, prefill 및 decode throughput, KV cache 점유량을 정리하며, 마지막에는 논문이 직접 시사하는 한계와 향후 연구 방향을 구분하여 서술한다.
1. 서론: 재귀 계산과 장문맥 효율성을 동시에 달성하려는 시도
1.1 문제 설정: 왜 depth scaling이 다시 중요해졌는가
최근 언어모델 연구에서 성능 향상을 위한 축은 크게 두 방향으로 전개되어 왔다. 하나는 사전학습 토큰, 파라미터, 데이터 품질을 키우는 training-time scaling이고, 다른 하나는 추론 시 더 많은 계산을 허용해 더 나은 중간 표현과 더 긴 추론 사슬을 확보하는 test-time scaling이다. 후자는 chain-of-thought, self-consistency, tree search, 반복적 refinement, agentic workflow와 결합되며 빠르게 중요성이 커졌다. 그러나 test-time scaling이 실제 시스템에서 의미를 가지려면, 추가 계산이 단지 이론적으로 가능하다는 수준을 넘어서 메모리와 처리량 측면에서 감당 가능한 비용을 보여야 한다.
논문은 기존 Transformer 계열이 이 지점에서 구조적인 한계를 가진다고 본다. 재귀나 반복 계산을 넣으면 일반적으로 full attention을 포함한 전체 층이 다시 실행되며, 각 층마다 유지해야 하는 글로벌 KV cache가 깊이와 반복 횟수에 비례해 증가한다. 특히 긴 입력에서는 계산 자체보다 KV cache 점유량이 서빙 비용을 지배하는 경우가 많다. 따라서 단순히 “더 깊게 반복하면 더 좋아진다”는 주장은 서비스 관점에서 불완전하며, 깊이를 늘릴수록 어떤 메모리 항이 늘어나고 어떤 항은 늘어나지 않도록 설계할 것인가가 핵심 문제로 남는다.
이 논문이 가치 있는 이유는 바로 이 비용 구조에 대한 답을 아키텍처 수준에서 제시하기 때문이다. 저자들은 재귀 계산 자체를 부정하지 않고, 글로벌 retrieval을 담당하는 부분과 로컬 정제를 담당하는 부분을 분리한 뒤, 재귀는 로컬 정제 블록에만 적용한다. 이렇게 하면 깊이 확장의 표현력 이익은 유지하면서도, 긴 문맥에서 결정적인 global KV cache 증가를 거의 상수 수준에 가깝게 억제할 수 있다.
1.2 논문의 핵심 주장
재귀를 전체 Transformer에 적용하는 대신, 얕은 efficient self-attention 기반 Self-Decoder만 반복하고, 여기서 생성된 global K/V를 Cross-Decoder 전체 층이 공유하면, depth scaling의 효율-성능 trade-off를 개선할 수 있다. 논문은 복잡도 표, 학습 손실 곡선, downstream 벤치마크, 긴 문맥 perplexity, NIAH, throughput, KV cache 측정, representation analysis까지 이 주장을 일관된 흐름으로 제시한다.
특히 저자들은 YOCO-U 80B tokens가 비재귀 YOCO 210B tokens와 유사한 성능에 도달한다고 보고한다. 이는 comparable performance를 얻기 위해 필요한 토큰이 약 62% 감소했음을 뜻한다. 또한 equal-FLOPs 비교에서도 YOCO-U는 YOCO보다 더 낮은 validation loss를 보였고, downstream 평균 점수 역시 개선되었다. 즉, 이 논문은 단순히 “더 많은 계산을 넣었다”는 결과가 아니라, 같은 또는 유사한 총 계산 예산에서 더 유리한 구조적 배치를 제안했다고 보는 편이 정확하다.
Figure 1: YOCO-U의 전체 구조 개요. Self-Decoder만 반복 실행하고, 반복 결과에서 만든 global KV cache를 Cross-Decoder 전 층이 공유한다.
이 그림은 논문의 설계 철학을 가장 직접적으로 보여준다. 반복이 걸리는 위치는 Self-Decoder이며, Cross-Decoder는 그 결과로 만들어진 공유 global K/V를 참조하는 형태로 유지된다. 따라서 깊이 확장을 위해 필요한 반복 계산이 존재하더라도, Transformer에서 흔히 발생하는 층별 글로벌 KV cache 누적이 동일한 방식으로 증가하지 않는다. 논문이 강조하는 “깊이는 늘리고 글로벌 메모리 증가는 막는다”는 메시지가 이 구조도 안에 응축되어 있다.
1.3 본 리뷰의 관점
이 리뷰는 YOCO-U를 세 가지 질문으로 읽는다. 첫째, 재귀 계산을 모델 전체가 아니라 특정 하위 블록에만 적용했을 때 무엇이 달라지는가. 둘째, 공유 KV 구조가 복잡도와 실제 서빙 지표에 어떤 차이를 만드는가. 셋째, 성능 향상이 단순한 추가 연산의 결과인지, 아니면 구조적 설계의 이익인지다. 각 절에서는 논문이 보고한 정량 수치에 근거해 이 질문들에 답한다.
2. 배경 및 관련 연구: 반복 계산, YOCO, 그리고 long-context 서빙의 병목
2.1 Transformer의 depth scaling 한계
표준 Transformer는 강력한 범용성을 갖지만, 깊이나 반복 횟수를 늘릴 때 attention의 전역성 때문에 비용이 빠르게 증가한다. 학습 단계에서는 prefilling이 길이 $N$에 대해 대략 $O(LN^2D)$ 항을 가지며, 추론 단계에서도 각 층별로 축적되는 KV cache 때문에 메모리 비용이 $O(LND)$에 비례한다. 여기서 $L$은 층수, $N$은 문맥 길이, $D$는 hidden dimension이다. 만약 여기에 loop나 recurrent refinement를 얹어 반복 횟수 $T$까지 도입하면, 가장 단순한 형태에서는 계산과 메모리 모두 $T$배에 가깝게 증가한다.
문제는 장문맥 환경에서 이 비용 증가가 특히 치명적이라는 점이다. 예를 들어 16K와 256K는 단순히 입력 길이의 차이처럼 보이지만, 글로벌 attention과 KV cache의 비용 구조에서는 전혀 다른 운영 환경을 의미한다. 이런 조건에서 재귀형 모델이 성능적으로 약간 우수하더라도, 메모리 요구량과 처리량이 크게 악화된다면 실제 배치 서빙에서는 채택이 어렵다.
2.2 YOCO가 제공한 출발점
YOCO는 이러한 문제를 완화하기 위해 제안된 decoder-decoder architecture다. 핵심은 전체 모델을 Self-Decoder와 Cross-Decoder로 나누는 데 있다. 앞단의 Self-Decoder는 상대적으로 효율적인 self-attention을 사용해 로컬 또는 제한된 문맥 정제를 수행하고, 이후 Cross-Decoder는 Self-Decoder가 만든 global representation을 조회하는 형태로 동작한다. 이때 중요한 특징은 global K/V를 층별로 별도 보관하지 않고 공유할 수 있다는 점이다.
논문은 YOCO의 장점으로 constant global KV cache와 linear prefilling을 강조한다. 즉, 장문맥에서 Transformer가 가지는 전역 attention 기반 비용을 YOCO는 상당 부분 완화한다. 그러나 YOCO만으로는 재귀 계산의 장점을 충분히 취하지 못한다. 비재귀 구조는 메모리 효율 면에서 유리하지만, 동일 compute budget에서 더 깊은 표현 정제가 가능한 재귀형 구조와 비교하면 성능 확장에 한계가 나타날 수 있다. YOCO-U는 바로 여기서 출발한다.
2.3 관련 접근과 YOCO-U의 차이
논문은 비교 대상으로 크게 세 갈래를 염두에 둔다. 첫째는 비재귀 Transformer/YOCO다. 둘째는 Universal Transformer처럼 전체 블록을 반복 적용하는 방식이다. 셋째는 RINS처럼 recurrent block을 두되 여전히 full attention 또는 이에 준하는 전역 비용을 안고 가는 구조다. 또한 ParScale처럼 병렬적 compute scaling을 통해 성능을 끌어올리는 계열도 비교군에 포함된다.
YOCO-U는 이들 중간 어디쯤에 위치하는 것이 아니라, 비교적 분명한 방향성을 가진다. 재귀의 표현력은 활용하되, 전역 메모리 구조는 YOCO의 장점을 최대한 유지하는 쪽이다. 다시 말해 YOCO-U는 “재귀냐 효율이냐”의 이분법을 택하지 않고, 재귀를 효율적인 하위 구조에만 제한하는 설계로 그 둘을 조합한다. 이 설계가 실제로 유효한지는 이후의 복잡도 분석과 실험 결과에서 확인된다.
2.4 복잡도 비교로 보는 설계 의도
논문이 제시한 복잡도 비교는 구조적 이득을 가장 응축해 보여주는 부분이다. Transformer와 loop 계열은 글로벌 KV cache와 prefill 비용이 길이와 깊이에 민감하게 증가한다. 반면 YOCO와 YOCO-U는 global K/V를 공유하기 때문에 증가하는 항이 전부 글로벌 문맥 길이 $N$에 직접 결합되지 않는다. YOCO-U의 메모리 항은 대략 $O((N+WTL)D)$로 제시되며, 여기서 반복 횟수 $T$는 window-local cache 부분에만 붙는다. 장문맥 실무에서 보통 $W \ll N$이므로, 재귀에 따른 증가분이 상대적으로 작은 항에만 제한되는 셈이다.
| 아키텍처 | KV cache memory | Prefilling | Decoding |
|---|---|---|---|
| Transformer | $O(LND)$ | $O(LN^2D)$ | $O(LND)$ |
| YOCO | $O((N + WL)D)$ | $O((L/2)ND)$ | $O((L/2)(N + W)D)$ |
| Loop / Universal Transformer | $O(LTND)$ | $O(LTN^2D)$ | $O(LTND)$ |
| YOCO-U | $O((N + WTL)D)$ | $O((L/2)TND)$ | $O((L/2)(N + WT)D)$ |
이 표에서 가장 중요한 부분은 YOCO-U의 반복 비용이 전역 항이 아니라 로컬 window 항에 붙는다는 점이다. 따라서 문맥 길이가 매우 길어질수록 Transformer나 full-attention recurrence 대비 상대 이점이 커진다. 논문은 이후 실제 throughput 및 메모리 실험에서 이 복잡도상의 예측이 구현 수준에서도 유지된다고 보고한다.
3. 방법론: Universal Self-Decoder와 공유 KV 구조
3.1 전체 구조: Self-Decoder와 Cross-Decoder의 역할 분담
YOCO-U의 기반은 YOCO의 decoder-decoder 분할이다. 전체 모델은 앞 절반의 Self-Decoder와 뒤 절반의 Cross-Decoder로 구성된다. Self-Decoder는 입력 시퀀스를 지역적 문맥과 효율적 attention 메커니즘을 통해 반복적으로 정제한다. Cross-Decoder는 Self-Decoder 출력에서 생성된 global K/V를 활용해, 보다 넓은 범위의 retrieval과 최종 decoding을 담당한다. 중요한 것은 이 두 부분의 기능이 대칭적이지 않다는 점이다. Self-Decoder는 표현 정제와 반복 계산에, Cross-Decoder는 전역 참조와 최종 예측에 특화된다.
논문은 이 구조 분리를 통해 “어디를 반복할 것인가”라는 질문에 명확한 답을 내놓는다. Cross-Decoder는 final decoder에 가까운 역할을 갖기 때문에, 여기를 반복하는 것은 비용에 비해 얻는 이익이 제한적일 수 있다. 반대로 Self-Decoder는 비교적 얕고 효율적인 블록이므로 반복했을 때 표현을 점진적으로 정제하는 효과를 더 효율적으로 얻을 수 있다.
3.2 Universal Self-Decoder: 반복은 전체 모델이 아니라 얕은 블록에만
YOCO-U의 핵심 변화는 기존 non-recursive Self-Decoder를 Universal Self-Decoder, USD로 치환한 것이다. USD는 같은 Self-Decoder 모듈을 $T$회 반복 적용한다. 이것은 Universal Transformer에서 보던 parameter sharing 개념과 닿아 있지만, YOCO-U는 이를 모델 전체가 아닌 shallow self-decoder block에만 적용한다는 점에서 다르다. 다시 말해 파라미터 수를 대폭 늘리지 않고도 실제 계산 깊이를 키울 수 있다.
논문이 제시한 식의 의미를 해석하면, Self-Decoder는 $L/2$개 층으로 이루어진 기본 모듈이며, USD는 이 모듈을 순차적으로 여러 번 적용한 결과다. 각 층의 내부는 efficient self-attention + residual + SwiGLU FFN의 전형적인 구성을 유지한다. 중요한 점은 여기서 쓰이는 attention이 full attention이 아니라는 것이다. 논문 기본 구현은 sliding-window attention이며, window size는 512로 설정된다. 이 때문에 반복이 늘어나더라도 증가하는 cache는 전역적이지 않고 로컬 윈도우 수준에 머문다.
이를 구조적으로 보면 USD는 일종의 점진적 표현 정제기다. 같은 토큰 표현을 여러 번 다듬으면서 정보의 지역적 통합과 feature refinement를 강화한다. 이는 단순히 층 수를 늘린 deep network와 같지 않다. 논문은 뒤의 ablation에서 같은 파라미터 규모에서 깊이만 두 배로 늘리는 방식이 YOCO-U만큼의 이득을 주지 못한다고 보고하며, 따라서 이득의 원인이 단순한 depth 증가가 아니라 반복 계산이 배치된 위치와 공유 방식에 있음을 시사한다.
3.3 Self-Decoder 내부 연산과 efficient attention
Self-Decoder 층의 연산은 대략 다음 형태로 이해할 수 있다. 먼저 입력 표현 $X^l$에 LayerNorm을 적용하고, 그 결과를 efficient self-attention에 통과시켜 잔차 연결과 합한다. 이후 다시 LayerNorm을 적용한 뒤 SwiGLU FFN을 거치고, 또 한 번 residual을 더해 다음 층 표현을 얻는다. 논문은 기본 efficient attention으로 SWA를 사용하지만, RetNet, Mamba, gated DeltaNet 등 다른 효율적 시퀀스 모델과도 결합 가능하다고 설명한다.
흥미로운 부분은 논문이 hybrid architecture 안에서는 이러한 대안들이 SWA와 유사한 성능을 보였다고 밝힌 대목이다. 이는 YOCO-U의 핵심이 특정 efficient attention의 우월성보다는, global retrieval을 공유 KV 기반 Cross-Decoder로 분리하고, 반복은 로컬/효율 블록에 모은다는 상위 설계에 있음을 시사한다. 다시 말해 이 논문의 기여는 모듈 선택 자체보다도 모듈 배치와 비용 경계의 재설계에 가깝다.
3.4 공유 global KV cache의 생성과 의미
USD가 여러 번의 정제를 마친 뒤, 그 출력에서 global K/V가 생성된다. 논문이 중요한 차이로 두는 지점은 바로 이 global K/V가 한 번만 생성되어 Cross-Decoder 전 층이 공유된다는 점이다. 각 Cross-Decoder 층은 자신만의 query projection을 사용하지만, 참조하는 key와 value는 공통이다. 이 구조 덕분에 깊이가 늘어나더라도 층별 글로벌 K/V를 중복 저장할 필요가 없다.
이 shared KV 설계는 단순한 메모리 절약 이상의 의미를 가진다. 먼저, long-context 환경에서 KV cache는 실제 서빙 효율을 좌우하는 핵심 자원이다. 따라서 글로벌 KV를 층별로 복제하지 않는다는 것은 단지 이론적 우아함이 아니라 배치 크기, 최대 컨텍스트 길이, 동시 요청 수에 직결되는 실질적 장점이다. 또한 모든 Cross-Decoder 층이 동일한 global memory를 참조함으로써, 모델은 공유된 retrieval 공간 위에서 층별 query만 달리하는 계층적 추론을 수행하게 된다.
논문은 Cross-Decoder에 NoPE를 사용해 global retrieval 능력을 높였다고 밝힌다. 반면 Self-Decoder에는 RoPE를 사용한다. 이 구분은 구조적으로도 자연스럽다. 로컬 문맥 정제에는 상대적 위치 정보가 중요하지만, 전역 retrieval을 담당하는 shared KV 참조에서는 위치 편향을 약화하는 편이 유리할 수 있기 때문이다.
Figure 2: FLOPs 및 token 기준 scaling 실험에서 YOCO-U가 비재귀 YOCO보다 더 낮은 validation loss를 보이는 경향을 제시한 그림.
이 그림은 YOCO-U의 이점을 단순한 파라미터 증가가 아니라 구조적 depth scaling의 관점에서 보여준다. 논문은 equal-FLOPs 조건에서도 YOCO-U가 더 낮은 loss를 기록했다고 보고하며, 그 차이를 ΔL = 0.033으로 제시한다. 또한 token efficiency 측면에서는 YOCO-U 80B tokens가 YOCO 210B tokens와 유사한 수준에 도달한다고 설명한다. 이는 재귀 계산이 단순한 반복이 아니라 학습 효율 자체를 개선하는 설계임을 시사한다.
3.5 왜 shallow block recursion이 중요한가
논문 전체를 관통하는 설계 철학은 깊은 블록보다 얕은 블록을 반복하는 편이 더 효율적이라는 주장으로 정리할 수 있다. 이는 직관적으로도 이해할 수 있다. 상위 층은 최종 decoding과 전역 판단에 가까운 기능을 하므로, 여기를 반복하면 표현 정제보다 최종 결정의 재실행에 가까워질 가능성이 있다. 반면 하위 또는 중하위의 efficient block은 입력 표현을 단계적으로 다듬는 데 더 적합하다.
논문은 나중에 Upper Loop와의 비교에서 실제로 self-decoder loop가 더 낫다고 보여준다. 특히 shared KV를 제거하면 성능이 더 떨어진다. 이는 YOCO-U의 강점이 단순한 recurrence의 존재가 아니라, recurrence의 위치 선택 + shared KV cache 설계라는 이중 조합에서 온다는 뜻이다.
4. 실험 설정
4.1 메인 언어모델 학습 설정
논문의 메인 LM 평가 설정은 비교적 구체적이다. 기본 loop 수는 3회이며, 이때 총 FLOPs는 non-recursive baseline의 2배로 정렬된다. 모델의 hidden dimension은 2560, 총 층수는 20층, 그중 Self-Decoder와 Cross-Decoder는 각각 10층으로 나뉜다. Self-Decoder의 sliding-window size는 512다. 또한 메인 실험은 dense 모델이 아니라 MoE 설정으로 진행되며, experts는 64개, 활성 experts는 8개 + shared expert 1개, expert dimension은 1024다.
파라미터 측면에서 총 파라미터 수는 10B, activated parameters는 1.3B다. 학습 길이는 8192, batch size는 4M tokens, optimizer는 AdamW이며 $\beta=(0.9, 0.95)$, max learning rate는 1e-3로 주어진다. 총 학습 스텝은 75k, 총 학습 토큰은 300B, 하드웨어는 AMD MI300X GPUs다. 논문은 전체 구간에서 학습 손실 곡선이 매끄럽고 안정적이었다고 서술한다.
| 항목 | 설정 |
|---|---|
| 기본 loop 수 | 3회 |
| FLOPs 정렬 | 비재귀 baseline 대비 2배 |
| 총 층수 / 분할 | 20층 = Self-Decoder 10층 + Cross-Decoder 10층 |
| Hidden dimension | 2560 |
| Window size | 512 |
| MoE 설정 | 64 experts, 8 active experts + shared expert 1개, expert dim 1024 |
| 파라미터 | 총 10B / 활성 1.3B |
| 학습 길이 / 배치 | 8192 / 4M tokens |
| Optimizer / LR | AdamW, $\beta=(0.9,0.95)$, max LR 1e-3 |
| 학습량 / 하드웨어 | 75k steps, 300B tokens, AMD MI300X |
이 설정의 의미는 비교적 분명하다. 저자들은 무작정 FLOPs를 늘린 상태에서 YOCO-U를 유리하게 만드는 대신, equal-FLOPs와 equal-steps를 구분해 평가한다. 즉, 재귀형 구조의 이득이 단순히 계산량 증가 때문인지, 아니면 같은 계산량에서도 구조가 더 효율적인지를 분리해 보여주려는 의도가 반영되어 있다.
4.2 Thinking SFT 및 architecture comparison 설정
Thinking SFT 실험은 280B checkpoint에서 시작해 추가로 20B tokens를 학습하며, 최대 길이는 32768이다. 평가 대상은 GSM-8K, MATH, SVAMP, ASDiv, MAWPS, CARP, TABMWP, Gaokao 2023 En, OlympiadBench, CollegeMath, AMC23 등 총 11개 수학 벤치마크다. 이 설정은 YOCO-U가 단순 next-token loss 개선에 그치지 않고, explicit reasoning을 요구하는 thinking-style supervised fine-tuning과도 양립 가능한지를 검증하기 위한 것이다.
Architecture comparison은 별도의 조건으로 진행된다. 여기서는 모든 모델이 1.3B dense, 20 layers, hidden dim 2560으로 맞춰진다. 학습은 20k steps, batch size 1M, 총 20B tokens 조건이다. FLOPs 역시 표준 20-layer Transformer 대비 대략 2배로 정렬된다. Universal Transformer는 20층 전체를 2회 반복하고, RINS는 10층 비재귀 + 10층 recurrent block을 3회 반복해 총 계산 깊이를 40층 수준으로 맞춘다. ParScale은 2배의 compute scaling factor를 사용한다.
이 비교군 설계는 논문의 논지를 분명하게 만든다. 저자들은 YOCO-U를 단순 baseline YOCO와만 비교하지 않고, 전체 블록을 반복하는 방식, 상위 블록을 반복하는 방식, 병렬 scaling, 단순 depth 증가와 나란히 둔다. 따라서 YOCO-U의 이득이 recurrence 일반의 효과인지, shallow-block recurrence와 shared KV 설계의 효과인지를 비교적 직접적으로 볼 수 있다.
4.3 추론 벤치마크 설정
효율성 실험은 1.3B 모델, batch size 32, generation length 128, H100-80GB 환경에서 수행되며, 구현은 Nano-vLLM 기반이다. 사용된 최적화는 Flash-Decoding, kernel fusion, Paged Attention이며, 부록에서는 precision BF16, paged attention block size 256, GPU memory utilization 0.7 등 추가 설정도 제시된다.
이 점은 해석에서 중요하다. throughput과 memory 수치는 구조적 장점을 반영하지만, 동시에 구현 스택의 영향을 받는다. 따라서 절대적인 tok/s 수치는 환경에 따라 달라질 수 있다. 그럼에도 동일 스택에서 Transformer, YOCO, RINS, YOCO-U를 비교했기 때문에, 상대적 경향성은 설계의 실질적 차이를 보여주는 근거로 읽을 수 있다.
5. 주요 실험 결과
5.1 token scaling과 loss scaling: 적은 토큰으로 더 빨리 수렴하는가
논문은 validation loss를 20B tokens마다 측정하고, 각 모델에서 1개 outlier point를 제거해 곡선을 제시한다. 결과적으로 YOCO-U는 FLOPs 기준 비교에서도 YOCO보다 더 낮은 loss를 보였고, 논문은 그 차이를 ΔL = 0.033으로 정리한다. token efficiency 관점에서는 더 인상적인 수치가 제시된다. YOCO-U 80B tokens ≈ non-recursive YOCO 210B tokens라는 서술은, 동일 수준 성능에 도달하기 위해 필요한 학습 토큰이 크게 줄었음을 의미한다.
이 결과는 두 가지 층위에서 해석할 수 있다. 첫째, 재귀 계산이 추가되더라도 메모리 구조가 효율적으로 유지되면 학습 자체의 표본 효율이 올라갈 수 있다는 점이다. 둘째, depth scaling이 단지 추론 단계의 trick이 아니라, 학습 중 intermediate representation을 더 정교하게 만드는 효과를 통해 최종 성능에 기여할 수 있음을 보여준다. 논문은 이를 통해 YOCO-U가 capability-efficiency trade-off를 개선한다고 주장한다.
| 지표 | 논문 보고 값 | 해석 |
|---|---|---|
| Equal-FLOPs loss 차이 | ΔL = 0.033 | 같은 연산 예산에서도 YOCO-U가 더 낮은 validation loss |
| Token efficiency | YOCO-U 80B ≈ YOCO 210B | 유사 성능 도달에 필요한 토큰 약 62% 감소 |
| 기본 loop 설정 | 3회 | 비재귀 대비 계산 깊이를 늘리되 비용 구조는 제어 |
이 표는 scaling 실험의 핵심 수치를 요약한 것이다. 여기서 중요한 것은 YOCO-U의 이득이 equal-FLOPs 조건에서도 유지된다는 점이다. 만약 개선이 오직 총 계산량 증가 때문이었다면, 같은 FLOPs 기준에서는 우위가 사라져야 한다. 그러나 논문은 오히려 구조적 이익이 남는다고 보고한다.
5.2 end-task 성능: baseline YOCO를 얼마나 앞서는가
논문의 Table 2는 downstream 벤치마크 평균에서 YOCO-U가 YOCO보다 분명한 우위를 보인다고 보고한다. 비재귀 YOCO의 평균은 41.78이고, YOCO-U (Equal FLOPs)는 46.23, YOCO-U (Equal Steps)는 47.08이다. 특히 equal-FLOPs 조건에서의 평균 향상폭은 +4.45로 제시된다. 이는 다시 한번 YOCO-U의 성능 개선이 단순한 추가 compute가 아니라 재귀 계산의 배치 방식에 기인한다는 논문 주장을 뒷받침한다.
이 수치는 상당히 의미가 크다. downstream 평균은 대체로 여러 태스크의 균형 성능을 반영하므로, 특정 benchmark에만 맞춘 특수한 튜닝 결과라고 보기 어렵다. 또한 equal-steps 설정에서 더 큰 개선이 나타나는 것은, 같은 학습 진행 길이에서는 재귀형 구조가 더 강한 표현력을 확보함을 시사한다. 하지만 논문의 핵심 메시지는 equal-steps보다 오히려 equal-FLOPs에서도 격차가 유지된다는 쪽에 있다.
| 설정 | 평균 점수 | YOCO 대비 차이 |
|---|---|---|
| YOCO | 41.78 | - |
| YOCO-U (Equal FLOPs) | 46.23 | +4.45 |
| YOCO-U (Equal Steps) | 47.08 | +5.30 |
Table 2 수준의 평균 격차는 작은 튜닝 차이라고 보기 어렵다. 논문은 이를 통해 shallow recurrence가 실질적인 capability gain으로 이어진다고 주장한다. 이 결과는 이후 architecture comparison에서 보다 구체적으로 분해된다.
5.3 thinking SFT 결과: latent reasoning과 explicit reasoning의 결합
논문은 11개 수학 벤치마크에서 Thinking SFT 이후의 성능도 비교한다. 결과적으로 모든 수학 벤치마크에서 YOCO-U가 YOCO보다 높게 나타났다고 보고하며, 평균 정확도 향상은 24.4%다. 이 결과의 해석은 단순하지 않다. 일반적으로 latent reasoning을 강화하는 구조가 explicit reasoning을 위한 supervised fine-tuning과 충돌할 가능성도 있다. 그러나 논문은 두 효과가 orthogonal하다고 본다.
즉, YOCO-U가 제공하는 재귀형 표현 정제는 모델 내부의 잠재적 추론 능력을 강화하고, Thinking SFT는 그 위에 명시적 reasoning format을 얹는 식으로 작동한다는 것이다. 이는 향후 test-time scaling이나 agentic planning과 결합할 때도 의미가 있다. 구조 자체가 reasoning budget을 더 잘 활용할 수 있다면, downstream instruction tuning에서도 그 이득이 이어질 가능성이 있다.
Figure 3: Thinking SFT 이후 11개 수학 벤치마크 비교. YOCO-U가 전반적으로 YOCO를 상회하며 평균 24.4% 정확도 향상을 보고한다.
이 그림은 YOCO-U의 이득이 단순 language modeling loss 감소에 그치지 않고, 수학적 reasoning처럼 계산 사슬이 긴 태스크에서도 나타난다는 점을 보여준다. 논문은 이를 근거로 재귀형 latent reasoning과 explicit reasoning SFT가 상호 대체적이 아니라 보완적이라고 해석한다. 즉, 구조 차원에서 깊이를 늘려 얻는 표현 정제 효과가, 후속 instruction tuning 단계에서도 실질적 이익을 제공한다는 주장이다.
5.4 architecture comparison: 어떤 depth scaling 방식이 가장 나은가
논문에서 가장 흥미로운 실험 중 하나는 architecture comparison이다. 여기서 YOCO-U는 평균 48.3을 기록하며, RINS 48.3과 사실상 동급의 capability를 보인다. 반면 비재귀 YOCO는 47.0, 표준 Transformer는 47.1, ParScale은 46.8, Universal Transformer는 47.8이다. 이 결과는 두 가지 메시지를 던진다. 첫째, 재귀 scaling이 병렬 scaling보다 대체로 유리하다. 둘째, 전체 블록을 반복하기보다 shallow efficient block을 반복하는 편이 더 효율적으로 성능을 끌어올린다.
특히 RINS와 YOCO-U의 평균이 동일하다는 점은 중요하다. capability 면에서 비슷한 수준을 달성하면서도, 뒤에서 보듯이 효율성 지표에서는 YOCO-U가 압도적으로 유리하다. 따라서 논문은 YOCO-U를 “RINS보다 더 좋은 정확도 모델”이라기보다, RINS 수준의 성능을 훨씬 낮은 메모리와 더 높은 throughput으로 달성하는 구조로 제시한다.
| 모델 | 평균 점수 | 핵심 해석 |
|---|---|---|
| Transformer | 47.1 | 기본 비교 기준 |
| YOCO | 47.0 | 효율성은 좋지만 비재귀 |
| ParScale | 46.8 | 병렬 scaling만으로는 제한적 |
| Universal Transformer | 47.8 | 전체 블록 반복의 효과는 있으나 비용 부담 |
| RINS | 48.3 | capability는 높지만 효율성 손실 큼 |
| YOCO-U | 48.3 | RINS와 유사한 성능을 더 효율적으로 달성 |
이 표는 YOCO-U의 위치를 정확히 보여준다. 성능 면에서 RINS에 근접하거나 동급이면서, 구조적 효율성에서는 YOCO에 가까운 쪽으로 기울어 있다. 결국 YOCO-U는 정확도와 효율의 양 극단 사이에 있는 타협안이 아니라, 그 둘을 동시에 개선하려는 설계 시도로 이해하는 편이 적절하다.
5.5 long-context 성능: perplexity와 retrieval 유지
장문맥 실험에서 논문은 Book과 Code 도메인 모두에 대해 입력 길이가 늘어날수록 YOCO-U의 perplexity가 낮아지는 경향을 제시한다. 또한 YOCO-U는 Transformer와 YOCO보다 더 낮은 perplexity를 보이며, RINS와 거의 동급이라고 서술된다. 이 결과는 중요하다. 효율적인 메모리 구조를 택한 모델이 전역 문맥 활용을 희생하는 경우가 흔한데, YOCO-U는 적어도 perplexity 수준에서는 그러한 손실을 크게 보이지 않는다.
Needle In A Haystack 계열 평가인 Table 4에서도 유사한 경향이 나타난다. 예를 들어 S-NIAH-1에서 Transformer 0.87, YOCO 1.00, RINS 0.99, YOCO-U 1.00이고, S-NIAH-2에서는 Transformer 0.82, YOCO 0.86, RINS 0.91, YOCO-U 0.95다. 즉, YOCO-U는 긴 문맥 retrieval 능력을 유지하거나 강화하면서도, 효율성 측면의 장점을 잃지 않았다는 근거를 제시한다.
Figure 4: Book 및 Code 도메인에서 문맥 길이에 따른 long-context perplexity 비교. YOCO-U는 Transformer와 YOCO보다 낮고 RINS와 유사한 수준을 보인다.
이 그림의 포인트는 효율적 구조가 반드시 장문맥 품질 저하를 의미하지 않는다는 데 있다. 논문은 YOCO-U가 global retrieval을 Cross-Decoder에서 유지하기 때문에, long-context utilization이 단순한 local window 모델처럼 제한되지 않는다고 본다. 즉, global KV를 공유한다는 것이 global ability를 버린다는 뜻은 아니며, 오히려 메모리 구조를 재설계해 더 실용적인 형태로 유지한 것이라고 읽을 수 있다.
| Benchmark | Transformer | YOCO | RINS | YOCO-U |
|---|---|---|---|---|
| S-NIAH-1 | 0.87 | 1.00 | 0.99 | 1.00 |
| S-NIAH-2 | 0.82 | 0.86 | 0.91 | 0.95 |
NIAH 결과는 퍼플렉시티 그래프보다 더 직접적으로 retrieval 성능을 보여준다. 특히 S-NIAH-2에서 YOCO-U가 YOCO와 RINS를 모두 앞선다는 점은, shared KV 기반 구조가 단지 메모리 절약용 장치가 아니라 긴 문맥에서 필요한 정보 탐색 능력까지 충분히 보존한다는 근거로 읽힌다.
5.6 parameter scaling과 loop scaling
논문은 300M, 500M, 870M, 1.3B, 3.4B, 6.4B, 10.8B 규모에서 parameter scaling을 살핀다. 저자들은 YOCO-U가 이 구간에서 안정적인 scaling law를 따르며, 특히 6.4B까지 일관된 성능 향상을 보였다고 서술한다. 또한 activated parameter를 기준으로 보면 비재귀 모델과의 격차가 줄어들지만, 전체적으로는 YOCO-U가 더 적은 파라미터로 comparable performance를 달성하는 구간이 존재한다고 설명한다.
Loop scaling도 중요하다. loop 수를 1, 2, 3, 5로 늘리면 성능이 꾸준히 향상되며, Loop=1은 비재귀 baseline, Loop=5는 FLOPs를 3배로 늘린 조건이다. 논문은 이 결과를 통해 재귀 계산이 실제로 모델이 활용할 수 있는 유효한 depth budget으로 작동한다고 주장한다. 다만 뒤의 representation analysis에서 diminishing marginal returns도 함께 논의되므로, loop를 무한정 늘린다고 같은 비율의 성능 향상이 이어진다고 해석해서는 안 된다.
Figure 5: loop 수를 1, 2, 3, 5로 늘렸을 때 성능이 꾸준히 상승하는 loop scaling 특성.
이 그림은 YOCO-U의 재귀가 단순한 이론적 장식이 아니라 실제로 성능을 먹는 계산 축이라는 점을 보여준다. loop 수 증가에 따라 성능이 상승한다는 사실은 깊이 확장을 parameter scaling만의 문제로 볼 필요가 없음을 시사한다. 즉, 적절한 recurrence 설계를 통해 파라미터 증가 없이도 계산 깊이의 이점을 얻을 수 있다는 것이 논문의 요지다.
6. 추가 분석 및 Ablation Study
6.1 loop 위치에 대한 ablation: self-decoder loop가 왜 더 나은가
논문의 Table 5는 YOCO-U 설계에서 가장 중요한 선택인 loop 위치를 검증한다. 결과적으로 YOCO-U (self-decoder loop)의 평균 성능은 48.25이고, Upper Loop (cross-decoder loop)는 47.34, Upper Loop w/o Shared KV는 46.41이다. 즉, 얕은 Self-Decoder를 반복하는 방식이 상위 Cross-Decoder를 반복하는 방식보다 분명히 낫고, shared KV를 제거하면 성능은 더 나빠진다.
이 결과는 단순히 “하위 층이 좋다”는 경험적 관찰을 넘어, YOCO-U 설계가 왜 필요한지를 설명한다. 만약 성능 향상이 recurrence 그 자체에만 있었다면 upper loop도 비슷하게 좋아져야 한다. 그러나 실제로는 그렇지 않다. 논문은 deeper layer를 loop하면 개선 폭이 줄며, 최종층은 final decoder처럼 동작할 수 있다는 해석을 제시한다. 이는 반복 계산은 표현 정제에 적합한 층에 배치해야 한다는 주장을 지지한다.
| 설정 | 평균 점수 | 의미 |
|---|---|---|
| YOCO-U (Self-Decoder loop) | 48.25 | 가장 효과적인 loop 배치 |
| Upper Loop (Cross-Decoder loop) | 47.34 | 상위 반복은 개선 폭 제한 |
| Upper Loop w/o Shared KV | 46.41 | shared KV 부재 시 더 악화 |
이 ablation은 YOCO-U 논문의 핵심 설계를 거의 직접 증명한다. self-decoder loop와 shared KV가 동시에 들어가야 비로소 구조적 이점이 발생한다는 것이다. 어느 하나만 취하면 성능이나 효율의 균형이 무너지기 쉽다.
6.2 단순한 depth 증가와의 비교
논문은 같은 모델 크기에서 단지 깊이만 두 배로 늘린 Deep (Instead of Wide)도 평가한다. 결과는 평균 46.87로, baseline YOCO 46.95보다 오히려 약간 낮다. 반면 recursive YOCO-U는 48.25를 기록한다. 더 깊은 layout 위에서 recursion을 더한 Deeper (Instead of Wide)는 48.59까지 올라간다. 이 결과는 아주 중요하다. 성능 이득의 핵심이 단순히 층 수를 더 늘리는 데 있지 않고, 어떻게 반복하고 무엇을 공유하느냐에 있음을 보여주기 때문이다.
실제로 깊이만 늘린 모델이 개선되지 않는 이유는 여러 가지로 생각할 수 있다. 깊은 네트워크는 최적화가 더 어렵고, 각 층이 독립 파라미터를 가져도 반복적 refinement라는 inductive bias를 자연스럽게 얻지는 못한다. 반면 YOCO-U는 같은 블록을 반복하면서 표현을 점진적으로 정제하므로, 구조 자체가 일종의 iterative computation bias를 제공한다. 논문이 depth scaling을 “더 깊은 모델”이 아니라 재귀적으로 반복 가능한 계산 구조로 재정의한 이유가 여기에 있다.
6.3 representation analysis: fixed point에 접근하는가
Figure 8에서 저자들은 연속 층 사이의 angular distance를 측정해 representation dynamics를 분석한다. 관찰점은 세 가지다. 첫째, Universal Self-Decoder 내부에서는 loop마다 패턴이 매우 일관적이다. 둘째, 평균 distance가 점진적으로 줄어들며 diminishing marginal returns를 시사한다. 셋째, self-decoder와 cross-decoder 경계에서는 sharp spike가 나타난다. 저자들은 이를 근거로 recursive self-decoder가 intermediate representation을 점진적으로 정제하고, cross-decoder가 retrieval과 final decoding을 담당한다고 해석한다.
이 분석은 정성적이지만 의미가 크다. 단순히 반복이 많아졌다는 사실만으로는 모델이 무엇을 하는지 알기 어렵다. 그러나 angular distance가 줄어든다는 것은 반복이 무작위 변환이 아니라 어느 정도 안정된 방향으로 수렴하는 refinement임을 보여준다. 물론 이는 동시에 한계를 암시하기도 한다. 반복이 많아질수록 추가 이득이 줄어들 수 있으며, 일정 수준 이후에는 고정점 근처에서 변화량이 매우 작아질 수 있다.
Figure 6: 연속 레이어 간 angular distance를 이용한 표현 분석. 반복 블록 내부의 패턴 일관성과 diminishing return, self/cross 경계의 급격한 변화가 관찰된다.
이 그림은 YOCO-U가 단순히 “같은 연산을 여러 번 더 하는 모델”이 아니라, 점차 안정된 표현으로 수렴하는 iterative refinement 구조임을 뒷받침한다. 동시에 반복 횟수를 무작정 늘리는 것이 항상 비례 이득을 주지는 않는다는 점도 함께 드러난다. 즉, loop scaling은 유효하지만, 그 효용은 점점 감소할 수 있다는 것이 논문의 보다 신중한 해석이다.
6.4 parameter scaling의 해석: 더 적은 파라미터로 비슷한 성능을 낼 수 있는가
Parameter scaling 결과에서 논문은 YOCO-U가 YOCO 대비 50% 적은 파라미터로도 comparable performance를 보이는 구간이 있다고 말한다. 이 진술은 과장 없이 읽어야 한다. 논문은 전체 scaling 과정이 안정적이고 6.4B까지 일관된 개선을 보였다고 하지만, activated parameter가 10B 이상인 영역에서는 비재귀 모델과의 격차가 줄어든다고도 적는다. 즉, recurrence의 이득은 중소형~중대형 구간에서 특히 크고, 매우 큰 activated capacity에서는 상대적 우위가 줄 수 있다.
그럼에도 이 결과는 의미가 있다. 파라미터 scaling만으로 모든 성능 향상을 설명하지 않고, 계산 깊이의 재활용을 통해 파라미터 효율을 높일 수 있다는 가능성을 보여주기 때문이다. 향후 메모리나 배포 비용 제약이 큰 환경에서는, 단순한 파라미터 증설보다 이러한 구조적 depth scaling이 더 매력적인 선택지가 될 수 있다.
6.5 복잡도 식을 실제 시스템 관점에서 해석하기
Table 1의 복잡도 비교는 단순한 이론 요약처럼 보이지만, 이 논문을 제대로 읽으려면 각 항이 실제 서빙 시스템에서 무엇을 의미하는지까지 풀어 볼 필요가 있다. Transformer의 KV cache 메모리는 $O(LND)$이므로 층 수 $L$, 시퀀스 길이 $N$, 은닉 차원 $D$가 함께 커질수록 거의 모든 항이 정면으로 비용에 반영된다. 특히 긴 문맥 서버에서는 한 요청이 수십만 토큰의 prefix를 가진 상태에서 여러 사용자 요청이 동시에 들어오기 때문에, 이 메모리 항은 단순한 정적 저장 공간이 아니라 실제 동시성 상한을 결정하는 제약으로 바뀐다. 논문이 YOCO-U를 설계할 때 가장 먼저 해결하려는 것도 바로 이 지점이다. depth scaling을 넣고 싶지만, full-attention 기반 재귀는 $T$가 커질수록 전 층의 KV가 함께 늘어나 장문맥 서빙에서 곧바로 병목이 된다.
YOCO-U의 식은 $O((N+WTL)D)$로 제시된다. 이 식의 중요한 부분은 $N$ 항과 $WTL$ 항이 같은 지위로 보이지만, 실제 장문맥 환경에서는 보통 $W \ll N$이라는 점이다. 논문 기본 설정에서 window size는 512이고, 효율성 실험은 16K부터 256K까지의 길이를 다룬다. 이 범위에서는 반복 횟수 $T$와 층 수 $L$이 일정 수준 커져도, 장문맥에서 지배적인 것은 여전히 전체 prefix 길이 $N$이다. 따라서 loop를 추가할 때 메모리 증가가 전역 길이에 정비례해 폭증하는 구조와, 작은 local window 범위 안에서만 증가하는 구조는 실무상 전혀 다른 결과를 낳는다. 논문이 shared global KV를 핵심 설계로 내세우는 이유는 recurrence의 이득을 살리면서도 메모리 증가를 local term 안에 가두기 위해서다.
Prefill 항의 차이도 중요하다. Transformer는 $O(LN^2D)$, Loop/Universal Transformer류는 $O(LTN^2D)$다. 즉, 문맥이 길어질수록 quadratic term이 다시 전면에 등장한다. 반면 YOCO와 YOCO-U는 각각 $O((L/2)ND)$, $O((L/2)TND)$로 정리되며, 재귀를 넣더라도 적어도 prefill 단계는 여전히 선형 길이 의존성을 유지한다. 이 때문에 Table 8과 Figure 7a에서 YOCO-U의 throughput 곡선은 Transformer와 달리 길이가 길어져도 크게 무너지지 않는다. 장문맥 서비스에서 사용자가 느끼는 초기 응답 지연은 prefix를 얼마나 빨리 소화하느냐에 크게 좌우되므로, 이 선형 prefill은 단순한 미세 최적화가 아니라 제품 수준의 사용자 경험과 직결되는 구조적 이점으로 볼 수 있다.
Decode 단계 역시 비슷한 논리로 읽을 수 있다. Transformer와 full-attention recurrent 모델은 새 토큰을 생성할 때마다 큰 global cache를 반복적으로 참조한다. 그러나 YOCO-U는 Cross-Decoder가 공유된 global K/V를 사용하고, 추가 반복 비용은 주로 local window 쪽에 머문다. 따라서 논문은 YOCO-U가 RINS와 유사한 capability를 보이면서도 decode throughput 손실은 YOCO 대비 약 5% 수준에 머문다고 보고한다. 이는 recurrence를 넣는 순간 decode 속도가 사실상 붕괴하던 기존 루프형 설계와 다른 결과다. 즉, YOCO-U의 복잡도 식은 단순히 깔끔한 수학식이 아니라, 왜 이 모델이 "재귀를 쓸 수 있는 실전형 long-context 아키텍처"인지 설명하는 핵심 근거다.
6.6 shared global KV가 바꾸는 장문맥 메모리 경제학
논문에서 가장 인상적인 숫자 중 하나는 256K 컨텍스트에서 YOCO-U의 KV cache가 542MB에 불과하다는 점이다. 같은 표에서 YOCO는 522MB, Transformer는 10,240MB, RINS는 20,480MB다. 여기서 주목할 점은 YOCO-U와 YOCO 사이의 차이가 단지 20MB 정도라는 사실이다. 즉, 재귀를 도입했음에도 YOCO-U는 비재귀 YOCO와 거의 같은 메모리 곡선을 유지한다. 논문이 Figure 7c에서 두 곡선이 거의 겹친다고 서술하는 이유도 여기에 있다. recurrence를 넣으면 보통 cache budget이 함께 폭증한다는 직관과 달리, YOCO-U에서는 loop 증가가 장문맥 메모리 예산을 근본적으로 뒤흔들지 않는다.
이 차이는 배포 환경에서 훨씬 크게 느껴진다. 예를 들어 동일한 GPU 메모리 예산 아래에서 어떤 아키텍처는 하나의 256K 요청만 감당할 수 있고, 어떤 아키텍처는 여러 요청을 병렬로 처리할 수 있다. 또한 Paged Attention, continuous batching, prefix sharing 같은 최적화 기법을 사용할 때도 기본 cache footprint가 작은 구조가 유리하다. YOCO-U는 논문 설정상 BF16, paged attention block size 256, GPU memory utilization 0.7 조건에서 실험되었는데, 이런 설정은 실제 서빙 엔진이 메모리 파편화와 동시 요청을 얼마나 다룰 수 있는지를 민감하게 좌우한다. 따라서 542MB 대 20,480MB라는 차이는 단순한 벤치마크 수치가 아니라, 동일 장비에서 운영 가능한 동시 요청 수와 최대 컨텍스트 길이를 바꿔 놓는 구조 차이다.
shared global KV의 또 다른 의미는 계산 깊이와 메모리 깊이를 분리했다는 데 있다. 기존 full-attention recurrent 설계에서는 더 많은 계산을 쓰려면 그에 비례해 글로벌 메모리도 함께 커지는 경우가 많았다. 반면 YOCO-U는 USD에서 표현을 더 많이 정제하더라도, Cross-Decoder가 바라보는 global K/V는 반복이 끝난 뒤 한 번 생성된다. 다시 말해 loop 수를 늘리는 것은 계산량을 늘리는 선택이지, 장문맥 전체를 다시 캐시에 저장하는 선택이 아니다. 이 분리는 test-time scaling 연구에서 매우 중요하다. 사용자 요청마다 더 많은 계산을 허용하고 싶더라도, 메모리 폭증 때문에 실제 서비스에 올리지 못하는 경우가 많기 때문이다.
물론 shared global KV가 모든 문제를 해결하는 것은 아니다. query는 여전히 층별로 다르고, local window cache는 반복 수에 따라 증가하며, 실제 런타임에서는 cache layout과 kernel 구현 품질에 따라 효율이 달라질 수 있다. 그럼에도 논문이 보여주는 바는 분명하다. long-context에서 중요한 것은 단순히 attention을 줄이는 것이 아니라, 어떤 정보를 전역으로 한 번 저장하고 어떤 계산만 지역적으로 반복할 것인가를 구조적으로 나누는 일이다. YOCO-U는 바로 이 구분을 통해 recurrence의 실용성을 복원하려고 한다.
6.7 test-time scaling과의 관계: 왜 이 구조가 추론 확장과 잘 맞는가
논문 서론은 최근 LLM 연구의 큰 흐름으로 test-time scaling을 강조한다. 더 많은 샘플, 더 긴 chain-of-thought, 더 많은 refinement step을 통해 reasoning과 agentic capability를 높이는 흐름은 이미 여러 계열에서 관찰된다. 그러나 기존 Transformer는 이런 추론 확장을 효율적으로 지원하지 못하는 경우가 많다. reasoning을 위해 계산 단계를 추가하고 싶어도, 각 단계가 full attention과 거대한 KV cache를 동반하면 latency와 메모리 비용이 너무 빠르게 증가한다. YOCO-U는 바로 이 지점에서 recurrence를 활용하되, full-attention 기반 재귀가 아니라 shallow efficient-attention recurrence를 선택함으로써 test-time scaling을 더 값싸게 수용하려는 구조라고 볼 수 있다.
이 맥락에서 Figure 3의 Thinking SFT 결과는 단순한 수학 점수 상승 이상의 의미를 가진다. 논문은 YOCO-U가 11개 수학 벤치마크 전부에서 YOCO보다 높으며, 평균 정확도 향상은 24.4%라고 보고한다. 저자 해석에 따르면 latent reasoning을 강화하는 재귀 계산과 explicit reasoning을 강화하는 thinking SFT는 서로 직교적인 효과를 낸다. 다시 말해 YOCO-U는 외부에서 reasoning token을 더 뽑게 만들기 전에, 내부 표현 단계에서 이미 iterative refinement를 수행한다. 이는 장기적으로 test-time scaling을 단순한 출력 길이 증가가 아니라, 내부 반복 계산과 외부 추론 과정이 함께 작동하는 계층적 구조로 확장할 가능성을 시사한다.
또한 agentic workload와의 연결도 자연스럽다. 에이전트형 추론에서는 계획 수립, 문서 검색, 도구 호출, 반성적 수정 같은 과정이 반복적으로 일어나며, 이때 문맥은 길어지고 계산 예산은 요청마다 달라진다. YOCO-U의 구조는 모든 요청에 항상 거대한 글로벌 메모리 비용을 지불하지 않으면서도, 필요할 때는 loop 수를 늘려 더 많은 내부 계산을 수행할 수 있는 방향을 제시한다. 논문이 직접 agent benchmark를 평가한 것은 아니지만, 서론에서 reasoning과 agentic proficiency를 문제의식으로 삼았다는 점을 고려하면, YOCO-U는 long-context agent 시스템에서 특히 흥미로운 기반 구조다. 깊이 확장을 통해 더 나은 intermediate representation을 얻되, shared KV 덕분에 서비스 비용은 어느 정도 통제할 수 있기 때문이다.
결국 이 논문이 제안하는 것은 단순한 recurrence의 재도입이 아니다. 더 정확히 말하면, test-time scaling 시대에 어떤 종류의 반복 계산이 비용 대비 가장 높은 효율을 내는가에 대한 하나의 설계 답안이다. 전체 층을 전부 다시 도는 방식은 capability를 주더라도 너무 비싸고, 비재귀 구조는 추론 예산을 더 써도 깊이 차원에서 얻는 이점이 제한적일 수 있다. YOCO-U는 그 사이에서 shallow recurrence, efficient attention, shared global KV를 결합해 계산 예산을 깊이 방향으로 재배치한다. 이 점에서 YOCO-U는 long-context 서빙과 reasoning 확장을 동시에 고민하는 후속 연구에 꽤 직접적인 출발점을 제공한다.
6.8 구현 디테일이 결과 해석에 주는 의미
논문은 효율성 결과를 제시할 때 단순히 모델 이름만 비교하지 않고, 구현 조건을 비교적 명확하게 밝힌다. 추론 실험은 1.3B 모델, batch size 32, generation length 128, H100-80GB, Nano-vLLM 위에서 수행되며, Appendix D에는 BF16, Paged Attention block size 256, GPU memory utilization 0.7 같은 세부 설정도 적혀 있다. 이런 정보는 중요하다. throughput 차이는 구조 차이만으로 결정되지 않고 runtime scheduler, kernel fusion, flash decoding, cache paging 정책에 크게 의존하기 때문이다. 따라서 논문이 제시한 절대 수치를 읽을 때는 특정 구현 스택 위에서 얻은 결과라는 점을 항상 함께 봐야 한다.
그렇다고 해서 결과의 의미가 약해지는 것은 아니다. 오히려 세부 구현 조건이 공개되어 있다는 것은 구조적 이점과 시스템 최적화의 결합을 더 정밀하게 해석할 수 있게 해 준다. 예를 들어 YOCO-U가 decode throughput에서 YOCO보다 소폭 느리지만 Transformer와 RINS보다는 훨씬 나은 이유는, recurrence 자체가 완전히 공짜여서가 아니라 구조가 runtime 최적화와 상충하지 않는 방식으로 recurrence를 배치했기 때문이라고 볼 수 있다. 반대로 full-attention recurrent 모델은 구조적으로 너무 큰 cache와 attention 비용을 요구하므로, 같은 최적화 기법을 써도 격차를 메우기 어렵다.
이 점은 향후 재현 연구에서도 중요하다. 만약 다른 서빙 엔진이나 다른 GPU에서 YOCO-U를 구현한다면, prefilling과 decoding의 절대 수치는 달라질 수 있다. 그러나 논문이 보여주는 경향성, 즉 shared global KV를 유지하는 구조가 장문맥에서 더 천천히 무너진다는 성질은 구현 세부를 넘어 비교적 일관되게 나타날 가능성이 높다. 따라서 이 논문을 읽을 때는 숫자 하나만 그대로 외우기보다, 어떤 구조 선택이 어떤 시스템 비용 항과 연결되는지를 함께 이해하는 편이 더 생산적이다.
정리하면, YOCO-U의 기여는 모델링과 시스템을 분리하지 않고 함께 설계했다는 데 있다. 수식은 recurrence의 메모리 항을 local window 안에 가두고, 실험은 그 결과가 실제 throughput과 KV cache 수치로 이어짐을 보여준다. 이런 종류의 연구는 단순히 모델 성능이 몇 점 올랐는가보다, 어떤 아키텍처가 실제 서비스 가능한 형태로 depth scaling을 제공하는가를 묻는 최근 흐름과 잘 맞닿아 있다. YOCO-U는 그 질문에 대해 비교적 설득력 있는 하나의 구현 답안을 제시한다.
6.9 YOCO-U와 RINS의 비교가 의미하는 것
Architecture comparison에서 가장 흥미로운 대목은 YOCO-U와 RINS가 평균 점수 48.3으로 사실상 같은 수준에 놓인다는 점이다. 표면적으로만 보면 이는 "그렇다면 복잡한 YOCO-U 설계 없이도 RINS면 충분한 것 아닌가"라는 질문을 낳을 수 있다. 그러나 논문 전체 맥락에서 이 비교의 의미는 오히려 정반대다. 저자들이 보여주고 싶은 것은 full-attention 기반 recurrence가 capability를 줄 수 있다는 사실 자체가 아니라, 그 capability를 훨씬 더 낮은 메모리와 더 높은 throughput으로 가져오는 방법이 있다는 점이다. 다시 말해 RINS는 성능 상한의 참고점이고, YOCO-U는 그 상한에 근접하면서도 장문맥 시스템에서 훨씬 실용적인 비용 구조를 갖는 설계안이다.
이 차이는 Table 8, 9, 10을 함께 놓고 봐야 선명해진다. decode throughput에서 256K 기준 RINS는 56 tok/s인데, YOCO-U는 303 tok/s다. KV cache는 RINS가 20,480MB, YOCO-U가 542MB다. 즉, capability 평균이 비슷하다는 한 줄만 떼어 놓으면 두 모델이 비슷해 보이지만, 실제 서비스 비용과 배포 가능성까지 고려하면 두 구조는 전혀 다른 종류의 모델이 된다. 논문이 반복해서 shared global KV와 linear prefilling을 강조하는 이유도 여기 있다. 성능만 맞추는 것이 아니라, 성능을 유지한 채 계산과 메모리의 비용 구조를 바꾸는 것이 설계 목표이기 때문이다.
YOCO-U가 RINS와 경쟁 가능한 이유를 구조적으로 풀어 쓰면 다음과 같다. RINS는 깊은 recurrent block을 통해 표현을 정제하지만, 그 대가로 global attention과 cache 비용을 함께 안는다. 반면 YOCO-U는 표현 정제를 주로 Self-Decoder의 efficient-attention 구간에서 수행하고, Cross-Decoder는 한 번 생성된 global K/V를 재사용한다. 이 때문에 두 모델은 모두 recurrence의 이점을 어느 정도 활용하지만, recurrence가 붙는 위치와 전역 메모리의 처리 방식이 다르다. 저자들이 "bottom/shallow block scaling"이 "all-block scaling"보다 낫다고 주장하는 것은 단순한 구조 취향이 아니라, 실제로 capability와 efficiency의 곱을 극대화하는 위치가 어디인지 실험으로 찾은 결과라고 볼 수 있다.
이 비교는 후속 연구에도 중요한 메시지를 던진다. 앞으로의 depth scaling 연구는 단순히 "더 많은 반복이 더 좋은가"가 아니라, 어떤 반복이 어떤 비용 항을 늘리는가를 함께 물어야 한다는 것이다. YOCO-U와 RINS의 결과는 recurrence의 효과 자체를 부정하지 않는다. 오히려 recurrence가 유효하다는 점을 인정한 뒤, 그 recurrence를 장문맥 서빙과 양립 가능한 형태로 재설계하는 방향이 더 유망하다고 제안한다. 따라서 YOCO-U는 경쟁 모델을 이겼다기보다, recurrence 연구의 평가 기준을 성능 단일축에서 capability-efficiency tradeoff 축으로 이동시켰다고 해석하는 편이 더 정확하다.
6.10 실험 섹션을 관통하는 하나의 메시지
Section 4에서 논문은 YOCO-U를 세 가지 차원에서 동시에 검증한다. 첫째는 학습 효율이다. Figure 2와 token scaling 결과는 같은 계산량 혹은 같은 학습 단계에서 YOCO-U가 더 낮은 loss와 더 나은 token efficiency를 가진다는 점을 보인다. 둘째는 다운스트림 capability다. Table 2, Figure 3, Table 3, Table 4는 일반 벤치마크, 수학 reasoning, 장문맥 retrieval까지 포함해 recurrence의 이득이 단순 loss 차이에 그치지 않음을 보여준다. 셋째는 실제 추론 효율이다. Table 8~10과 Figure 7은 이런 capability 향상이 서비스 가능한 비용 범위 안에서 유지되는지를 검증한다. 이 세 축이 함께 제시되면서 YOCO-U의 efficient depth scaling 주장이 구성된다.
이 구성은 논문이 무엇을 가장 두려워하는지도 보여준다. 만약 loss만 좋아지고 추론 비용이 폭증하면, 연구적으로는 흥미로워도 실전성은 약해진다. 반대로 효율성만 좋고 실제 capability가 오르지 않으면 구조적 트릭 이상의 의미를 얻기 어렵다. YOCO-U는 이 딜레마를 피하기 위해, 각 실험을 서로 보완적인 논리로 배치한다. 예를 들어 Figure 2가 recurrence가 정말 학습 곡선에 기여하는지를 보여준 뒤, Table 2와 Figure 3이 그 이득이 다운스트림 과제에서 유지됨을 확인하고, 마지막으로 Figure 7이 그 이득이 장문맥 서빙 비용을 무너뜨리지 않는다고 뒷받침한다. 이런 점에서 YOCO-U는 단순한 모델 제안보다 설계 가설을 다면적으로 검증한 논문에 가깝다.
또한 Section 4와 Section 6을 함께 읽으면, 논문이 단순히 좋은 숫자를 모아 놓은 것이 아니라 어떤 선택이 어떤 결과를 만들었는지를 비교적 투명하게 보여주려 했음을 알 수 있다. loop 수, loop 위치, deep-vs-recursive 설계, parameter scaling, representation analysis가 하나의 이야기로 이어진다. 즉, 성능이 좋아졌다는 결과만이 아니라, 왜 self-decoder recurrence와 shared KV 조합이 중심 설계가 되었는가를 역으로 복원할 수 있다. 이는 후속 연구자가 이 구조를 수정하거나 확장할 때 꽤 유용한 출발점이 된다.
정리하면, YOCO-U의 실험 섹션은 특정 벤치마크에서 몇 점을 더 얻었다는 보고서가 아니다. 오히려 recurrence, long-context, test-time scaling, service efficiency라는 서로 충돌하기 쉬운 목표를 한 구조 안에서 어떤 방식으로 조정할 수 있는지 보여주는 사례에 가깝다. 이 때문에 YOCO-U의 가치는 절대 수치뿐 아니라, 깊이 확장을 성능·메모리·지연시간의 공동 최적화 문제로 다룬다는 관점 자체에도 있다.
7. 한계점 및 향후 연구 방향
7.1 논문이 직접 또는 간접적으로 드러내는 한계
첫째, 대규모 최종 모델에 대한 광범위한 frontier 비교는 제한적이다. 메인 LM 평가는 10B total, 1.3B activated MoE 설정에서 이뤄지지만, architecture comparison과 inference benchmark는 주로 1.3B dense 기반이다. 따라서 훨씬 더 큰 dense frontier 모델이나 최신 초대형 long-context 모델에 대해서도 동일한 우위가 유지되는지는 이 논문만으로 단정하기 어렵다.
둘째, 장문맥 품질 평가가 주로 perplexity와 NIAH 중심이라는 점이다. 이는 retrieval과 언어모델링 품질을 보여주지만, 복합 멀티홉 reasoning, 긴 문서 생성 품질, 에이전트형 장문맥 플래닝처럼 실제 응용에서 더 까다로운 시나리오를 폭넓게 다루지는 않는다. 따라서 YOCO-U의 long-context 강점이 모든 종류의 장문맥 태스크로 일반화된다고 보기에는 아직 이르다.
셋째, 논문 스스로도 loop 증가의 한계를 암시한다. representation analysis에서 저자들은 diminishing marginal returns와 fixed-point 접근 가능성을 언급한다. 이는 YOCO-U가 무한정 recurrence를 늘릴수록 계속 큰 폭으로 좋아진다고 주장하지 않는다는 뜻이다. 실무에서는 loop 수 선택이 품질 향상과 latency 증가 사이의 타협으로 남을 가능성이 높다.
넷째, 효율성 실험은 특정 구현 스택인 Nano-vLLM, H100, BF16, paged attention 설정 위에서 측정되었다. 구조적 경향은 유효하더라도, 절대 throughput 수치가 다른 런타임과 하드웨어에서 동일하게 재현된다고 볼 수는 없다. 특히 kernel fusion, cache layout, scheduler 최적화 정도에 따라 실제 서비스 수치는 상당히 달라질 수 있다.
다섯째, 비교 대상이 Transformer, YOCO, Universal Transformer, RINS, ParScale에 집중되어 있다는 점도 한계다. 최근의 다른 efficient long-context architecture, hybrid state-space 모델, retrieval-augmented recurrent design 등과의 대규모 비교는 논문 범위 밖에 있다. 따라서 YOCO-U의 상대적 위치를 전체 아키텍처 지형도 속에서 완전히 확정하기는 어렵다.
7.2 향후 연구 방향
논문이 열어 놓은 다음 단계는 크게 네 갈래로 정리할 수 있다. 첫째, adaptive loop scheduling이다. 현재는 loop 수를 고정해 실험하지만, 실제로는 입력 난이도나 문맥 구조에 따라 필요한 반복 횟수가 다를 수 있다. 따라서 confidence, entropy, intermediate convergence signal 등을 이용해 필요할 때만 반복을 더 수행하는 동적 제어가 유망하다.
둘째, 더 큰 규모와 더 다양한 efficient attention 백본으로의 확장이다. 논문은 SWA, RetNet, Mamba, gated DeltaNet과의 호환 가능성을 언급한다. 향후에는 어떤 efficient block이 shared KV 기반 Cross-Decoder와 가장 잘 결합되는지, 또 recurrence가 어떤 state-space 계열에서 더 큰 이득을 보이는지 비교가 필요하다.
셋째, long-context generation과 agentic workflow에 대한 직접 평가가 요구된다. YOCO-U는 구조적으로 test-time scaling과 잘 맞는 설계를 지향하므로, 긴 문서 QA, 다단계 tool use, multi-hop retrieval planning, reflective decoding 같은 시나리오에서 더 직접적인 검증이 가능하다. 특히 shared global KV가 agent state와 결합될 때 어떤 이점을 주는지 탐구할 여지가 있다.
넷째, 학습 안정성과 최적화 동역학에 대한 이론적 분석도 중요하다. representation analysis는 경험적 관찰을 제공하지만, 왜 shallow recurrence가 deep recurrence보다 안정적이며, 어떤 조건에서 fixed-point형 수렴이 나타나는지에 대한 보다 엄밀한 설명은 아직 부족하다. 이는 향후 더 큰 loop 수, 더 큰 모델 규모, 더 긴 문맥에 대한 일반화 가능성을 이해하는 데 도움이 될 것이다.
7.3 실무적 관점에서 남는 질문
실무 관점에서 이 논문이 남기는 가장 큰 질문은, 앞으로의 LLM 서빙이 파라미터 수 확대 중심에서 계산 예산의 동적 재배치 중심으로 이동할 때 어떤 아키텍처가 기준선이 될 것인가이다. YOCO-U는 같은 전제하에서 더 많은 loop를 허용하면서도 global KV 예산을 거의 유지할 수 있다는 점을 보여 주었다. 이는 장문맥 에이전트, 대형 코드베이스 검색, 긴 보고서 요약처럼 prefix가 길고 reasoning budget이 요청마다 달라지는 작업에서 특히 중요하다. 논문은 직접 그런 응용을 전부 다루지는 않지만, 최소한 "깊이 확장은 반드시 메모리 폭증을 부른다"는 고정관념을 깨는 증거를 제공한다. 이후 연구는 이 구조 위에 adaptive loop 제어, reflective decoding, retrieval-aware scheduling을 얹어 실제 워크로드별 최적 운영점을 찾는 방향으로 이어질 가능성이 크다.
같은 맥락에서 YOCO-U는 모델 설계의 평가 기준을 다시 생각하게 만든다. 이제 중요한 것은 단순히 더 큰 모델을 만드는 일이 아니라, 같은 하드웨어 예산에서 얼마나 더 긴 문맥을 처리하고, 얼마나 더 많은 내부 계산을 허용하며, 그 계산이 실제 성능 향상으로 이어지는가이다. 논문은 바로 그 질문에 대해 shared KV와 shallow recurrence라는 조합이 유의미한 답이 될 수 있음을 데이터로 보여 준다. 이 메시지는 분명하다.
8. 결론
Universal YOCO for Efficient Depth Scaling의 핵심 기여는 재귀 계산을 전체 모델에 걸지 않고, 얕은 efficient-attention Self-Decoder에만 국한하는 방식으로 depth scaling의 비용 구조를 다시 설계했다는 데 있다. 이 선택 덕분에 YOCO-U는 공유 global KV cache를 유지하며, 긴 문맥 서빙의 핵심 병목인 메모리 증가를 효과적으로 억제한다. 동시에 반복 계산을 통해 비재귀 YOCO보다 더 낮은 validation loss와 더 높은 downstream 성능을 얻는다.
실험 결과는 이 설계의 의도를 상당히 일관되게 지지한다. equal-FLOPs 조건에서도 YOCO-U는 더 낮은 loss를 보이고, end-task 평균 점수는 YOCO 대비 크게 상승한다. 수학 벤치마크의 Thinking SFT에서도 평균 24.4% 향상이 보고되며, architecture comparison에서는 RINS와 유사한 capability를 보인다. 동시에 long-context perplexity와 NIAH에서는 강한 retrieval 능력을 유지하고, throughput 및 KV cache 점유량에서는 RINS나 Transformer보다 현저히 유리하다.
따라서 이 논문은 단지 YOCO의 변형 모델을 제안한 것이 아니라, 재귀와 효율적 서빙을 양립시키는 depth scaling 설계 원칙을 제시한 작업으로 읽을 수 있다. 특히 long context, test-time scaling, 메모리 제약이 동시에 중요한 환경에서 YOCO-U의 아이디어는 이후 많은 구조적 변형의 기반이 될 가능성이 있다.
9. 요약 정리
9.1 핵심 포인트 10가지
첫째, 논문은 기존 Transformer가 재귀 계산과 장문맥 서빙을 동시에 효율적으로 지원하기 어렵다고 본다. 둘째, 이를 해결하기 위해 YOCO의 decoder-decoder 구조 위에 Universal Self-Decoder를 도입한다. 셋째, 재귀는 전체 모델이 아니라 Self-Decoder의 shallow efficient-attention block에만 적용된다. 넷째, 반복 결과로부터 생성한 global K/V는 한 번만 만들고 Cross-Decoder 전체가 공유한다. 다섯째, 이 설계 덕분에 깊이 확장 비용은 주로 window-local cache에만 붙고, global KV는 반복 수에 비례해 불어나지 않는다.
여섯째, scaling 실험에서 YOCO-U는 ΔL = 0.033의 loss 이득과 YOCO-U 80B ≈ YOCO 210B 수준의 token efficiency를 보인다. 일곱째, downstream 평균 점수는 YOCO 41.78에서 YOCO-U equal-FLOPs 46.23, equal-steps 47.08로 상승한다. 여덟째, thinking SFT 이후 11개 수학 벤치마크 평균 정확도는 24.4% 향상된다. 아홉째, architecture comparison에서 YOCO-U는 RINS와 유사한 평균 48.3을 달성하지만, 효율성은 훨씬 낫다. 열째, 256K 컨텍스트에서 KV cache는 YOCO-U 542MB, YOCO 522MB, Transformer 10,240MB, RINS 20,480MB로 보고된다.
9.2 효율성 수치 한눈에 보기
| 지표 | Transformer | YOCO | RINS | YOCO-U |
|---|---|---|---|---|
| Prefill 16K (tok/s) | 66,342 | ~220K 유지 경향 | 논문은 YOCO-U 대비 크게 낮다고 보고 | 75,694 |
| Prefill 256K (tok/s) | 7,475 | ~220K 유지 경향 | YOCO-U 대비 최대 20× 느림으로 해석 | 76,301 |
| Decode 16K (tok/s) | 1,795 | 2,539 | 580 | 1,966 |
| Decode 256K (tok/s) | 137 | 318 | 56 | 303 |
| KV cache 16K (MB) | 640 | 42 | 1,280 | 62 |
| KV cache 256K (MB) | 10,240 | 522 | 20,480 | 542 |
효율성 수치만 놓고 보면 YOCO-U의 위치는 매우 분명하다. prefill은 Transformer 대비 최대 10×, RINS 대비 최대 20× 수준의 이점이 제시되고, decode throughput은 YOCO보다 약간 낮지만 손실이 약 5% 수준에 머문다. KV cache는 YOCO와 거의 겹치며, 256K에서 RINS보다 약 38배 작다. 이 조합이 바로 논문이 말하는 efficient depth scaling의 실질적 의미다.
Figure 7: 문맥 길이에 따른 prefill throughput 비교. YOCO-U는 긴 문맥에서도 처리량 저하가 작고 Transformer 및 RINS보다 우세하다.
prefill은 긴 프롬프트를 한 번에 인코딩하는 단계이므로, 장문맥 환경에서는 전체 사용자 체감 지연과 서버 처리량을 좌우한다. 논문은 YOCO-U가 16K에서 이미 Transformer보다 빠르고, 256K에서는 그 격차가 훨씬 커진다고 보고한다. 이는 shared global KV와 선형적 prefilling 구조가 이론상의 복잡도 개선을 실제 런타임 이점으로 전환했음을 보여준다.
Figure 8: 문맥 길이에 따른 decode throughput 비교. YOCO-U는 재귀를 도입했음에도 YOCO에 가까운 처리량을 유지하고 RINS를 크게 앞선다.
decode 단계는 실제 생성 중 반복적으로 일어나는 연산이므로, 여기서의 성능 저하는 사용자 체감 latency로 곧바로 이어진다. YOCO-U는 recurrence를 사용하지만, 논문은 YOCO 대비 throughput 손실이 약 5%에 그친다고 보고한다. 반면 RINS는 full-attention recurrence의 영향으로 훨씬 낮은 처리량을 보인다. 따라서 YOCO-U는 재귀를 넣었는데도 decode cost 폭증을 피했다는 점에서 구조적 차별성이 있다.
Figure 9: 문맥 길이에 따른 KV cache occupation 비교. YOCO-U 곡선은 YOCO와 거의 겹치며 Transformer와 RINS보다 현저히 낮다.
이 그림은 YOCO-U 논문의 주장을 가장 강하게 입증하는 증거 중 하나다. 문맥이 길어질수록 Transformer와 RINS는 global KV cache 비용 때문에 메모리가 급증하지만, YOCO-U는 YOCO와 거의 같은 수준을 유지한다. 즉, 재귀 계산을 도입했어도 global KV cache가 반복 횟수에 비례해 불어나지 않는다는 설계 목표가 실제 측정값으로 확인된 셈이다.
정리하면, YOCO-U는 성능 면에서는 RINS에 접근하고, 효율 면에서는 YOCO에 근접하는 지점을 겨냥한다. 이 절충은 우연한 산물이 아니라, Universal Self-Decoder와 shared global KV라는 두 설계 축이 결합된 결과다. 그래서 이 논문은 단순한 모델 소개보다는, 장문맥 시대의 depth scaling을 어떻게 설계할 것인가에 대한 구조적 제안으로 읽는 편이 타당하다.