[논문 리뷰]/[최신 논문] / [arXiv 2604.24715] HyLo: 긴 컨텍스트를 보존하는 하이브리드 LLM 업사이클링.md

[arXiv 2604.24715] HyLo: 긴 컨텍스트를 보존하는 하이브리드 LLM 업사이클링

조회

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

https://arxiv.org/abs/2604.24715

Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari, Akash Haridas, Mingyu Yang, Vansh Bhatia, Guihong Li, Vikram Appia, Emad Barsoum | AMD | arXiv:2604.24715 | 2026년 4월


1. 서론: 긴 문맥 확장의 비용을 업사이클링으로 줄이기

대규모 언어 모델은 문서 이해, 코드 생성, 다단계 추론, 장기 대화처럼 입력 길이가 길어질수록 가치가 커지는 작업으로 이동하고 있다. 그러나 순수 Transformer는 self-attention과 KV cache가 길이에 따라 빠르게 커지므로, 긴 컨텍스트를 다루려면 학습과 추론 양쪽에서 비용이 급격히 증가한다. 이 논문은 이미 학습된 Transformer 체크포인트를 버리고 처음부터 새 하이브리드 모델을 학습하는 방식 대신, 기존 지식을 재사용하면서 장기 문맥 능력을 보존하는 long-context aware upcycling 문제를 전면에 둔다.

논문이 제안하는 HyLo는 HYbrid LOng-context의 약자로, pretrained Transformer LLM을 MLAMamba2 또는 Gated DeltaNet이 섞인 하이브리드 구조로 바꾸는 업사이클링 레시피다. 핵심은 단순히 attention layer 일부를 선형 recurrent block으로 치환하는 데 있지 않다. 논문은 초기화, intermediate-layer distillation, 8K와 64K 단계의 긴 문맥 SFT, teacher-guided distillation, vLLM runtime 통합을 하나의 파이프라인으로 묶어, 짧은 문맥 성능을 크게 잃지 않으면서 RULER 같은 장문 벤치마크에서 성능을 끌어올리는 절차를 제시한다.

이 논문이 흥미로운 이유는 장기 문맥을 모델 구조의 사후 옵션을 넘어 업사이클링의 목표 함수로 다룬다는 점이다. 기존 하이브리드 모델 연구는 Mamba, Gated DeltaNet, linear attention 같은 블록을 처음부터 섞어 학습하거나, short-context perplexity와 일반 벤치마크를 유지하는 데 초점을 두는 경우가 많았다. HyLo는 이미 널리 쓰이는 Llama-3.2와 Qwen 계열 체크포인트를 출발점으로 삼고, KV cache 절감과 long-context generalization을 동시에 보도록 설계한다.

논문 초록 기준으로 HyLo는 효율적인 post-training만으로 사용 가능한 컨텍스트 길이를 최대 $32\times$ 확장하고, KV cache memory를 90% 이상 줄이며, AMD MI300X 8장 위의 vLLM stack에서 최대 2M-token prefill과 decoding을 가능하게 했다고 보고한다. 비교 대상 Llama baseline은 64K를 넘어가면 메모리 한계에 걸리는 반면, HyLo 변형은 MLA layer 수를 줄인 구성에서 훨씬 긴 입력을 끝까지 처리한다. 따라서 이 글에서는 HyLo를 단순한 구조 변환 논문으로만 보지 않고, 체크포인트 재사용, 긴 문맥 학습, 메모리 최적화, 서빙 엔진 수정이 만나는 시스템형 논문으로 읽는다.

HyLo short context and RULER performance

Figure 1: HyLo 계열의 짧은 문맥 수학 성능과 8K, 16K, 32K, 64K RULER 평균 정확도 비교.

이 그림은 HyLo가 논문 전체에서 주장하는 균형점을 압축해 보여 준다. 세로축 하나만 보는 성능 비교를 넘어서, 짧은 문맥의 GSM8K류 성능과 긴 문맥의 RULER 평균을 함께 배치해 업사이클링의 손익을 드러낸다. HyLo 변형들은 제한된 post-training token budget 안에서도 baseline 대비 RULER 쪽에서 더 완만하게 무너지며, 논문은 이 결과를 long-context objective를 명시적으로 넣은 효과로 해석한다.

논문의 주요 기여는 네 가지로 정리할 수 있다. 첫째, pretrained Transformer를 MLA와 linear block의 혼합 구조로 바꾸되, long-context 성능을 별도 평가 축으로 둔다. 둘째, 2K 수준의 초기 distillation을 넘어 8K와 64K 학습 길이를 비교해, 긴 컨텍스트 학습 길이 자체가 long-context generalization에 영향을 준다는 점을 실험한다. 셋째, teacher-guided distillation을 긴 시퀀스에 적용할 때 생기는 logit memory 병목을 chunked KL, Triton fused KL, hidden-state KL로 줄인다. 넷째, 연구용 모델이 실제로 서빙될 수 있도록 vLLM 내부에 heterogeneous layer, compressed MLA cache, Mamba state를 함께 넣는 구현을 수행한다.

  • 문제 정의: 기존 Transformer 체크포인트를 하이브리드 LLM으로 변환하면서 짧은 문맥 성능과 긴 문맥 성능을 동시에 보존한다.
  • 핵심 구조: 일부 attention layer는 MLA로 남기고, 나머지는 Mamba2 또는 Gated DeltaNet으로 치환해 KV cache 부담을 줄인다.
  • 학습 전략: Enhanced-ILD로 블록별 초기화를 안정화한 뒤, 8K와 64K long-context SFT 및 teacher-guided KD를 수행한다.
  • 시스템 목표: 단순 벤치마크 수치 외에 vLLM에서 2M token serving이 가능한지까지 확인한다.
기존 접근 HyLo가 바꾸는 지점
학습 비용 하이브리드 모델을 처음부터 pretraining pretrained Transformer를 업사이클링하고 post-training budget으로 보정
성능 기준 perplexity, common sense, short-context benchmark 중심 RULER 8K부터 64K까지 장기 문맥 성능을 핵심 지표로 포함
메모리 병목 전체 attention KV cache와 긴 시퀀스 logit tensor가 병목 MLA cache 압축, linear recurrent state, fused KD loss로 병목을 분리
배포성 모델 구조 제안과 benchmark에서 멈추는 경우가 많음 vLLM runtime 통합과 2M token latency sweep까지 포함

위 표처럼 HyLo의 위치는 모델 압축, long-context training, inference system의 중간에 있다. 논문은 더 작은 KV cache를 얻기 위해 단순히 attention을 제거하는 선택을 하지 않고, 어디에 attention을 남기고 어디를 recurrent block으로 바꿀지, 어떤 teacher signal로 보정할지, runtime에서 이 혼합 구조를 어떻게 실행할지를 차례로 다룬다. 그래서 본문을 읽을 때는 단일 기법의 승패보다 하이브리드 전환 레시피의 구성 요소들이 서로 어떤 병목을 맡는지를 따라가는 편이 좋다.

또 하나 주목할 점은 HyLo가 모델 크기 경쟁을 직접 키우는 방식보다 이미 존재하는 checkpoint의 사용 수명을 늘리는 방향에 가깝다는 점이다. 연구실이나 기업이 매번 긴 문맥 전용 모델을 새로 pretraining하기 어렵다면, 이미 검증된 Llama나 Qwen checkpoint를 하이브리드 구조로 옮기고, 필요한 context length에 맞춰 post-training하는 방법은 현실적인 선택지가 될 수 있다. 이때 업사이클링은 단순 비용 절감 기법을 넘어, 모델 배포 조직이 hardware memory, latency target, 기존 모델 품질을 함께 조정하는 운영 전략이 된다.

따라서 HyLo를 읽을 때는 “얼마나 긴 입력을 받는가”보다 “어떤 방식으로 긴 입력을 받아도 망가지지 않게 만들었는가”를 봐야 한다. 논문은 context window 숫자를 키우는 데서 멈추지 않고, RULER와 NIAH로 긴 입력 안의 정보 회수 성능을 확인하며, vLLM에서 TTFT와 TPOT를 따로 측정한다. 이 구성 덕분에 HyLo는 모델 논문이면서도 deployment 논문처럼 읽히며, 장기 문맥 LLM을 실제로 굴릴 때 필요한 검증 항목을 비교적 넓게 제시한다.

2. 배경 및 관련 연구: Transformer 이후 하이브리드 장기 문맥 모델

2.1 순수 Transformer의 긴 문맥 비용

Transformer는 attention을 통해 임의 위치의 token 사이 상호작용을 직접 계산할 수 있으므로 언어 모델링에서 강력한 표현력을 제공한다. 그러나 sequence length가 길어질수록 attention score 계산과 KV cache 저장 비용이 커진다. 학습에서는 activation과 logit tensor가 커지고, 추론에서는 prefill 시간과 per-token decoding latency가 입력 길이에 따라 증가한다. 특히 긴 문서, repository, multi-hop retrieval 결과를 그대로 넣는 실제 사용 환경에서는 모델 성능보다 컨텍스트를 끝까지 감당하는 시스템 비용이 먼저 병목이 된다.

이 문제 때문에 최근 연구는 state space model, linear attention, recurrent memory, sliding window attention, MLA 같은 대체 구성 요소를 적극적으로 실험하고 있다. Mamba 계열은 fixed-size state로 긴 sequence를 처리하려 하고, Gated DeltaNet은 gated delta rule을 통해 state를 갱신한다. MLA는 DeepSeek 계열에서 주목받은 방식으로, key와 value를 low-rank latent로 압축해 KV cache를 줄인다. HyLo는 이 흐름을 하나로 합쳐, attention을 완전히 포기하지 않으면서도 대부분의 layer에서 KV cache 증가를 억제하는 혼합 구조를 만든다.

2.2 처음부터 학습하는 하이브리드 모델과 업사이클링

Jamba, Samba, Qwen3-Next, Kimi Linear 같은 하이브리드 모델은 attention과 효율적 sequence module을 interleave하면 긴 입력에서 계산량을 줄일 수 있다는 가능성을 보였다. 다만 이런 접근은 보통 대규모 pretraining을 다시 수행해야 하므로, 이미 존재하는 강력한 Transformer checkpoint의 지식을 충분히 재사용하지 못한다. 학습 데이터와 GPU budget이 커진 현재 상황에서는 모델 구조가 조금 효율적이더라도, 처음부터 학습해야 한다는 요구 자체가 큰 진입 장벽이다.

반대로 model upcycling은 pretrained Transformer를 target hybrid architecture로 변환한 뒤 추가 학습으로 성능을 복구하는 방향이다. MambaInLlama, Llamba, X-EcoMLA, Zebra-Llama는 attention layer 일부를 Mamba, MLA, 또는 다른 linear block으로 바꾸고, hidden state distillation이나 layer selection으로 품질 손실을 줄이는 실험을 수행했다. HyLo는 이 계열을 이어받지만, 기존 논문들이 short-context 유지에 치우쳤다고 보고 long-context preservation을 별도 목표로 세운다.

2.3 긴 컨텍스트를 평가하는 방식

긴 컨텍스트 능력은 단순히 최대 입력 길이만으로 판단하기 어렵다. 64K token을 받아도 needle-in-a-haystack에서 특정 위치의 정보를 못 찾거나, RULER 하위 과제에서 거리가 멀어질수록 정확도가 급락하면 실사용 의미가 제한된다. HyLo는 short-context common sense reasoning, GSM8K, 그리고 RULER 8K, 16K, 32K, 64K 결과를 함께 보여 주면서, 구조 변환의 이득이 어느 영역에서 나타나는지 분리해 본다.

이 관점은 이전에 다룬 RACER의 speculative decoding 흐름과도 연결된다. RACER가 retrieval과 logits를 하나의 draft tree로 묶어 지연 시간을 줄이려 했다면, HyLo는 architecture와 cache 구조를 바꾸어 입력 길이 자체의 한계를 밀어낸다. 둘 다 추론 효율을 다루지만, RACER는 decoding 후보 생성의 속도 문제에 가까우며 HyLo는 모델 내부의 memory scaling 문제에 더 가깝다. 이 구분은 장기 문맥 시스템을 설계할 때 어떤 병목을 먼저 줄여야 하는지 판단하는 데 유용하다.

관련 흐름 대표 문제 HyLo와의 관계
하이브리드 pretraining 긴 sequence를 더 싸게 처리하는 구조를 처음부터 학습 구조 아이디어는 공유하지만, HyLo는 기존 checkpoint 재사용을 우선한다.
업사이클링 Transformer 지식을 hybrid block으로 옮길 때 성능 손실을 줄임 HyLo는 여기에 8K와 64K long-context objective를 붙인다.
KV cache 압축 긴 추론에서 per-token cache footprint를 낮춤 MLA layer는 latent KV를 저장하고, Mamba/GDN layer는 cache 대신 state를 쓴다.
장기 문맥 평가 길이 확장 뒤에도 정보를 찾고 조합하는지 측정 RULER 8K부터 64K까지를 main result의 중심 축으로 둔다.

표에서 보듯 HyLo는 새로운 block 하나를 제안하는 논문이라기보다, 여러 효율화 흐름을 pretrained LLM 전환 절차로 묶는 논문이다. 이때 중요한 질문은 attention을 얼마나 남겨야 하는지, 남긴 attention을 어떤 cache 구조로 줄일지, linear block이 잃는 정보를 teacher가 얼마나 보정할 수 있는지다. 논문은 Llama와 Qwen, Mamba2와 GDN, 1B와 3B급 스케일을 나누어 이 질문을 실험적으로 확인한다.

3. 방법론: HyLo long-context aware upcycling

3.1 전체 구조와 MLA-linear 혼합 비율

HyLo의 기본 목표는 pretrained Transformer LLM을 긴 문맥에 강한 hybrid model로 바꾸는 것이다. 논문은 attention layer 일부를 Multi-head Latent Attention으로 유지하고, 나머지를 Mamba2 또는 Gated DeltaNet으로 바꾼다. MLA layer는 attention capacity를 보존하지만 latent KV cache만 저장하도록 만들어 cache footprint를 줄인다. 반면 Mamba2와 GDN layer는 recurrent state를 사용하므로 표준 attention layer처럼 sequence length에 비례하는 KV cache를 쌓지 않는다.

이 설계에서 MLA-to-linear ratio는 품질과 효율 사이의 핵심 knob이다. MLA layer가 많을수록 attention 기반 long-range interaction을 더 직접적으로 보존하지만, KV cache는 더 많이 필요하다. Linear block이 많을수록 memory footprint는 줄어들지만, attention에서 학습된 정보를 얼마나 잘 옮기는지가 더 중요해진다. 논문은 Llama-3.2-1B에서 4MLA12M2와 8MLA8M2, Llama-3.2-3B에서 6MLA22M2와 14MLA14M2, Qwen3-1.7B에서 7MLA21M2와 14MLA14M2 같은 구성을 비교한다.

HyLo가 단일 base model에만 맞춘 기법으로 제한되지 않는다는 점도 중요하다. 논문은 Llama 계열과 Qwen 계열을 모두 다루고, linear block도 Mamba2와 GDN을 모두 실험한다. 이는 업사이클링 레시피가 특정 모델 family나 특정 state-space module에 과하게 맞춰져 있지 않음을 보이려는 구성이다. 물론 모든 조합이 같은 정도로 좋은 것은 아니며, 결과 표에서는 GDN 변형이 일부 설정에서 더 나은 RULER 유지력을 보이기도 한다.

3.2 초기화: attention 지식을 hybrid block으로 옮기기

업사이클링에서 가장 먼저 부딪히는 문제는 새로운 block을 어떻게 초기화할지다. pretrained Transformer의 attention weight를 단순히 버리고 random initialization을 쓰면, post-training budget이 제한된 상황에서 short-context quality가 크게 흔들릴 수 있다. HyLo는 Zebra-Llama의 절차를 따라 pure MLA model과 pure linear model을 먼저 만들고, 각 block을 pretrained weight에서 가능한 만큼 초기화한 뒤 distillation으로 정렬한다.

GDN 기반 HyLo에서는 선택된 decoder layer의 표준 attention module을 GDN mixer로 바꾸되, SwiGLU MLP와 RMSNorm sublayer는 원래 Transformer block에서 그대로 복사한다. Attention-to-GDN weight transfer에서는 teacher의 grouped-query attention 구조와 GDN의 key, value dimension이 다르기 때문에 두 단계를 거친다. 먼저 teacher가 $H_{kv} < H_q$인 grouped-query attention을 쓰면 key-value head를 반복해 query head 수에 맞춘다. 이후 GDN의 key dimension과 value dimension에 맞는 overlapping submatrix만 가져오고, gate projection, decay parameter, beta projection, short convolution kernel 같은 GDN 고유 parameter는 기본 random initialization으로 둔다.

논문이 제시한 GQA 확장은 다음과 같이 요약할 수 있다.

$$\tilde{\mathbf{W}}^{K}=\operatorname{RepeatKV}(\mathbf{W}^{K}_{\text{teacher}},g=H_q/H_{kv})$$

이 식은 teacher attention의 key weight를 GDN이 요구하는 head layout에 맞추기 위한 전처리다. 이어지는 dimension truncation은 $\mathbf{W}^{Q}$, $\mathbf{W}^{K}$, $\mathbf{W}^{V}$, $\mathbf{W}^{O}$에서 겹치는 부분만 복사한다. 이 선택은 완벽한 기능 보존을 보장하지 않지만, 완전한 random start보다 훨씬 안정적인 출발점을 제공한다. HyLo의 뒤쪽 학습 절차는 이 초기화의 불완전성을 hidden state와 mixer output distillation으로 보정한다.

MLA initialization from pretrained Transformer attention

Figure 2: pretrained Transformer attention block에서 MLA projection을 초기화하는 절차 개요.

이 도식은 full-rank attention projection을 MLA의 low-rank query path와 joint key-value path로 분해하는 흐름을 보여 준다. HyLo는 DeepSeek-V3 계열의 MLA 설계를 따라 compressed latent KV를 저장하므로, 기존 attention weight를 그대로 둘 수 없다. 도식의 핵심은 SVD 기반 분해가 모델의 기존 attention 지식을 MLA의 down projection과 up projection으로 나누어 이식한다는 점이며, 이후 distillation이 이식 손실을 줄이는 역할을 맡는다.

3.3 Enhanced-ILD와 두 단계 light fine-tuning

초기화 뒤 HyLo는 두 단계의 light fine-tuning을 수행한다. Stage I은 Enhanced Intermediate Layer Distillation이며, pure MLA, pure Mamba2, pure GDN 모델을 각각 teacher Transformer와 정렬한다. 논문은 Zebra-Llama의 ILD가 hidden state만 맞추는 데서 한 걸음 더 나아가, token-mixer output도 함께 맞춘다. 즉 attention output과 MLA, Mamba2, GDN output 사이의 차이를 직접 줄여, full attention에서 hybrid mixer로 넘어갈 때 생기는 local functional gap을 완화한다.

논문에서 Enhanced-ILD objective는 layer별 hidden state 차이와 token-mixer output 차이를 더한 형태로 제시된다.

$$\mathcal{L}_{\text{ILD}}=\sum_{\ell=1}^{L}\left[\left\|\mathbf{h}_{\ell}^{(s)}-\mathbf{h}_{\ell}^{(t)}\right\|_2+\left\|\mathbf{a}_{\ell}^{(s)}-\mathbf{a}_{\ell}^{(t)}\right\|_2\right]$$

여기서 $\mathbf{h}_{\ell}^{(s)}$와 $\mathbf{h}_{\ell}^{(t)}$는 student와 teacher의 layer output이고, $\mathbf{a}_{\ell}^{(s)}$와 $\mathbf{a}_{\ell}^{(t)}$는 해당 layer의 mixer output이다. 이 추가 항은 hybrid block이 단순히 최종 hidden representation만 비슷하게 만드는 데 그치지 않고, attention이 수행하던 token mixing 기능을 더 직접적으로 모방하게 한다. Table 6에서 Enhanced-ILD는 여러 설정의 GSM8K를 끌어올리며, 논문은 이를 initialization refinement의 중요한 요소로 해석한다.

Stage II는 long-context supervised fine-tuning이다. Stage I에서 따로 정렬한 MLA, Mamba2, GDN checkpoint를 불러와 최종 hybrid model을 조립하고, 8K 또는 64K context length에서 end-to-end로 학습한다. 이때 논문은 output-level knowledge distillation을 KL divergence로 수행하며, student logits와 teacher logits 사이의 분포 차이를 줄인다.

$$\mathcal{L}_{\text{SFT}}=D_{\text{KL}}\left(\operatorname{softmax}(\mathbf{z}^{(s)})\,\|\,\operatorname{softmax}(\mathbf{z}^{(t)})\right)$$

이 단계가 HyLo의 long-context 성격을 결정한다. 기존 upcycling 논문들은 2K 또는 24K 안팎에서 품질 복구를 본 경우가 많았지만, HyLo는 8K와 64K를 명시적으로 비교한다. 같은 구조라도 8K에서 학습한 모델을 YaRN으로 늘리는 것과 64K에서 직접 학습한 모델은 RULER 64K에서 차이가 난다. 논문은 이 결과를 통해 긴 문맥 능력은 단순 위치 보간만으로 충분히 생기지 않고, 긴 sequence에서의 teacher signal과 training objective가 필요하다고 주장한다.

이 설계는 hybrid block의 역할을 더 명확히 나눈다. MLA는 여전히 content-based retrieval과 token 간 직접 상호작용을 담당하는 layer로 남고, Mamba2와 GDN은 긴 sequence를 따라 상태를 누적하면서 cache footprint를 줄이는 layer가 된다. Stage II의 long-context SFT는 이 두 계층이 같은 긴 입력에서 함께 작동하도록 맞추는 과정이다. 짧은 문맥에서만 정렬한 block을 단순히 길게 늘리면, attention layer와 recurrent layer가 같은 위치 정보를 공유하지 못하거나 먼 위치의 evidence를 다르게 압축할 수 있다.

논문이 8K와 64K를 모두 실험한 것도 이 이유와 맞닿아 있다. 8K는 일반적인 긴 대화나 문서 작업에 가까운 길이이고, 64K는 코드베이스 일부, 긴 보고서, multi-document context를 한 번에 다루는 영역이다. HyLo가 두 길이를 나누어 비교함으로써 보여 주는 것은, hybrid upcycling에서 context length가 “나중에 interpolation으로 늘릴 수 있는 설정값”에 머물지 않고 학습 중 모델이 실제로 마주해야 하는 distribution shift라는 점이다.

3.4 긴 문맥 knowledge distillation의 메모리 최적화

64K context에서 teacher-guided distillation을 하려면 logit tensor가 가장 큰 병목이 된다. Llama-3 기준 vocabulary size가 128,256이고 sequence length가 65,536이면, bfloat16 logit tensor 하나만 약 16GB를 차지한다. 표준 KL divergence는 student와 teacher 양쪽의 logit 또는 softmax tensor를 동시에 다루므로, naive 구현은 80GB GPU에서도 쉽게 Out of Memory가 된다. HyLo는 이 문제를 training recipe의 일부로 보고, loss 계산 자체를 메모리 효율적으로 바꾼다.

논문은 먼저 Fused Linear Cross-Entropy로 student logits materialization을 줄이고, 이후 KL divergence를 sequence chunk 단위로 나누어 peak memory를 낮춘다. 더 긴 context에서는 Triton fused KL kernel을 사용해 softmax와 gradient를 한 커널 안에서 계산하고, 64K에서는 hidden-state KL을 사용해 teacher LM head를 건너뛰는 logit-free distillation path를 적용한다. 핵심은 distillation objective를 유지하면서도 $T \times V$ 크기의 전체 logit matrix를 한 번에 들고 있지 않는 것이다.

chunked KL은 다음처럼 sequence dimension을 chunk size $C$로 나누어 계산할 수 있다.

$$D_{\text{KL}}=\frac{1}{T}\sum_{i=0}^{\lceil T/C\rceil-1}\sum_{j=iC}^{\min((i+1)C,T)-1}D_{\text{KL}}\left(\operatorname{softmax}(\mathbf{z}_{j}^{(s)})\,\|\,\operatorname{softmax}(\mathbf{z}_{j}^{(t)})\right)$$

논문은 $C=4096$을 사용한다고 설명한다. 이 방식은 전체 $T \times V$ softmax tensor 대신 $C \times V$ slice만 들고 계산하게 하므로 peak memory를 줄인다. 다만 chunking만으로 모든 문제가 사라지지는 않는다. teacher forward, student backward, activation checkpointing, FSDP sharding, LM head 접근 방식이 모두 얽히므로, HyLo의 long-context distillation은 model architecture 연구이면서 동시에 loss implementation 연구이기도 하다.

기법 줄이는 메모리 논문 내 사용 구간
Liger Fused Linear CE student logits $T \times V$ materialization 8K부터 32K
Chunked KL Divergence softmax tensor $2(T \times V)$를 chunk 단위로 축소 64K
Triton Fused KL softmax와 gradient buffer를 fused kernel로 처리 128K
Fused Hidden-State KL teacher와 student logit matrix를 materialize하지 않음 64K
FSDP full sharding, frozen teacher, bf16 parameter, gradient, optimizer, precision 관련 부담 전체 설정

이 표는 HyLo가 긴 문맥을 다루기 위해 모델 구조를 바꾸는 데서 멈추지 않고, 학습 loss와 distributed training setting까지 함께 조정했다는 점을 보여 준다. 특히 64K에서 teacher를 붙인 distillation은 architecture design만으로 해결되지 않는다. 논문은 Table 1에서 activation checkpointing과 Fused_KL_Hidden을 함께 써야 8B teacher 설정이 54.2GiB 수준으로 내려온다고 보고한다. 따라서 HyLo의 재현성은 모델 코드와 함께 loss kernel과 teacher memory management 구현에 크게 의존한다.

이 부분은 장기 문맥 연구에서 자주 생기는 착시를 줄여 준다. 모델이 64K context를 처리한다고 말할 때, 실제로는 forward pass만 되는지, teacher를 붙여 학습할 수 있는지, batch size를 유지할 수 있는지, loss를 계산할 수 있는지가 모두 다르다. HyLo는 teacher KD를 유지하면서도 logit matrix materialization을 피하려 하므로, “긴 입력을 받는 모델”과 “긴 입력으로 학습 가능한 모델” 사이의 차이를 구체적인 memory table로 드러낸다.

또한 hidden-state KL은 성능과 효율 사이의 새로운 타협점을 만든다. teacher의 LM head를 생략하면 full logit distribution을 직접 저장하지 않아 memory가 크게 줄지만, loss kernel은 hidden state와 LM head weight를 tile 단위로 읽어 확률 분포 차이를 계산해야 한다. 이 방식은 구현 난도가 높지만, 긴 sequence에서 teacher supervision을 유지하는 현실적인 길을 제공한다. HyLo의 64K 결과는 이 구현 세부사항이 연구 결과의 중심에 들어왔음을 보여 준다.

3.5 vLLM runtime 통합

HyLo의 마지막 방법론 축은 inference serving이다. Hybrid architecture를 논문 실험 코드에서 돌리는 것과 vLLM 같은 production-oriented serving engine 안에 넣는 것은 다른 문제다. vLLM은 paged attention과 continuous batching을 중심으로 설계되어 있으며, 표준 Transformer attention layer의 KV cache 관리에 최적화되어 있다. HyLo는 layer마다 MLA attention, Mamba state, GDN state가 섞이므로, scheduler와 cache allocator가 서로 다른 memory object를 동시에 다뤄야 한다.

논문은 세 가지 시스템 문제를 언급한다. 첫째, heterogeneous layer type을 하나의 execution graph에서 실행해야 한다. 둘째, MLA의 compressed KV cache와 head expansion이 표준 grouped-query attention cache와 다르므로 custom allocation이 필요하다. 셋째, HyLo의 compressed latent dimension이 기존 fused attention kernel에서 바로 지원되지 않아, 일부 구간에서는 PyTorch fallback kernel을 써야 한다. 이 점은 latency 결과를 해석할 때 중요하다. HyLo가 KV cache를 크게 줄여도, kernel support가 완전히 맞지 않으면 짧은 context에서는 Llama baseline보다 느릴 수 있다.

이 runtime 통합은 논문의 실용성을 높이는 동시에 결과 해석을 더 복잡하게 만든다. 연구용 PyTorch 구현에서는 hybrid layer를 순서대로 실행하면 되지만, serving engine은 request batching, cache paging, tensor parallel communication, token scheduling을 동시에 최적화한다. MLA layer가 요구하는 latent cache layout과 Mamba/GDN state update가 같은 engine 안에 들어오면, 기존 Transformer 전용 최적화가 그대로 적용되지 않는다. 따라서 HyLo의 latency는 구조 자체의 잠재력과 현재 kernel coverage의 제약이 함께 반영된 값으로 읽어야 한다.

논문이 vLLM을 선택한 것도 의미가 있다. vLLM은 실제 LLM serving에서 널리 쓰이는 엔진이므로, HyLo를 이 환경에 올렸다는 것은 “논문 코드에서만 작동하는 hybrid”를 넘어 실제 배포 경로를 고려했다는 뜻이다. 특히 2M token sweep은 긴 context window를 marketing number로 제시하는 수준과 다르게, prefill과 decoding latency를 따로 측정해 어떤 부분이 병목인지 보여 준다.

4. 실험 설정: backbone, 평가 과제, 비교 기준

4.1 데이터셋 및 벤치마크

실험은 세 가지 base model에서 시작한다. Llama-3.2-1B, Llama-3.2-3B, Qwen3-1.7B가 사용되며, Qwen3는 query와 key projection 뒤 normalization을 유지하는 방식으로 변환된다. 평가는 short-context common sense reasoning, long-context reasoning, math reasoning을 분리한다. Short-context는 lm-eval-harness로 ARC-Challenge, ARC-Easy, HellaSwag, OpenBookQA, PIQA, RACE, WinoGrande를 사용하고, math는 GSM8K를 포함한다. Long-context는 RULER benchmark의 13개 task를 8K, 16K, 32K, 64K 길이에서 본다.

비교 대상은 hybrid upcycling 계열과 scratch 또는 별도 hybrid 계열을 섞는다. Llama 1B와 3B 쪽에서는 MambaInLlama, Llamba, Zebra-Llama, M1 등이 등장하고, Qwen 쪽에서는 Jet-Nemotron-2B와 HypeNet이 포함된다. 이 비교 구성은 완전히 같은 pretraining token budget이나 동일 architecture family만으로 통제된 것은 아니지만, HyLo가 겨냥하는 실전 질문과 맞닿아 있다. 즉 이미 공개되었거나 재사용 가능한 checkpoint를 출발점으로 삼아, 적은 post-training budget에서 긴 문맥 성능을 얼마나 살릴 수 있는가를 본다.

4.2 구현 세부사항

Appendix 기준으로 Enhanced-ILD는 training SFT dataset의 20%를 사용해 1 epoch 수행되며, context length는 2048, learning rate는 $2\times10^{-4}$, cosine decay, warmup ratio 0.01, bfloat16 mixed precision이다. Stage II SFT는 8K 또는 64K context length에서 1 epoch 수행하며, YaRN position scaling은 original 2048 context를 8192 또는 65536으로 확장하는 데 사용된다. 학습은 8장의 AMD MI300X GPU에서 FSDP full sharding으로 수행된다.

모델 Base model MLA layer indices 활성 parameter 학습률 batch size 8K/64K
HyLo-Llama-4MLA12M2 Llama-3.2-1B [1,5,10,14] 1.5B $6.0\times10^{-5}$ 32/8
HyLo-Llama-8MLA8GDN Llama-3.2-1B [0,2,4,6,8,10,12,14] 1.6B $6.0\times10^{-5}$ 32/8
HyLo-Llama-6MLA22GDN Llama-3.2-3B [0,5,10,16,21,26] 4.3B $4.0\times10^{-5}$ 16/8
HyLo-Qwen-14MLA14GDN Qwen3-1.7B [0,2,4,6,8,10,12,14,16,18,20,22,24,26] 2.2B $6.0\times10^{-5}$ 16/8

이 구성표에서 눈에 띄는 점은 MLA layer가 적은 모델과 많은 모델을 모두 둔다는 것이다. 예컨대 Llama-3.2-3B에서는 6MLA22M2와 14MLA14M2를 비교한다. 6MLA 구성은 KV cache가 훨씬 작아 long serving에 유리하지만 attention capacity는 줄어든다. 14MLA 구성은 더 많은 attention을 보존하므로 일부 quality 측면에서 유리할 수 있으나, 긴 context latency에서는 불리할 수 있다. 논문은 이 trade-off를 quality table과 vLLM latency figure에서 나눠 보여 준다.

4.3 베이스라인과 해석 기준

HyLo의 결과는 세 가지 숫자를 동시에 봐야 한다. 첫째, common sense reasoning 평균이 얼마나 유지되는가다. 이 값이 크게 떨어지면 long-context 성능이 좋아져도 기존 LLM으로서의 일반성이 약해진다. 둘째, GSM8K가 얼마나 유지되거나 개선되는가다. 논문은 Qwen 기반 HyLo가 Jet-Nemotron 대비 훨씬 적은 token budget으로 GSM8K에서 강한 성능을 보인다고 강조한다. 셋째, RULER 64K에서 baseline이 무너지는 정도와 HyLo가 버티는 정도다. HyLo의 핵심 주장은 세 번째 축에서 가장 강하게 나타난다.

  • Short-context 유지: ARC, HellaSwag, PIQA 등 일반 언어 이해 벤치마크 평균이 급격히 낮아지지 않아야 한다.
  • Long-context 일반화: 8K에서만 좋아지는 모델보다 32K와 64K에서 성능이 유지되는 모델이 중요하다.
  • 수학 추론: GSM8K는 hybrid conversion이 reasoning 능력을 얼마나 보존하는지 보는 보조 지표다.
  • KV cache footprint: 2%에서 7.8% 수준의 cache 사용량으로 attention-heavy baseline과 비교한다.

5. 주요 실험 결과: 짧은 문맥을 크게 잃지 않고 긴 문맥을 늘리기

5.1 Llama-3.2-1B 결과

Llama-3.2-1B 결과에서 HyLo는 baseline 대비 long-context RULER 성능을 크게 올린다. Zebra-Llama-1B 4MLA12M2는 KV cache 4%에서 RULER 64K가 0.1에 머무르지만, HyLo-Llama-4MLA12M2를 64K에서 학습하면 RULER 64K가 37.9까지 올라간다. HyLo-Llama-4MLA12GDN은 같은 KV cache 3.9%에서 RULER 64K 40.8을 보이며, common sense average는 51.2로 short-context 손실을 제한한다. 이 비교는 HyLo가 단순 architecture replacement보다 long-context training과 distillation recipe에서 이득을 얻는다는 점을 잘 보여 준다.

모델 KV cache Common Sense Avg. RULER 8K RULER 32K RULER 64K GSM8K
Zebra-Llama-1B 4MLA12M2 4% 51.8 12.3 3.7 0.1 37.2
HyLo-Llama-4MLA12M2, 8K train 3.9% 52.1 53.1 2.0 0.5 49.2
HyLo-Llama-4MLA12M2, 64K train 3.9% 50.3 53.3 40.4 37.9 33.0
HyLo-Llama-4MLA12GDN, 64K train 3.9% 51.2 52.5 44.5 40.8 37.5

이 표는 8K 학습과 64K 학습의 차이를 선명하게 보여 준다. 8K에서 학습한 HyLo는 RULER 8K에서 이미 baseline보다 높지만, 32K와 64K로 가면 급격히 낮아진다. 반면 64K에서 학습한 HyLo는 short-context 평균을 약간 희생하는 대신 32K와 64K를 크게 끌어올린다. 논문은 이 결과를 통해 long-context upcycling에서 training sequence length가 단순한 구현 세부사항을 넘어 성능을 결정하는 주요 변수라고 설명한다.

Needle in a haystack result for Llama 1B

Figure 3: Llama-3.2-1B baseline의 synthetic needle-in-a-haystack 평가.

이 그림은 baseline Llama-3.2-1B가 needle 위치와 context length 변화에 대해 어떤 성능 지도를 보이는지 보여 준다. Needle-in-a-haystack은 긴 입력 안의 특정 정보를 회수하는 능력을 직접 확인하는 실험이므로, 단순 perplexity보다 long-context failure mode를 잘 드러낸다. HyLo 결과를 해석할 때 이 baseline 지도는 attention-heavy 모델의 메모리 한계와 위치별 회수 특성을 비교하는 기준점 역할을 한다.

Needle in a haystack result for Zebra Llama

Figure 4: Zebra-Llama 1B 4MLA12M2의 needle-in-a-haystack 평가.

Zebra-Llama 결과는 기존 upcycling baseline이 KV cache를 줄이는 방향에서는 의미가 있지만, 긴 문맥 위치 전반에서 안정적으로 정보를 회수하는 데는 한계가 있음을 보여 준다. 논문은 이 비교를 통해 구조 변환과 초기화만으로는 충분하지 않으며, long-context-aware training stage가 필요하다고 주장한다. 특히 같은 4MLA12M2류 구성에서도 HyLo가 더 높은 RULER와 NIAH 패턴을 보인다는 점이 핵심 비교다.

Needle in a haystack result for HyLo 8K YaRN

Figure 5: HyLo 4MLA12M2를 8K에서 학습하고 YaRN으로 확장한 needle-in-a-haystack 결과.

8K 학습 뒤 YaRN으로 확장한 결과는 위치 보간이 긴 문맥 성능을 어느 정도 회복하지만 완전한 해결책은 아니라는 점을 보여 준다. 논문은 이 설정이 64K 직접 학습보다 낮은 장기 회수 성능을 보인다고 보고한다. 이 그림은 학습 길이를 줄여 비용을 아끼려는 선택이 가능한지 평가하는 ablation이며, HyLo의 결론은 zero-shot extension보다 long-context training을 병행하는 쪽에 더 가깝다. 특히 먼 위치의 needle을 안정적으로 회수하려면 학습 중에도 긴 dependency를 실제로 경험해야 한다.

Needle in a haystack result for HyLo 64K

Figure 6: HyLo 4MLA12M2를 64K에서 학습한 needle-in-a-haystack 결과.

64K 학습 결과는 HyLo가 논문에서 강조하는 장기 문맥 보존 효과를 가장 직접적으로 보여 준다. 같은 계열의 hybrid 구조라도 긴 sequence에서 teacher-guided training을 수행하면 더 넓은 위치 범위에서 needle 회수가 안정화된다. 이 그림은 Figure 5와 함께 읽어야 하며, 논문은 두 그림의 차이를 통해 long-context objective가 모델의 실제 retrieval behavior에 남는다는 점을 강조한다.

5.2 Llama-3.2-3B 결과

3B scale 결과에서는 HyLo의 장점이 더 시스템적으로 보인다. Zebra-Llama 3B 14MLA14M2는 RULER 64K 4.2에 머무르지만, HyLo-Llama-14MLA14GDN을 64K에서 학습하면 RULER 64K가 52.0까지 올라간다. 6MLA22GDN 역시 KV cache 2.0%만 쓰면서 RULER 64K 46.3을 기록한다. 이 결과는 attention layer를 많이 남긴 구성이 항상 최적이라는 단순 결론으로 이어지지 않는다. 6MLA 구성은 latency와 memory에서 유리하고, 14MLA 구성은 일부 long-context accuracy에서 더 높다.

모델 KV cache Common Sense Avg. RULER 8K RULER 16K RULER 32K RULER 64K GSM8K
M1 21.4% 56.2 63.5 43.6 30.3 17.4 62.5
Zebra-Llama 3B 14MLA14M2 4.7% 58.0 35.1 13.3 6.3 4.2 66.2
HyLo-Llama-6MLA22GDN, 64K train 2.0% 57.2 68.2 62.1 55.7 46.3 56.0
HyLo-Llama-14MLA14GDN, 64K train 4.7% 57.9 73.2 69.7 62.9 52.0 58.9

3B 결과에서는 HyLo가 baseline 대비 RULER 전 구간에서 훨씬 안정적이다. 특히 64K에서 Zebra-Llama 14MLA14M2가 4.2인 반면 HyLo-Llama-14MLA14GDN은 52.0으로 올라간다. 다만 GSM8K는 M1이나 Zebra-Llama가 더 높거나 비슷한 경우가 있어, HyLo가 모든 지표를 동시에 압도한다고 보기는 어렵다. 논문의 설득력은 short-context 평균과 GSM8K를 크게 망가뜨리지 않으면서 long-context collapse를 줄였다는 균형에 있다.

5.3 Qwen 기반 결과와 Jet-Nemotron 비교

Qwen3-1.7B 기반 결과는 HyLo가 Llama family 바깥에서도 동작하는지 보여 준다. Jet-Nemotron-2B는 scratch 또는 별도 pretraining 흐름과 연결되는 강한 long-context baseline이지만, HyLo-Qwen 변형은 훨씬 제한된 10B token post-training으로 common sense, GSM8K, RULER 일부 구간에서 경쟁력을 보인다. 논문 초록은 HyLo-Qwen-1.7B가 JetNemotron보다 GSM8K, lm-harness common sense reasoning, RULER-64K에서 강하다고 강조한다.

모델 KV cache Common Sense Avg. RULER 8K RULER 32K RULER 64K GSM8K
Jet Nemotron-2B 2.1% 52.7 71.3 43.9 14.1 19.4
HyLo-Qwen-7MLA21GDN, 64K train 3.9% 55.4 59.8 42.5 30.5 73.3
HyLo-Qwen-14MLA14M2, 64K train 7.8% 55.7 73.9 46.2 33.1 73.5
HyLo-Qwen-14MLA14GDN, 64K train 7.8% 56.7 66.9 41.4 31.6 73.8

Qwen 결과는 long-context accuracy만 보면 14MLA14M2가 RULER 64K 33.1로 가장 높고, common sense 평균은 14MLA14GDN이 56.7로 높다. GSM8K는 HyLo-Qwen 변형들이 73점대에 몰려 Jet Nemotron의 19.4보다 크게 높다. 다만 Jet Nemotron과 HyLo는 training recipe와 data budget이 다르므로, 이 비교는 절대적인 모델 우열이라기보다 적은 post-training으로도 upcycled hybrid가 강한 장기 문맥 모델 후보가 될 수 있다는 근거로 읽는 편이 안전하다.

Qwen 실험에서 더 중요한 점은 HyLo recipe가 Llama의 layer layout에만 맞춰진 특수 해법이 아니라는 점이다. Qwen3는 query와 key projection 뒤 normalization을 유지해야 하므로 attention conversion의 세부 조건이 달라진다. 그럼에도 HyLo-Qwen 변형들이 common sense와 GSM8K를 유지하면서 RULER 64K를 개선한다는 것은, MLA와 linear block의 혼합 및 long-context KD 절차가 다른 decoder-only family에도 적용될 가능성을 보여 준다.

물론 모델 family가 바뀌면 최적의 MLA layer 수와 linear block 종류도 함께 바뀔 수 있다. Qwen 결과에서는 14MLA14M2가 RULER 긴 구간에서 강한 반면, GDN 변형은 GSM8K와 common sense 쪽에서 안정적인 값을 보인다. 이는 HyLo가 하나의 fixed architecture를 제안한다기보다, base model의 attention 분포와 목표 서비스 길이에 맞춰 layer budget을 조절하는 설계 공간을 제시한다는 뜻이다.

6. 추가 분석 및 Ablation Study: 학습 길이, teacher, 구조 선택의 영향

6.1 YaRN 위치 보간과 직접 64K 학습

논문은 training token budget을 일정하게 두고, 짧은 context에서 학습한 뒤 YaRN position interpolation으로 길이를 늘리는 방법을 실험한다. 이 방식은 계산 비용을 줄일 수 있으므로 매력적이다. 그러나 Figure 3에서 보듯, YaRN은 long-context 성능을 어느 정도 올리지만 직접 64K에서 학습한 모델에는 미치지 못한다. 예를 들어 1B-4MLA12M2를 8K에서 학습하면 short-context 평균은 50.7 근처를 유지하지만 RULER 64K는 0.5에 머문다. YaRN을 적용하면 RULER 64K가 31.3까지 오르지만, 64K 직접 학습 결과와 비교하면 여전히 차이가 남는다.

Impact of training sequence length and YaRN

Figure 7: 학습 sequence length와 YaRN position interpolation이 short-context와 RULER 성능에 미치는 영향.

이 그림은 HyLo의 장기 문맥 성능이 위치 보간만의 산물이 아님을 보여 준다. YaRN은 RoPE 기반 MLA layer의 effective context를 늘리는 데 도움을 주지만, Mamba layer는 positional embedding을 사용하지 않으므로 전체 hybrid model의 장기 행동을 자동으로 보장하지 않는다. 논문은 긴 context에서 직접 teacher signal을 받는 학습이 더 안정적이라고 해석하며, 이는 64K 훈련 비용을 정당화하는 핵심 ablation이다.

6.2 teacher-guided distillation의 효과

Teacher-guided distillation은 HyLo에서 두 가지 역할을 한다. 하나는 short-context quality를 유지하는 것이고, 다른 하나는 long-context behavior를 teacher에서 student hybrid model로 옮기는 것이다. 논문은 teacher size가 커질수록 short-context common sense와 long-context RULER가 모두 개선되는 경향을 보고한다. 특히 1B-4MLA12M2를 64K에서 학습할 때 8B teacher를 사용하면 short-context reasoning은 6% 향상되고 RULER 64K는 22% 향상된다고 설명한다.

Impact of teacher size in long context distillation

Figure 8: 긴 문맥 knowledge distillation에서 teacher size가 short-context와 RULER 성능에 미치는 영향.

이 그림은 HyLo의 distillation이 단순 regularization을 넘어 long-context behavior transfer로 작동한다는 해석을 가능하게 한다. Teacher가 커질수록 학생 모델은 긴 문맥에서 더 안정적인 회수와 추론을 보이며, 8K 학습 뒤 YaRN으로 늘린 경우에도 teacher signal은 RULER 64K를 개선한다. 다만 teacher를 붙일수록 logit memory 병목이 심해지므로, Figure 8의 성능 이득은 Table 1과 Table 9의 메모리 최적화 없이는 현실적으로 얻기 어렵다.

6.3 NoPE와 attention gating ablation

논문은 long-context extrapolation에 도움을 준다고 알려진 No Position Embedding과 gated attention도 실험한다. NoPE는 attention layer에서 positional information을 제거해 extrapolation을 돕는 아이디어이고, gated attention은 attention output에 learnable sigmoid gate를 곱해 장기 문맥 안정성을 높이려는 접근이다. 그러나 HyLo의 hybrid upcycling 설정에서는 두 방법이 기대한 만큼 작동하지 않는다. NoPE는 16K 이후 성능이 크게 무너지고, attention gating은 4K, 8K, 16K에서 소폭 이득이 있으나 64K에서는 baseline보다 낮다.

설정 Common Sense Avg. RULER 4K RULER 16K RULER 32K RULER 64K
1B-4MLA12M2 49.1 50.6 41.6 38.6 31.3
1B-4MLA12M2 with attention gating 48.6 52.4 41.9 38.5 29.3
1B-4MLA12M2 with NoPE 49.9 59.2 4.8 1.4 0.0

이 ablation은 HyLo의 결론을 더 구체적으로 만든다. 이미 pretraining 단계에서 NoPE나 gate를 포함해 학습한 모델에서는 해당 기법이 유효할 수 있지만, pretrained Transformer를 사후 변환하는 upcycling setting에서는 같은 효과가 재현되지 않을 수 있다. 즉 long-context 안정성은 개별 trick 하나로 결정되지 않고, 초기화, distillation, sequence length, architecture ratio가 함께 맞아야 한다. HyLo는 이 점을 부정 결과까지 포함해 보여 준다.

6.4 Enhanced-ILD 효과

Enhanced-ILD의 효과는 Table 6에서 확인된다. 1B-4MLA12M2는 기존 ILD 성격의 baseline에서 common sense average 51.8, GSM8K 37.2를 보이지만, Enhanced-ILD를 붙이면 average가 52.8, GSM8K가 43.5로 오른다. 1B-8MLA8M2도 GSM8K가 43.4에서 48.8로 올라가고, 8B-8MLA24M2는 66.3에서 72.4로 오른다. 논문은 token-mixer output까지 맞추는 추가 loss가 attention-to-hybrid transfer를 강화한다고 해석한다.

설정 Common Sense Avg. GSM8K 해석
1B-4MLA12M2 51.8 37.2 기존 ILD 기준선
1B-4MLA12M2 + Enhanced-ILD 52.8 43.5 mixer output 정렬이 reasoning 성능 보존에 기여
1B-8MLA8M2 53.1 43.4 MLA layer가 더 많은 기준선
1B-8MLA8M2 + Enhanced-ILD 53.4 48.8 GSM8K 쪽에서 더 큰 이득

이 결과는 HyLo의 장점이 64K 학습만으로 설명되지 않음을 보여 준다. Stage I에서 hybrid block을 teacher와 잘 맞춰 두어야 Stage II의 long-context distillation도 안정적으로 작동한다. 특히 token-mixer output을 직접 정렬하면 attention output의 기능을 linear block이 더 잘 흉내 낼 수 있다. 업사이클링에서는 작은 초기 불일치가 긴 sequence에서 누적될 수 있으므로, 초기 단계의 layer-wise alignment는 long-context 성능에도 간접적으로 영향을 준다.

6.5 vLLM latency와 2M token serving

논문은 HyLo를 vLLM에 넣어 8K부터 2M까지 context length sweep을 수행한다. 조건은 tensor parallel size 8, batch size 1, 단일 노드 8장 AMD Instinct MI300X다. 측정 지표는 TTFT와 TPOT이다. 8K부터 64K까지는 Llama 3B와 HyLo 변형의 prefill latency가 비슷하지만, 64K를 넘어가면 Llama 3B는 28개 attention layer의 full KV cache 때문에 OOM이 발생한다. 반면 HyLo-Llama-6MLA22M2와 14MLA14M2는 2M까지 sweep을 완료한다.

TTFT and TPOT comparison for HyLo on vLLM

Figure 9: vLLM에서 3B 모델의 TTFT와 TPOT를 context length별로 비교한 결과.

이 그림은 HyLo가 품질 지표와 실제 serving 지표 양쪽에서 의미가 있음을 보여 준다. 짧은 context에서는 Llama 3B가 더 낮은 TPOT를 보일 수 있지만, context가 길어질수록 full KV cache 접근 비용이 커지고 결국 OOM에 도달한다. HyLo-Llama-6MLA22M2는 Mamba layer의 fixed-size state와 적은 MLA layer 덕분에 2M에서 14MLA14M2보다 약 2.2배 빠른 prefill을 보이며, 논문은 이를 MLA layer 수가 $O(n^2)$ 비용에 미치는 영향으로 해석한다.

구간 Llama 3B HyLo-Llama-6MLA22M2 HyLo-Llama-14MLA14M2
8K부터 64K prefill latency가 경쟁적이고 짧은 context TPOT가 낮음 MLA 수가 적어 cache footprint가 작음 attention capacity를 더 많이 유지
128K 이상 KV cache memory로 OOM sweep을 지속하며 TPOT 증가가 완만함 sweep은 가능하지만 MLA 수 때문에 더 느림
2M context 측정 불가 14MLA 구성보다 prefill 약 2.2배 빠름 긴 입력 처리는 가능하나 비용이 큼

이 latency 결과는 HyLo의 구조 선택을 다시 해석하게 만든다. 품질 표에서는 14MLA가 더 높은 RULER를 보이는 경우가 있지만, 2M token serving에서는 6MLA가 훨씬 실용적일 수 있다. 따라서 HyLo의 최종 선택은 단일 best model을 고르는 문제보다, 목표 context length와 latency budget에 따라 MLA layer 수를 조정하는 설계 문제에 가깝다. 실제 deployment에서는 모델 정확도, TTFT, TPOT, GPU memory, kernel support를 함께 놓고 선택해야 한다.

6.6 결과를 종합한 실험적 메시지

HyLo의 실험을 종합하면 세 가지 메시지가 남는다. 첫째, hybrid upcycling에서 architecture replacement만으로는 긴 문맥 성능이 충분히 살아나지 않는다. Zebra-Llama류 baseline은 KV cache를 줄이지만 32K와 64K에서 빠르게 낮아지고, HyLo는 긴 sequence 학습과 teacher-guided KD를 붙였을 때 이 구간을 회복한다. 둘째, long-context 성능을 얻는 과정에서 short-context 성능의 작은 손실은 피하기 어렵지만, 논문 결과에서는 그 손실이 비교적 제한적이다.

셋째, 효율성은 단일 숫자로 요약되지 않는다. KV cache 비율이 낮아도 kernel fallback이 많으면 latency가 기대만큼 줄지 않을 수 있고, RULER가 높아도 2M context에서 TTFT가 과도하면 서비스에는 부담이 된다. HyLo는 quality table, NIAH heatmap, ablation, memory table, vLLM latency를 함께 제시해 이 복합성을 드러낸다. 장기 문맥 모델을 평가할 때는 최대 context length, RULER, GSM8K, cache footprint, serving latency가 모두 필요하다는 점을 보여 준다.

이 관점은 긴 컨텍스트를 단순히 더 많은 토큰을 넣는 문제로 보지 않게 만든다. Token budget이 늘어나면 모델이 읽을 수 있는 정보량은 늘지만, 해당 정보를 실제로 회수하고, reasoning에 쓰고, 다음 token 생성 과정에서 빠르게 접근하는지는 별도 문제다. HyLo는 architecture와 training을 함께 바꾸어 이 세 단계를 동시에 개선하려는 시도이며, 그래서 단순 context-window 확장 논문보다 운영 관점의 정보가 더 많다.

7. 한계점 및 향후 연구 방향: 좋은 결과와 남은 검증 과제

첫 번째 한계는 실험 스케일이다. 논문은 1B와 3B급 Llama, 1.7B급 Qwen에서 설득력 있는 결과를 제시하지만, 7B, 13B, 70B급 모델에서 같은 recipe가 그대로 유지되는지는 아직 별도의 검증이 필요하다. Larger teacher와 larger student에서는 attention layer 선택, SVD initialization rank, GDN parameter budget, long-context batch size가 모두 달라질 수 있다. 특히 2M context serving은 3B급에서는 가능하더라도, 더 큰 모델에서는 memory, kernel, interconnect 병목이 다르게 나타날 가능성이 높다.

두 번째 한계는 evaluation domain이다. RULER와 needle-in-a-haystack은 긴 문맥 정보를 회수하고 조합하는 능력을 잘 보여 주지만, 실제 사용자는 긴 코드베이스 수정, legal document analysis, long-form agent memory, retrieval-augmented multi-step reasoning처럼 더 다양한 패턴을 요구한다. HyLo가 긴 sequence에서 정보를 찾는 능력을 높인다는 결과는 강하지만, 장기 작업에서 instruction following, tool use, hallucination control, citation faithfulness까지 유지되는지는 추가 검증이 필요하다.

세 번째 한계는 teacher-guided distillation 비용이다. 논문은 memory-efficient KD 구현으로 64K training을 가능하게 만들었지만, 이는 여전히 복잡한 distributed training과 custom loss kernel에 의존한다. Fused hidden-state KL, Triton fused KL, FSDP sharding, teacher memory management가 모두 맞아야 하며, 다른 hardware나 다른 vocabulary size에서는 병목이 달라질 수 있다. 따라서 HyLo recipe를 실제 조직에서 채택하려면 model conversion code와 training infrastructure 재현성이 함께 검증되어야 한다.

네 번째 한계는 baseline 비교의 공정성이다. Jet-Nemotron이나 M1 같은 비교 대상은 pretraining data, token budget, architecture, training objective가 서로 다르다. 논문은 여러 baseline을 최대한 폭넓게 포함하지만, 모든 설정을 동일 budget에서 재학습한 것은 아니다. 따라서 결과를 읽을 때는 HyLo가 모든 장문 모델을 일반적으로 이긴다는 결론보다, 제한된 post-training budget과 checkpoint reuse 조건에서 long-context hybrid upcycling이 유망하다는 결론이 더 정확하다.

향후 연구는 세 방향으로 이어질 수 있다. 첫째, layer allocation을 hand-designed 또는 uniform selection에 의존하지 않고, long-context task별 sensitivity에 따라 자동 탐색하는 방법이 필요하다. 둘째, long-context KD를 더 싸게 만들기 위해 teacher logits를 full vocabulary 대신 top-k, sampled vocabulary, 또는 retrieval-critical token subset으로 제한하는 방법을 검토할 수 있다. 셋째, vLLM 통합에서 PyTorch fallback을 줄이고 MLA와 GDN에 맞는 fused kernel을 확장하면, HyLo의 latency 이득이 더 명확해질 수 있다.

추가로, HyLo는 긴 문맥을 “더 오래 기억하는 모델”로 만들지만, 어떤 정보를 버려도 되는지 판단하는 정책까지 직접 다루지는 않는다. 실제 에이전트 시스템에서는 오래된 observation, tool output, retrieved document가 계속 쌓이고, 모델은 그중 일부만 중요하게 써야 한다. HyLo 같은 architecture-level 개선이 있어도, input packing과 retrieval policy가 나쁘면 긴 창은 쉽게 잡음으로 채워진다. 따라서 후속 연구는 모델 내부 memory efficiency와 외부 context selection policy를 함께 평가해야 한다.

또한 논문은 AMD MI300X 환경에서의 학습과 serving을 중심으로 결과를 제시한다. 이는 AMD stack에서 long-context hybrid serving 가능성을 보여 준다는 장점이 있지만, NVIDIA GPU, 다른 interconnect, 다른 serving engine에서 같은 병목 구조가 유지되는지는 별도 확인이 필요하다. 특히 FlashAttention류 fused kernel 지원 범위, Triton kernel 성능, tensor parallel communication overhead는 hardware stack에 따라 크게 달라질 수 있다. HyLo가 널리 재현되려면 architecture code와 함께 hardware-specific optimization note가 더 필요하다.

마지막으로, 논문이 보고하는 90% 이상 KV cache 절감은 매우 강한 장점이지만, 전체 시스템 비용이 90% 줄어든다는 뜻은 아니다. Prefill compute, teacher distillation cost, kernel fallback, Mamba/GDN state update, memory bandwidth가 모두 남아 있다. 이 차이를 명확히 구분해야 HyLo를 실제 서비스 비용 모델에 넣을 수 있다. 논문이 TTFT와 TPOT를 따로 측정한 것은 좋은 출발점이며, 다음 단계에서는 throughput under concurrency와 multi-request batching까지 포함한 비용표가 필요하다.

그럼에도 HyLo의 한계는 논문 가치의 반대편에 있는 과제에 가깝다. 모델 구조, 학습 loss, serving runtime을 한 번에 다루는 논문은 변수가 많아지고 재현 조건도 까다로워진다. 대신 그런 복잡성을 정면으로 드러냈기 때문에, 후속 연구는 어느 부품이 실제 병목인지 더 잘 분리할 수 있다. 특히 MLA layer 수, teacher size, training context length, fused loss kernel을 하나씩 고정한 ablation이 더 쌓이면, 장기 문맥 하이브리드 모델의 설계 규칙이 지금보다 명확해질 것이다.

8. 내 해석: 업사이클링의 목표를 장기 문맥으로 옮긴 점과 빠진 검증

나는 이 논문의 가장 좋은 지점이 업사이클링의 성공 기준을 short-context 복원에서 long-context 보존으로 옮긴 것이라고 본다. 이전에 리뷰한 RACER가 retrieval을 speculative decoding의 지연 절감 prior로 바꾸어 보았고, TACO가 terminal observation을 압축해 agent context 병목을 줄이려 했다면, HyLo는 더 아래 레이어에서 모델 자체의 KV cache와 training context length를 건드린다. 세 흐름은 모두 긴 입력을 많이 넣는 시대의 비용을 다루지만, HyLo는 입력 축소보다 모델이 더 긴 입력을 감당하도록 바꾸는 쪽에 선다. 이 차이 때문에 HyLo는 RAG, agent memory, codebase context compression과 결합될 때 특히 의미가 커질 수 있다.

다만 내가 걸리는 약점은 긴 문맥의 실제 업무 품질이 아직 RULER와 NIAH 중심으로 증명되어 있다는 점이다. RULER 64K가 오르는 것은 분명한 신호지만, 장기 context product에서는 긴 입력 안의 사실을 찾는 것만으로 충분하지 않다. 예를 들어 repository 전체를 읽고 수정하는 coding agent라면, 앞부분 API contract와 뒷부분 test failure를 동시에 반영해야 하고, 중간에서 오래된 instruction을 폐기하는 판단도 필요하다. HyLo가 그런 작업에서 full-attention baseline 대비 어떤 오류를 만드는지, 특히 Mamba/GDN layer가 희소하지만 중요한 cross-reference를 놓치지 않는지까지는 더 봐야 한다.

내가 이 논문을 확장한다면, 다음 실험은 long-context task를 retrieval, reasoning, editing, memory update로 분해한 evaluation suite를 붙여 보는 것이다. 같은 64K context라도 단일 needle을 찾는 작업, 여러 evidence를 결합하는 작업, 오래된 evidence를 버리는 작업, 긴 코드 diff를 생성하는 작업은 병목이 다르다. HyLo의 MLA layer 수를 6, 14처럼 바꾸었을 때 어떤 task family에서 실패가 먼저 늘어나는지 보면, 단순 평균 RULER보다 더 실용적인 layer allocation 기준을 얻을 수 있다.

또 하나의 후속 제안은 HyLo와 context compression layer를 함께 평가하는 것이다. 실제 시스템은 2M token을 매번 그대로 넣기보다, retrieval, compression, summarization, cache reuse를 함께 쓴다. HyLo가 긴 raw context를 더 잘 처리한다면, compressed context와 결합했을 때 어디까지 비용을 줄일 수 있는지 보는 실험이 필요하다. 예컨대 RACER류 decoding acceleration, agent context compression, HyLo식 cache 절감이 함께 들어간 경우 TTFT, TPOT, answer faithfulness가 어떻게 움직이는지 보면, 장기 문맥 LLM 시스템의 더 현실적인 설계 지도가 나올 것이다.

9. 결론: 효율 모델 전환의 기준을 장기 문맥으로 잡기

HyLo는 pretrained Transformer를 hybrid long-context model로 바꾸는 업사이클링 레시피를 제시한다. 논문은 MLA와 Mamba2 또는 GDN을 interleave하고, SVD 기반 MLA 초기화와 GDN weight transfer를 사용하며, Enhanced-ILD로 hidden state와 token-mixer output을 함께 맞춘다. 이후 8K와 64K long-context SFT, teacher-guided distillation, memory-efficient KL loss를 적용해 긴 문맥에서의 성능 붕괴를 줄인다. 이 절차는 기존 checkpoint를 재사용하면서 long-context capability를 회복하려는 실용적 방향이다.

실험 결과는 HyLo가 Llama-3.2-1B, Llama-3.2-3B, Qwen3-1.7B에서 long-context RULER 성능을 크게 높이며, common sense reasoning과 GSM8K를 일정 수준 유지한다고 보고한다. 특히 64K에서 직접 학습한 모델은 8K 학습 뒤 YaRN으로 확장한 모델보다 더 강하고, teacher-guided distillation은 long-context 성능에 큰 이득을 준다. vLLM 통합 실험은 HyLo가 2M token context sweep까지 수행할 수 있음을 보이며, full-attention Llama baseline이 OOM에 도달하는 구간에서 cache 절감의 의미를 확인한다.

이 논문의 실용적 메시지는 명확하다. 긴 컨텍스트 LLM을 만들 때 최대 context length 숫자만 늘리는 것으로는 부족하고, 학습 목표, 구조 변환, cache 표현, loss implementation, serving runtime이 함께 설계되어야 한다. HyLo는 이 묶음을 하나의 업사이클링 파이프라인으로 제시한다. 남은 과제는 더 큰 모델, 더 다양한 실제 장기 작업, 더 최적화된 kernel, 더 공정한 budget 비교로 이어진다. 그럼에도 이 논문은 hybrid LLM scaling에서 checkpoint reuse와 long-context preservation을 함께 다룬 중요한 사례로 읽을 만하다.

10. 요약 정리: 읽을 때 붙잡을 핵심 포인트

  • HyLo는 pretrained Transformer LLM을 MLA와 Mamba2 또는 GDN이 섞인 hybrid long-context model로 바꾸는 upcycling recipe다.
  • 논문의 핵심 문제의식은 short-context 성능 복원에 머물던 기존 upcycling을 넘어, long-context preservation을 첫 번째 목표로 삼는 데 있다.
  • MLA layer는 latent KV cache를 저장해 attention capacity를 일부 유지하고, Mamba2와 GDN layer는 sequence length에 비례하는 KV cache를 만들지 않아 memory footprint를 줄인다.
  • Enhanced-ILD는 hidden state뿐 아니라 token-mixer output도 teacher와 맞추어 attention에서 hybrid block으로 넘어가는 기능 손실을 줄인다.
  • 8K에서 학습한 뒤 YaRN으로 확장하는 방법은 도움이 되지만, 논문 결과에서는 64K에서 직접 long-context training을 수행한 모델이 더 안정적이다.
  • 64K teacher-guided distillation은 logit tensor memory가 병목이므로, chunked KL, Triton fused KL, hidden-state KL, FSDP sharding 같은 구현 최적화가 필수다.
  • Llama-3.2-3B 결과에서 HyLo-Llama-14MLA14GDN은 RULER 64K 52.0을 기록해 Zebra-Llama 3B 14MLA14M2의 4.2보다 훨씬 높은 long-context 성능을 보인다.
  • vLLM 통합 결과는 HyLo가 2M token context sweep을 수행할 수 있음을 보여 주며, full-attention Llama baseline은 128K 부근에서 OOM에 도달한다.
  • 한계는 더 큰 모델 스케일, 실제 장기 업무 task, fair budget comparison, custom kernel 재현성에서 남아 있으며, 후속 연구는 long-context task family별 layer allocation을 더 세밀하게 봐야 한다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.