Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory
https://arxiv.org/abs/2605.20948
Runxi Cheng, Yuchen Guan, Yongxian Wei, Qianpu Sun, Qixiu Li, Sinan Du, Feng Xiong, Chun Yuan, Yan Lu, Yeyun Gong | Tsinghua University, Microsoft Research Asia | arXiv:2605.20948 | 2026년 5월
1. 서론: 파라미터를 더 학습하지 않고 용량을 늘리는 문제
대형 언어 모델의 성능 향상은 오랫동안 학습 가능한 파라미터 수와 사전학습 토큰 수를 함께 늘리는 방향으로 설명되어 왔다. 그러나 수천억 파라미터와 조 단위 토큰으로 올라갈수록 한 번의 사전학습은 단순 연구 실험의 범위를 넘어 대규모 시스템 운영에 가까워진다. 그래서 최근의 모델 스케일링은 모든 파라미터를 매 토큰마다 활성화하는 방식에서 벗어나, Mixture-of-Experts처럼 필요한 일부 계산만 쓰거나, 외부 메모리를 희소하게 조회하는 구조로 이동하고 있다. Memory Grafting 논문은 이 두 흐름 중에서도 계산 전문가를 더 많이 붙이는 길보다, 이미 훈련된 모델의 표현을 외부 조건부 메모리로 재사용하는 길을 정면으로 다룬다.
논문의 문제의식은 Engram 계열 조건부 메모리의 장점과 약점에서 출발한다. Engram은 로컬 $n$-gram 패턴을 해시로 조회해 토큰마다 정해진 크기의 메모리 벡터를 가져오므로, 메모리 테이블이 커져도 기대 조회 비용은 $\mathcal{O}(1)$에 머문다. 추론 시에는 입력 길이를 늘리지 않고, sparse memory lookup만 추가되기 때문에 RAG식 문서 삽입보다 지연 시간이 작다. 하지만 메모리 테이블 자체를 사전학습 과정에서 처음부터 학습해야 하므로, 테이블을 크게 만들수록 최적화해야 하는 파라미터가 늘어나고 학습 효율이 떨어진다. 논문은 이 병목을 “메모리도 꼭 처음부터 학습해야 하는가”라는 질문으로 바꾼다.
Memory Grafting의 핵심 답은 간단하지만 실험적으로 까다롭다. 자주 등장하는 2-, 3-, 4-gram 표면 문자열을 고르고, 별도의 강한 grafting model을 오프라인으로 한 번 실행해 해당 $n$-gram의 마지막 토큰 hidden state를 뽑아 둔다. 이 hidden state들은 recipient model이 온라인 학습과 추론 중 exact longest-match lookup으로 조회하는 동결 메모리 테이블이 된다. 따라서 큰 모델의 표현을 학생 모델의 파라미터 안에 증류하지 않고, 입력 컨텍스트에 문서를 붙이지도 않으며, 조회 가능한 latent memory bank로 외부에 고정해 둔 뒤 가벼운 projection과 gate로만 연결한다.
이 접근은 기존 long-context나 memory 논문과 읽히는 축이 다르다. 이전에 리뷰한 StructMem이 장기 대화나 에이전트 행동을 사건 단위로 구조화하는 운영 메모리에 가까웠다면, Memory Grafting은 사전학습 중 모델 내부 hidden state를 보강하는 표현 메모리다. HyLo와 long-context aware upcycling이 긴 입력을 처리하기 위한 architecture/training 효율을 강조했다면, 이 논문은 빈번한 로컬 패턴의 표현을 별도 메모리로 빼서 재사용한다. 같은 “메모리”라는 단어를 쓰지만, 실제 대상은 사용자 기록이나 검색 문서 쪽보다 token-level pretraining capacity에 놓인다.
- 문제: Engram류 조건부 메모리는 추론 비용은 작지만, 큰 메모리 테이블을 사전학습 중 처음부터 학습해야 한다.
- 아이디어: 이미 훈련된 큰 모델의 hidden state를 frequent $n$-gram memory value로 오프라인 생성해 recipient model에 접목한다.
- 운영 방식: 온라인에서는 exact longest-match lookup을 하고, miss가 나면 hash-based Engram fallback을 사용한다.
- 검증 범위: 0.92B/2.8B trainable setting, 50B/100B token pretraining, 9개 lm-evaluation-harness benchmark, throughput/memory/probe 분석을 포함한다.
Figure 1: Memory Grafting의 전체 계산 파이프라인.
이 그림은 논문의 방법을 가장 압축적으로 보여 준다. 왼쪽에서는 grafting model이 frequent $n$-gram을 오프라인으로 인코딩해 frozen memory table을 만들고, 오른쪽에서는 recipient model이 현재 suffix와 가장 긴 exact match를 찾아 hidden state에 더한다. 중요한 지점은 큰 grafting model이 온라인 forward path에 들어오지 않는다는 점이다. 사전 계산된 latent vector만 조회되므로, capacity 확장은 파라미터 학습보다 메모리 조회와 게이트 적응 문제로 바뀐다.
2. 배경 및 관련 연구: 조건부 메모리, RAG, 증류의 비용 위치
2.1 조건부 메모리와 sparse scaling
MoE는 sparse scaling의 대표적인 형태다. 전체 expert 수는 많지만 각 토큰은 top-k expert만 활성화하므로, 모델의 총 capacity와 per-token compute를 어느 정도 분리할 수 있다. 다만 expert routing, load balancing, expert parallelism, serving 배치 전략이 함께 필요하고, 실제 배포에서는 활성 expert 수가 작아도 통신과 메모리 배치가 병목이 될 수 있다. Memory Grafting이 비교 대상으로 MoE baseline을 계속 두는 이유도 여기에 있다. 논문의 주장은 “MoE보다 항상 낫다”는 선언보다, 같은 trainable parameter와 activated parameter budget에서 external latent memory가 추가 품질을 줄 수 있는지를 보는 데 있다.
Product-Key Memory, UltraMem, STEM, MoLE, Engram 같은 조건부 메모리 계열은 계산 expert 대신 key-value memory를 조회한다. 이 계열의 공통 장점은 토큰마다 전체 메모리를 계산하지 않고, 입력 패턴에 의해 고른 소수 벡터만 residual stream에 주입한다는 점이다. Engram은 특히 로컬 $n$-gram을 deterministic hash로 매핑해 constant-time lookup을 추구한다. 그러나 해시 충돌과 memory table 학습 비용이 남는다. 논문은 Engram이 추론 효율을 잘 설계했지만, memory value를 random initialization에서 학습하는 방식 때문에 pretraining compute가 커진다고 본다.
Memory Grafting은 Engram을 폐기하지 않고, Engram의 조회 인터페이스를 유지한다. 달라지는 부분은 메모리 값의 출처다. 기존 Engram은 $n$-gram key가 hash table row를 가리키고 그 row embedding을 recipient training에서 업데이트한다. Memory Grafting은 frequent $n$-gram key를 명시적으로 보관하고, 해당 문자열을 강한 grafting model에 넣어 얻은 hidden state를 frozen value로 쓴다. 즉 addressing은 로컬 문자열 기반, value는 pretrained representation 기반이라는 조합이다.
2.2 RAG와 knowledge distillation과의 차이
RAG는 외부 문서나 지식 조각을 검색해 입력 컨텍스트에 붙이는 방식으로 모델의 비파라미터 지식을 확장한다. 장점은 최신 문서나 도메인 데이터를 쉽게 바꿀 수 있다는 점이고, 단점은 검색 품질, 컨텍스트 길이, 지연 시간, citation 처리, long-context degradation이 모두 inference path 위에 올라온다는 점이다. Memory Grafting은 retrieval이라는 단어를 쓰지만 RAG와 다르게 문서를 가져오지 않는다. 조회되는 것은 사람이 읽을 수 있는 문단과 달리 오프라인으로 저장된 hidden vector이며 입력 길이도 늘어나지 않는다.
Knowledge Distillation은 큰 teacher model의 출력 분포나 hidden state를 작은 student model에 녹이는 방식이다. 그러나 from-scratch pretraining 규모에서 logits distillation을 제대로 비교하려면 teacher를 전체 학습 corpus에 대해 반복 실행해야 한다. 논문은 부록에서 1B-A0.2B recipient를 30B-A3B teacher로 online distillation한다고 가정하면, teacher forward만으로 recipient 자체 학습 compute의 약 5배가 추가되어 총 비용이 약 6배로 커질 수 있다고 설명한다. 이 비교는 Memory Grafting이 distillation baseline을 완전히 대체했다는 뜻으로 보기보다, teacher를 온라인으로 계속 돌리지 않고도 pretrained representation을 재사용하는 다른 transfer interface를 제시한다는 뜻에 가깝다.
이 차이는 비용이 발생하는 위치를 나누면 더 분명해진다. RAG는 inference time에 검색과 긴 context 비용을 지불한다. Distillation은 training time에 teacher forward와 soft label 저장/계산 비용을 지불한다. Engram은 training time에 큰 memory table을 직접 최적화한다. Memory Grafting은 grafting model forward를 offline construction으로 밀어내고, 이후 recipient training에서는 frozen value를 조회한 뒤 작은 projection/gate만 학습한다. 그래서 논문의 평가는 정확도뿐 아니라 throughput, memory offloading, hit rate, gate/probe 분석을 함께 본다.
| 접근법 | 외부 정보의 형태 | 주요 비용이 생기는 위치 | Memory Grafting과의 차이 |
|---|---|---|---|
| RAG | 검색 문서, passage, evidence chunk | 추론 시 검색, reranking, 긴 context 처리 | 입력 길이를 늘리지 않고 latent vector만 조회한다. |
| Knowledge Distillation | teacher logits, hidden states, soft labels | 사전학습 또는 fine-tuning 중 teacher forward와 soft label 처리 | teacher를 전체 corpus에 온라인 적용하지 않고, frequent $n$-gram bank만 오프라인 생성한다. |
| Vanilla Engram | 학습되는 hash-indexed memory embedding | recipient pretraining 중 memory table 최적화 | frozen grafting-model hidden state를 value로 쓰고, miss에서는 Engram fallback을 유지한다. |
| MoE | 조건부로 활성화되는 FFN expert | 학습과 추론의 expert routing, expert parallelism | 계산 expert를 늘리기보다 external latent memory를 조회한다. |
2.3 왜 frequent $n$-gram인가
논문이 memory key를 문서 단위나 sentence embedding보다 frequent local $n$-gram으로 잡은 이유는 조건부 메모리의 조회 비용과 직접 연결된다. 문서 검색은 query encoder, vector search, reranking, context packing이 필요하지만, $n$-gram key는 현재 token suffix만 보면 된다. 예를 들어 라이브러리 호출, 수식 표기, 기관명, 제품명, 관용구처럼 여러 토큰이 함께 나타나는 패턴은 짧은 local window 안에서도 의미가 꽤 안정적이다. 이때 강한 모델의 hidden state는 단순 count 기반 language model의 $n$-gram 확률보다 훨씬 풍부한 정보를 담을 수 있다. Memory Grafting은 이 성질을 이용해 “표면형은 짧고 조회는 싸지만 value는 고차원 표현”인 메모리를 만든다.
물론 $n$-gram memory에는 분명한 한계가 있다. 긴 문맥 의존성, discourse-level reference, multi-hop reasoning은 2-, 3-, 4-gram key 하나로 표현하기 어렵다. 그래서 논문도 Memory Grafting을 RAG나 long-context modeling의 대체물로 포장하지 않는다. 대신 자주 반복되는 local construction의 표현을 값싸게 보강하는 역할에 집중한다. 이 범위를 분명히 해야 결과가 과장되지 않는다. Memory Grafting이 잘할 가능성이 큰 영역은 짧은 surface pattern이 의미와 강하게 결합되는 구간이고, 문서 전체의 논리 흐름을 기억해야 하는 구간에서는 다른 memory mechanism과 조합되어야 한다.
3. 방법론: Memory Grafting이 메모리를 만들고 주입하는 방식
3.1 Engram의 기본 구조
논문은 먼저 Engram을 recipient model 안에 들어가는 조건부 메모리 모듈로 정리한다. 입력 토큰열 $\mathbf{X}=(x_1,\ldots,x_T)$와 layer $\ell$의 hidden state $\mathbf{H}^{(\ell)}\in\mathbb{R}^{T\times D}$가 있을 때, Engram은 각 위치 $t$에서 suffix $n$-gram을 만든다. 필요하면 token id를 vocabulary compression 함수 $P:\mathcal{V}\rightarrow\mathcal{V}^{\prime}$로 canonicalize하고, $\mathbf{g}_{t,n}=(P(x_{t-n+1}),\ldots,P(x_t))$를 memory lookup key로 쓴다. 가능한 모든 $n$-gram을 직접 저장할 수 없으므로, 여러 hash head가 key를 embedding row로 보낸다.
Engram의 retrieved embedding은 현재 hidden state와 바로 합쳐지지 않는다. 먼저 memory vector를 key/value로 projection하고, 현재 hidden state를 query처럼 사용해 gate를 계산한다. 논문은 이 gate를 normalized key와 normalized hidden state의 inner product 뒤 sigmoid로 설명한다. 이 구조 덕분에 같은 local $n$-gram이 나오더라도 recipient의 현재 hidden state가 memory를 얼마나 쓸지 결정한다. Memory Grafting은 이 gate 철학을 유지하되, memory value를 학습 embedding에서 frozen grafting representation으로 바꾼다.
3.2 Frozen latent memory construction
Memory Grafting의 첫 단계는 frequent local $n$-gram key set $\mathcal{M}=\{\mathbf{m}_i\}_{i=1}^{M}$를 만드는 것이다. 논문 구현에서는 2-, 3-, 4-gram을 고려하고, 각 order에서 빈도 상위 항목을 고른다. 그런 다음 각 key의 표면 문자열을 grafting model에 넣고, 선택한 grafting layer $r$에서 마지막 non-padding token의 hidden state를 꺼낸다. 이 값이 frozen memory table의 row가 된다. 수식으로는 $\mathbf{W}_{\mathrm{mem}}[i]=F_G(\texttt{text}(\mathbf{m}_i))_{\mathrm{last}}^{(r)}\in\mathbb{R}^{D_{\mathrm{mem}}}$처럼 쓸 수 있다.
여기서 중요한 세부사항은 tokenizer mismatch 처리다. recipient model과 grafting model이 같은 tokenizer를 쓰지 않아도 된다. 온라인 조회 key는 recipient-side token id tuple $\mathbf{m}_i$로 고정되고, grafting model tokenizer $\tau_G$는 오프라인에서 해당 표면 문자열을 hidden vector로 바꾸는 데만 쓰인다. 따라서 online path는 recipient의 exact lookup table만 사용한다. grafting model의 tokenization이 다르더라도 바뀌는 것은 저장된 latent value이고, lookup key 자체는 바뀌지 않는다. 이 설계가 없으면 강한 외부 모델을 자유롭게 grafting model로 쓰기 어렵다.
3.3 Exact longest-match lookup과 Engram fallback
recipient model의 grafting layer에서 각 위치 $(b,t)$는 현재 suffix $n$-gram을 이용해 frozen memory bank를 조회한다. 여러 길이의 key가 동시에 hit하면 가장 긴 match를 우선한다. 예를 들어 2-gram과 4-gram이 모두 존재하면 4-gram이 선택된다. 결과는 row index $j_{b,t}$와 hit mask $m_{b,t}\in\{0,1\}$로 표현된다. lookup 자료구조를 hash map이나 trie 계열로 잡고 최대 $n$-gram order를 고정하면, 전체 memory bank 크기에 대한 기대 조회 비용은 상수 시간으로 유지된다.
하지만 frequent $n$-gram만 frozen bank에 들어가기 때문에 모든 위치가 hit되는 것은 아니다. 논문은 이 빈틈을 메우기 위해 hash-based Engram fallback을 유지한다. hit position에서는 frozen grafting memory가 선택되고, miss position에서는 trainable Engram feature가 선택된다. 두 source는 별도 projection을 통과한 뒤 같은 gate interface로 들어간다. 이 설계는 coverage와 quality 사이의 균형이다. frozen memory만 쓰면 표현 품질은 높지만 coverage가 낮아질 수 있고, fallback만 쓰면 기존 Engram과 다를 바가 줄어든다.
3.4 Gated residual update
선택된 memory value는 단순히 hidden state에 더해지지 않는다. recipient hidden state로부터 query를 만들고, memory key와 비교해 gate $\alpha$를 계산한 뒤, gated value와 short convolution을 거쳐 residual update를 만든다. 직관적으로는 “이 위치에서 이 $n$-gram memory가 현재 문맥에 얼마나 맞는가”를 gate가 판단하고, 그 강도만큼 hidden state를 보정한다. 논문은 gate가 retrieval 여부를 고르는 장치가 아니며, 이미 선택된 memory가 hidden state에 쓰이는 정도를 조절하는 장치라고 강조한다.
Algorithm 1의 실행 흐름은 네 단계로 요약된다. 첫째, 각 위치에서 exact longest-match lookup으로 frozen memory를 찾는다. 둘째, miss position에는 Engram fallback feature를 준비한다. 셋째, hit mask에 따라 frozen memory projection과 fallback projection 중 하나를 고른다. 넷째, query-key gate와 short convolution을 거쳐 $\widetilde{\mathbf{H}}=\mathbf{H}+\Delta\mathbf{H}$를 만든다. 이 전체 구조에서 학습되는 부분은 recipient-side adapter, projection, gate, fallback memory이며, grafting-model memory table은 동결된다.
Figure 2: Memory Grafting 설계 요소와 memory capacity ablation.
Figure 5는 단순한 부록 그림처럼 보이지만 방법론 해석에 중요하다. 논문은 attention-only, gated, longest-match, Engram fallback 같은 설계 요소를 비교하고, 저장하는 $n$-gram entry 수를 늘릴 때 loss가 어떻게 바뀌는지 본다. 결과는 frozen memory를 가져오는 것만으로 충분하지 않고, 정확한 match 우선순위와 fallback, gate가 함께 있어야 recipient가 안정적으로 활용한다는 점을 보여 준다.
- Frozen construction: frequent $n$-gram을 grafting model에 오프라인 입력해 hidden state memory row를 만든다.
- Longest match: 같은 위치에서 여러 $n$-gram이 맞으면 더 긴 suffix를 우선한다.
- Fallback: exact memory가 없는 위치에서는 hash-based Engram feature를 사용한다.
- Gate: retrieved value가 현재 hidden state에 얼마나 강하게 쓰일지 query-key similarity로 조절한다.
- Training boundary: grafting memory table은 frozen이고, recipient-side projection/gate만 학습된다.
3.5 학습되는 부분과 동결되는 부분의 경계
Memory Grafting을 구현 관점에서 보면 가장 중요한 경계는 frozen bank와 trainable adapter의 분리다. frozen bank는 grafting model의 hidden state를 저장한 거대한 embedding table이고, recipient training 중 업데이트되지 않는다. 반면 memory를 recipient hidden dimension에 맞추는 projection, query-key gate, fallback Engram, short convolution, residual update 주변의 작은 모듈은 학습된다. 이 분리는 training compute를 낮추는 동시에, external representation이 recipient objective에 완전히 맞지 않을 때 생기는 mismatch를 adapter가 흡수하게 만든다. frozen value를 그대로 더하면 representation scale과 layer semantics가 맞지 않을 수 있으므로 gate와 projection은 필수적인 접착제다.
또 하나의 실무적 장점은 bank 재사용 가능성이다. 같은 frequent $n$-gram bank가 여러 recipient 실험에 반복 사용될 수 있다면, grafting model을 오프라인으로 돌리는 비용은 amortize된다. 논문은 Qwen3.5-35B-A3B 같은 큰 모델에서 hidden state를 뽑지만, 이 계산은 전체 pretraining token을 모두 teacher forward하는 distillation과 다르게 selected $n$-gram table에 대해서만 수행된다. 따라서 연구자가 여러 recipient scale이나 gate 구조를 비교할 때, bank construction과 recipient training을 분리해 ablation할 수 있다. 이 점은 Memory Grafting을 단순한 training trick보다 재사용 가능한 pretraining asset으로 보게 만든다.
4. 실험 설정: 같은 recipient 예산에서 외부 latent capacity를 비교하기
4.1 모델 규모와 학습 데이터
논문은 두 가지 recipient 규모를 사용한다. 하나는 약 0.92B trainable parameter, 0.29B activated parameter setting이며, Nemotron-CC 50B token subset으로 학습한다. 다른 하나는 약 2.8B trainable parameter, 0.55B activated parameter setting이며, Nemotron-CC 100B token subset을 사용한다. 두 규모 모두 LLaMA-3-8B tokenizer로 tokenization하고, transformer의 FFN layer를 MoE layer로 바꾼 구조를 기본으로 한다. MoE baseline은 64 routed experts와 1 shared expert를 사용하고 top-4 routing을 적용한다.
공정 비교를 위해 Memory Grafting은 추가 projection parameter가 생기는 만큼 routed expert 수를 줄여 전체 trainable parameter를 맞춘다. 논문은 trainable parameter가 Memory Grafting $\leq$ vanilla Engram $\leq$ MoE baseline이 되도록 설정했다고 밝힌다. 따라서 Memory Grafting의 이득이 단순히 학습 가능한 파라미터가 더 많아서 생긴 것이라는 해석은 약해진다. 다만 frozen memory까지 포함한 전체 저장 용량은 훨씬 커지므로, 이 논문은 trainable parameter 효율과 external frozen capacity 사이의 trade-off를 보는 실험으로 읽어야 한다.
4.2 Grafting model과 memory bank 구성
grafting model로는 Qwen3.5-35B-A3B, DeepSeek-V2-Lite, GLM-4.7-Flash를 사용한다. 각 $n$-gram order에서 top 1M frequent $n$-gram을 고르고, grafted layer마다 총 3M entries를 만든다. Qwen3.5-35B-A3B 기준으로 각 entry는 2048차원 bfloat16 hidden state이며, layer 하나당 약 12GB frozen memory가 된다. 0.92B setting과 2.8B setting 모두 Qwen3.5의 layer 8/24를 주로 쓰고, DeepSeek-V2-Lite는 layer 4/18, GLM-4.7-Flash는 layer 4/28을 사용한다.
이 숫자는 Memory Grafting의 실용성을 판단할 때 매우 중요하다. 논문이 말하는 “학습 효율”은 frozen memory 저장 공간이 공짜라는 뜻이 아니다. 2개 grafted layer를 쓰면 약 24GB frozen memory가 붙고, 부록 표에서는 2.8B setting에서 이 용량을 약 12.3B frozen parameter에 해당한다고 표기한다. 대신 이 memory는 trainable parameter가 아니고, GPU 메모리에 전부 올리지 않고 offload할 수 있으며, 조회는 exact lookup과 projection 중심으로 처리된다. 따라서 deployment 관점에서는 모델 파일 크기와 serving memory hierarchy를 함께 고려해야 한다.
4.3 평가 벤치마크와 측정 항목
평가는 lm-evaluation-harness를 사용하며 ARC-Challenge, ARC-Easy, BoolQ, Social IQA, RACE, LAMBADA, WinoGrande, PIQA, HellaSwag을 포함한다. shot setting은 0-shot, 5-shot, 10-shot이 섞여 있고, 논문은 각 benchmark accuracy와 평균 점수를 보고한다. 이 benchmark 묶음은 pretraining quality를 거칠게 재는 표준적 구성에 가깝다. reasoning, commonsense, reading comprehension, cloze-style language modeling이 섞여 있어 특정 task 하나에 맞춘 효과인지 전체 언어 모델 품질 개선인지 볼 수 있다.
또한 논문은 score table만 제시하지 않는다. training loss 차이, grafting source layer, grafting model별 hidden geometry, CKA alignment, throughput/memory usage, capacity sweep, hit rate, gate/output magnitude, logit-level impact까지 분석한다. 이 보조 분석들이 필요한 이유는 frozen memory가 실제로 쓰였는지 확인해야 하기 때문이다. 단순히 외부 memory를 붙였는데 benchmark가 조금 올랐다는 결과만으로는, memory가 residual stream에 의미 있게 개입했는지, 아니면 regularization이나 parameter allocation의 우연인지 구분하기 어렵다.
Table 1. 0.92B-class architecture and training hyper-parameters.
| 항목 | MoE-1B | Engram-1B | MG-1B |
|---|---|---|---|
| Total Params | 0.92B | 0.92B | 0.92B |
| Active Params | 0.29B | 0.29B | 0.29B |
| Total Tokens | 50B | 50B | 50B |
| Layers | 12 | 12 | 12 |
| Dimension | 768 | 768 | 768 |
| Routed Experts | 64 | 48 | 46 |
| Active Experts | 4 | 4 | 4 |
| Engram Layer | - | [1, 6] | [1, 6] |
| Grafting Model | - | - | Qwen3.5-35B-A3B |
| Grafting Source Layers | - | - | [8, 24] |
| Entries per Layer | - | - | 3,000,000 |
| Frozen Memory per Layer | - | - | 약 12GB |
| Retrieval | - | Hash Engram | Exact longest-match + fallback |
Table 2. 2.8B-class architecture and training hyper-parameters.
| 항목 | MoE-2.8B | Engram-2.8B | MG-2.8B |
|---|---|---|---|
| Total Params | 2.8B | 2.8B | 2.8B |
| Active Params | 0.55B | 0.55B | 0.55B |
| Total Tokens | 100B | 100B | 100B |
| Layers | 24 | 24 | 24 |
| Dimension | 1024 | 1024 | 1024 |
| Routed Experts | 64 | 48 | 47 |
| Active Experts | 4 | 4 | 4 |
| Engram Layer | - | [1, 12] | [1, 12] |
| Grafting Model | - | - | Qwen3.5-35B-A3B |
| Grafting Source Layers | - | - | [8, 24] |
| Entries per Layer | - | - | 3,000,000 |
| Frozen Memory Total | - | - | 약 24GB, 약 12.3B frozen params |
| Fallback | - | Hash Engram | Hash Engram on miss |
4.4 공정 비교에서 눈여겨볼 통제 변수
이 논문의 실험을 읽을 때는 총 파라미터, 활성 파라미터, 학습 토큰, expert 수, memory capacity가 서로 다른 축이라는 점을 분리해야 한다. Table 3과 Table 4는 MoE, Engram, Memory Grafting이 같은 total parameter class와 active parameter class에 놓이도록 맞춘다. 그러나 Memory Grafting에는 frozen grafting memory가 추가된다. 이 memory는 trainable parameter budget에는 들어가지 않지만, 시스템 전체의 저장 용량과 serving memory traffic에는 영향을 준다. 따라서 논문 결과는 “같은 trainable recipient를 더 잘 쓰는 방법”으로는 강하지만, “동일한 총 저장 용량에서의 최선”이라고 해석하려면 추가 비교가 필요하다.
또한 평가 benchmark는 모두 일반 language model capability에 가깝다. Memory Grafting의 메커니즘이 가장 직접적으로 작동하는 곳은 exact $n$-gram hit position인데, benchmark accuracy는 여러 token-level 효과가 누적된 최종 task score다. 그래서 논문은 CKA, hit rate, gate, logit probe를 함께 제시한다. 이 보조 분석이 없으면 Table score만으로는 memory가 어디에서 작동했는지 알기 어렵다. 특히 vanilla Engram이 0.92B setting에서 MoE보다 낮은 결과를 내는 장면은 hash collision과 memory allocation이 성능에 큰 영향을 줄 수 있음을 보여 준다.
5. 주요 실험 결과: 평균 점수, source model, 효율성
5.1 2.8B setting에서의 benchmark 개선
가장 직접적인 결과는 2.8B trainable, 100B-token setting의 Table 1이다. MoE baseline은 평균 51.95, vanilla Engram은 52.43, Memory Grafting은 53.86을 기록한다. Memory Grafting은 표에 나온 9개 benchmark 모두에서 가장 높은 값을 보인다. 특히 LAMBADA는 42.98에서 48.19로 크게 오르고, BoolQ는 57.92에서 62.54로 오른다. 평균 기준으로는 MoE 대비 +1.91, vanilla Engram 대비 +1.43이다. 이 폭이 frontier-scale headline처럼 크지는 않지만, trainable parameter와 activated parameter를 맞춘 pretraining 비교라는 점을 감안하면 작지 않다.
흥미로운 점은 vanilla Engram도 MoE보다 평균이 높지만, Memory Grafting은 그 위에 추가 개선을 만든다는 점이다. 이는 조건부 메모리 lookup 자체가 유효하고, 그 memory value를 처음부터 학습하는 대신 강한 model의 hidden state로 초기화하거나 고정하는 방식이 더 나은 signal을 줄 수 있음을 시사한다. 논문은 이 결과를 external latent capacity의 효과로 해석한다. 다만 frozen memory의 저장 용량과 construction cost가 포함되므로, 비교의 정확한 의미는 “같은 학습 가능한 recipient 예산에서 더 큰 external frozen representation을 접속했을 때”의 효과다.
Table 3. 2.8B-trainable, 100B-token setting benchmark performance (%).
| Benchmark | Shots | MoE Baseline | Vanilla Engram | Memory Grafting |
|---|---|---|---|---|
| ARC-Challenge | 0-shot | 36.12 | 36.09 | 37.03 |
| ARC-Easy | 0-shot | 72.39 | 71.80 | 73.40 |
| BoolQ | 0-shot | 57.92 | 60.24 | 62.54 |
| Social IQA | 0-shot | 41.61 | 41.76 | 42.94 |
| RACE | 0-shot | 34.74 | 34.55 | 35.98 |
| LAMBADA | 5-shot | 42.98 | 45.22 | 48.19 |
| WinoGrande | 5-shot | 58.98 | 59.66 | 60.93 |
| PIQA | 5-shot | 75.41 | 75.63 | 76.17 |
| HellaSwag | 10-shot | 47.39 | 46.94 | 47.54 |
| Average | - | 51.95 | 52.43 | 53.86 |
5.2 0.92B setting에서 grafting model에 따른 차이
0.92B trainable, 50B-token setting에서는 grafting model의 차이가 더 잘 드러난다. MoE baseline 평균은 45.62, vanilla Engram은 45.03으로 오히려 MoE보다 낮다. 논문은 작은 model에서 Engram embedding table이 제한되어 hash collision이 많아졌을 가능성을 언급한다. 반면 Memory Grafting 계열은 MG-GLM 45.83, MG-DeepSeek 46.42, MG-Qwen3.5 46.98로 모두 baseline을 넘는다. 특히 Qwen3.5-35B-A3B를 쓴 경우가 가장 높다.
이 결과는 “아무 큰 모델 hidden state나 가져오면 된다”는 식의 단순한 주장이 아님을 보여 준다는 점에서 중요하다. GLM-4.7-Flash 기반 memory는 개선 폭이 작고, 부록의 geometry 분석은 GLM memory가 훨씬 anisotropic하고 discriminative하지 않다고 보고한다. 반대로 Qwen3.5와 DeepSeek는 effective rank가 높고 principal component dominance가 낮으며 nearest-neighbor 구조가 더 안정적이다. Memory Grafting의 성능은 recipient architecture와 함께 grafting model이 frequent $n$-gram을 얼마나 구분력 있는 latent space로 표현하느냐에 달려 있다.
Table 4. 0.92B-trainable, 50B-token setting with different grafting models.
| Benchmark | Shots | MoE | Vanilla Engram | MG-GLM | MG-DeepSeek | MG-Qwen3.5 |
|---|---|---|---|---|---|---|
| ARC-Challenge | 0-shot | 27.56 | 28.92 | 28.07 | 28.92 | 29.35 |
| ARC-Easy | 0-shot | 64.31 | 64.31 | 62.96 | 64.39 | 64.06 |
| BoolQ | 0-shot | 55.93 | 46.97 | 53.03 | 56.64 | 58.10 |
| Social IQA | 0-shot | 39.36 | 40.28 | 40.12 | 40.48 | 40.84 |
| RACE | 0-shot | 31.77 | 31.39 | 30.05 | 30.62 | 31.58 |
| LAMBADA | 5-shot | 31.88 | 32.27 | 34.37 | 32.52 | 33.73 |
| WinoGrande | 5-shot | 51.07 | 51.85 | 53.51 | 53.51 | 55.01 |
| PIQA | 5-shot | 70.67 | 70.95 | 71.87 | 71.93 | 71.44 |
| HellaSwag | 10-shot | 38.02 | 38.34 | 38.48 | 38.80 | 38.74 |
| Average | - | 45.62 | 45.03 | 45.83 | 46.42 | 46.98 |
Figure 3: grafted memory source를 바꿨을 때 vanilla Engram 대비 loss 차이.
Figure 2는 source layer와 source model 선택이 training loss에 미치는 영향을 보여 준다. Qwen3.5 내부 layer를 바꿀 때도 차이가 있고, grafting model을 GLM, DeepSeek, Qwen으로 바꿀 때도 차이가 난다. 이 그림의 핵심은 Memory Grafting이 단순한 parameter count trick을 넘어 memory source의 표현 품질에 민감한 transfer mechanism이라는 점이다. 즉 frozen bank의 크기와 어떤 모델의 어떤 layer를 저장하느냐가 함께 성능을 좌우한다.
5.3 Throughput과 memory usage
효율성 측면에서 논문은 0.92B trainable model에 약 12B frozen grafting memory를 offload한 setting의 throughput과 memory usage를 비교한다. 그림은 Memory Grafting이 외부 memory를 붙이더라도 online path의 병목이 제한적이라는 점을 보여 주려는 목적이다. exact lookup은 memory bank 크기에 대해 기대 $\mathcal{O}(1)$이고, grafting model forward는 이미 offline에서 끝났으므로, inference time에는 lookup, projection, gate, residual update가 추가된다.
다만 이 결과는 해석을 조심해야 한다. offloaded frozen memory가 어느 계층의 storage에 놓이는지, lookup batching이 어떻게 구현되는지, 실제 serving workload가 short prompt인지 long prompt인지에 따라 비용은 달라질 수 있다. 논문은 pretraining efficiency와 benchmark score를 중심으로 좋은 증거를 제시하지만, production serving에서 memory bank를 어떻게 shard하고 cache할 것인지는 별도 engineering problem으로 남는다. 특히 24GB급 frozen bank는 단일 모델 파일에 붙는 작은 adapter와 다르다.
Figure 4: Throughput과 memory usage 비교.
Figure 4는 Memory Grafting이 추가 frozen memory를 갖고도 실용적 throughput을 유지할 수 있다는 근거로 제시된다. 논문 setting에서는 약 12B frozen grafting memory를 offload하고 0.92B trainable recipient를 사용한다. 그림을 읽을 때는 “메모리가 없다”는 의미로 읽기보다 “학습되거나 매 토큰 계산되는 capacity를 늘리는 대신 offloaded lookup capacity를 쓴다”는 구조적 차이를 봐야 한다.
5.4 benchmark별로 보이는 패턴
Table 3에서 가장 눈에 띄는 개선은 LAMBADA와 BoolQ다. LAMBADA는 문맥을 바탕으로 마지막 단어를 맞추는 benchmark이므로, 자주 등장하는 phrase나 lexical construction의 representation이 도움이 되었을 가능성이 있다. BoolQ는 자연어 질문에 대한 yes/no 판단이지만, 사전학습 representation과 commonsense pattern이 강하게 작동한다. Memory Grafting이 이 두 benchmark에서 큰 폭을 보인다는 사실은 frozen $n$-gram memory가 단순 암기보다 language modeling과 local semantic regularity에 영향을 줬을 수 있음을 시사한다. 다만 benchmark별 error analysis가 없으므로, 이 해석은 논문의 수치와 메커니즘을 연결한 가설로 남겨야 한다.
0.92B setting의 Table 4에서는 BoolQ가 source model 차이를 강하게 드러낸다. Vanilla Engram은 46.97로 크게 낮지만, MG-DeepSeek는 56.64, MG-Qwen3.5는 58.10까지 오른다. 반면 ARC-Easy나 PIQA처럼 baseline 자체가 높은 항목에서는 개선 폭이 상대적으로 작거나 source model 간 차이가 완만하다. 이 분포는 Memory Grafting이 모든 benchmark를 균일하게 밀어 올리는 방식보다, 특정 representation-sensitive task에서 더 큰 효과를 내는 구조일 가능성을 보여 준다. 후속 연구에서 hit position과 benchmark item 유형을 연결하면 이 차이를 더 명확히 설명할 수 있다.
6. 추가 분석 및 Ablation Study: memory가 실제로 쓰였는지 확인하기
6.1 CKA alignment와 hidden-state 변화
Memory Grafting이 설득력을 얻으려면 benchmark 평균이 오른다는 사실만으로는 부족하다. frozen memory가 실제 recipient hidden state를 바꾸고, 그 변화가 grafting model representation과 의미 있게 정렬되는지 보여야 한다. 논문은 Qwen3.5-35B-A3B와 MoE baseline, vanilla Engram, Memory Grafting model 사이의 CKA similarity를 비교한다. Figure 3에서 Memory Grafting은 Qwen3.5의 deeper representation과 더 강한 alignment를 보이며, white trajectory는 Qwen layer별 best-matching recipient layer를 표시한다.
이 분석은 Memory Grafting을 “외부 feature 주입”으로만 볼지, “representation-level transfer”로 볼지 가르는 지점이다. 단순 lookup table이라면 hidden state geometry가 grafting model 쪽으로 정렬될 필요가 약하다. 하지만 CKA 결과와 추가 부록의 single-layer/2.8B 분석은 grafted memory가 recipient representation을 더 깊은 Qwen-style representation 쪽으로 이동시키는 경향을 보인다고 해석할 수 있다. 물론 CKA는 causal proof보다는 similarity diagnostic에 가깝기 때문에, 이 결과를 성능 향상의 유일한 원인으로 단정해서는 안 된다.
Figure 5: Qwen3.5-35B-A3B와 recipient model들의 CKA 비교.
Figure 3은 Memory Grafting이 recipient hidden state geometry를 어떻게 바꾸는지 보여 준다. MoE baseline과 vanilla Engram도 일정한 similarity를 갖지만, Memory Grafting은 Qwen3.5의 특정 layer들과 더 높은 정렬을 보인다. 이 결과는 frozen memory가 단순히 lookup hit 위치에서 작은 bias를 더하는 데 그치지 않고, recipient의 중간 표현 공간을 grafting model의 latent structure 쪽으로 끌어당긴다는 해석을 가능하게 한다.
6.2 Frozen memory geometry
부록 B.1은 grafting model별 memory geometry를 비교한다. 같은 $n$-gram key set을 Qwen3.5-35B-A3B, DeepSeek-V2-Lite, GLM-4.7-Flash로 각각 인코딩한 뒤 effective rank, 첫 번째 principal component가 설명하는 variance, norm instability, cosine nearest-neighbor 구조를 본다. Qwen과 DeepSeek memory는 high-dimensional하고 안정적인 반면, GLM memory는 강하게 anisotropic하다고 보고된다. Layer 28에서는 거의 하나의 방향이 지배하는 형태까지 나타난다.
이 관찰은 0.92B 실험 결과와 연결된다. MG-GLM의 benchmark gain이 작은 이유가 단순히 GLM model의 크기나 이름 때문으로 끝나지 않고, frequent $n$-gram을 구분하는 hidden vector manifold가 덜 유용하기 때문일 수 있다. Memory Grafting은 “큰 모델에서 벡터를 뽑아오면 된다”가 아니라, grafting bank로 쓰기에 좋은 representation geometry를 가진 모델과 layer를 찾아야 한다. 후속 연구에서는 이 geometry metric을 사전 screening criterion으로 써도 될 것이다.
Figure 6: grafting-model memory table의 geometry 진단.
Figure 6은 Memory Grafting의 실패 가능성을 잘 보여 주는 그림이다. Qwen3.5와 DeepSeek에서 생성한 memory table은 rank와 norm 측면에서 더 안정적이지만, GLM 기반 table은 anisotropy가 강하다. 따라서 같은 exact lookup 구조라도 저장된 vector가 서로 구분되지 않으면 recipient가 얻는 정보량이 줄어든다. 이 분석은 grafting model 선택을 benchmark 후처리 수준을 넘어 memory bank construction의 핵심 설계 변수로 올려놓는다.
6.3 Hit rate, single-layer grafting, probe 분석
Figure 10은 stored top-k $n$-gram entry 수가 늘어날수록 hit rate가 증가하지만 점차 완만해진다는 것을 보여 준다. 이는 frequent $n$-gram이 초기 coverage gain을 크게 만들고, 이후 rare context를 더 많이 포착하면서 증가 폭이 줄어드는 전형적인 long-tail 패턴이다. 중요한 점은 capacity sweep에서 loss가 30K에서 3M entries로 갈수록 계속 낮아진다는 것이다. 논문은 frozen bank를 더 크게 만들면 추가 개선 여지가 있음을 시사하지만, 동시에 bank size, storage, lookup locality, construction time이 함께 커진다.
single-layer grafting 결과도 흥미롭다. 첫 번째 layer만 Qwen3.5 layer 6으로 grafting한 0.92B setting에서 Memory Grafting은 평균 46.58로 MoE 45.37, vanilla Engram 44.54보다 높다. 즉 두 개 이상의 layer를 grafting해야만 효과가 생기는 것은 아니다. 낮은 layer에서 frequent local pattern representation을 주입해도 downstream benchmark가 개선된다. 이 결과는 Memory Grafting을 full architecture redesign보다, 특정 layer에 붙이는 modular memory interface로 발전시킬 가능성을 보여 준다.
Table 5. Single-layer Memory Grafting in the 0.92B-trainable, 50B-token setting.
| Benchmark | Shots | MoE Baseline | Vanilla Engram | Memory Grafting |
|---|---|---|---|---|
| ARC-Challenge | 0-shot | 28.24 | 28.50 | 29.27 |
| ARC-Easy | 0-shot | 63.30 | 63.30 | 63.51 |
| BoolQ | 0-shot | 56.21 | 48.50 | 60.73 |
| Social IQA | 0-shot | 40.53 | 39.92 | 40.69 |
| RACE | 0-shot | 30.53 | 29.95 | 32.06 |
| LAMBADA | 5-shot | 29.50 | 29.11 | 30.37 |
| WinoGrande | 5-shot | 51.78 | 52.09 | 52.72 |
| PIQA | 5-shot | 70.24 | 71.22 | 71.49 |
| HellaSwag | 10-shot | 38.03 | 38.25 | 38.40 |
| Average | - | 45.37 | 44.54 | 46.58 |
Figure 7: stored top-k $n$-gram memory entry 수에 따른 hit rate.
Figure 10은 Memory Grafting의 scaling 방향을 보여 준다. stored $n$-gram 수를 늘릴수록 hit rate는 증가하지만, frequent pattern을 먼저 담는 구조라서 초반 증가가 크고 뒤로 갈수록 완만해진다. 이 곡선은 bank size를 늘리는 것이 무조건 선형 성능 향상으로 이어지지는 않음을 암시한다. 실제 확장은 coverage gain, storage cost, lookup locality, representation quality를 함께 최적화해야 한다.
마지막 probe 분석은 retrieval-hit position에서 memory가 실제로 쓰이는지 본다. Figure 11은 gate value, output magnitude, prediction-set agreement를 요약하고, Figure 12는 grafted memory가 다음 토큰 logit과 target token log-probability를 어떻게 바꾸는지 보여 준다. 논문은 gate가 non-zero이고 memory output magnitude가 명확하며, logit-level output distribution도 바뀐다고 보고한다. 이는 frozen memory가 “있지만 무시되는 table”에 머물지 않고 recipient computation에 직접 참여한다는 근거다.
Figure 8: retrieval-hit position에서 gate, output magnitude, prediction-set agreement.
Figure 11은 exact memory hit가 발생한 위치에서 gate와 output이 실제 값을 갖는지 점검한다. Memory Grafting 같은 구조는 retrieval table이 존재해도 gate가 닫히면 실질 효과가 없을 수 있다. 논문은 hit position에서 gate가 열리고 memory output magnitude가 관찰되며, prediction set agreement가 변한다는 신호를 제시한다. 이 그림은 benchmark score와 CKA 분석 사이를 연결하는 작동 증거로 읽을 수 있다.
6.4 Ablation을 통해 드러나는 설계 의존성
Ablation에서 특히 중요한 점은 Memory Grafting이 단일 구성 요소 하나로 설명되지 않는다는 것이다. frozen memory source만 있으면 coverage가 부족하고, fallback만 있으면 기존 Engram과 차이가 작아진다. longest-match priority는 local phrase의 specificity를 살리는 장치이고, gate는 현재 hidden state와 memory value 사이의 compatibility를 조절한다. short convolution은 token별 독립 update가 주변 위치와 어긋나는 문제를 완화한다. 이 조합은 조건부 메모리 모듈을 단순 lookup layer 수준을 넘어 residual stream에 안전하게 접속하는 interface로 만든다.
이 구조는 운영 중 디버깅 가능성도 만든다. hit rate가 낮으면 bank coverage를 늘리거나 $n$-gram selection을 바꿔야 하고, hit rate는 높은데 gate가 닫히면 projection/gate 학습이나 source layer mismatch를 의심할 수 있다. gate는 열리는데 logit 변화가 작으면 value scale, short convolution, recipient layer 위치를 점검해야 한다. 논문이 Figure 11과 Figure 12에서 gate value, output magnitude, prediction-set agreement, target log-probability를 따로 보는 이유가 여기에 있다. Memory Grafting은 metric 하나로 끝나는 기술보다, retrieval coverage와 representation injection을 나눠 관찰해야 하는 시스템이다.
7. 한계점 및 향후 연구 방향: distillation 비교와 bank scaling의 빈칸
논문이 스스로 밝히는 가장 큰 한계는 knowledge distillation과의 full comparison이 없다는 점이다. 저자들은 같은 pretraining scale에서 from-scratch distillation baseline을 구성하려면 teacher model을 전체 corpus에 대해 실행해야 하고, compute budget과 해석 가능성이 모두 부담된다고 설명한다. 이 주장은 현실적이다. 하지만 Memory Grafting이 “증류보다 낫다”는 결론으로 바로 이어지지는 않는다. 현재 논문이 강하게 보여 주는 것은 MoE/vanilla Engram 대비 matched recipient budget에서의 개선이고, distillation과의 직접 비교는 비용 모델과 성능 모델을 더 정밀하게 맞춘 별도 실험이 필요하다.
두 번째 한계는 frozen memory bank의 scale-out이다. 논문은 3M entries per layer와 2개 grafting layer를 중심으로 실험한다. capacity sweep과 hit-rate curve는 더 큰 bank가 유효할 수 있음을 보여 주지만, bank가 커질수록 construction time, disk footprint, offload bandwidth, lookup locality, deployment format이 모두 문제가 된다. 특히 serving 시스템에서는 batch별로 어떤 $n$-gram이 hit될지 예측하기 어렵고, frozen memory가 host memory, NVMe, GPU memory 중 어디에 놓이는지에 따라 지연 시간이 크게 달라질 수 있다.
세 번째 한계는 benchmark 범위다. ARC, BoolQ, LAMBADA, HellaSwag 같은 benchmark는 pretraining quality를 보기 좋지만, Memory Grafting이 주장하는 frequent local $n$-gram memory가 어디에서 가장 강한지 완전히 분해해 주지는 않는다. 코드, 수식, entity-rich factual text, domain-specific terminology, multilingual phrase, rare symbol sequence처럼 $n$-gram surface pattern의 역할이 큰 영역을 따로 평가하면 더 설득력 있는 분석이 될 수 있다. 논문은 named entities, formulaic phrases, library calls, mathematical notation을 동기로 언급하지만, 각 유형별 효과를 세부 benchmark로 나누지는 않는다.
향후 연구 방향은 세 갈래가 자연스럽다. 첫째, bank를 더 큰 $n$-gram count와 더 높은 order로 확장하되, hit rate와 성능의 marginal gain을 storage/latency와 함께 측정해야 한다. 둘째, post-training과 continual learning에 적용해 domain-specific bank를 붙이는 실험이 필요하다. 논문은 3M-entry table을 약 3 A100-hours 수준에서 만들 수 있다고 언급하므로, 특정 도메인의 SFT나 domain adaptation에 frozen bank를 새로 붙이는 시나리오는 꽤 실용적으로 보인다. 셋째, gate와 aggregation을 더 풍부하게 만들어 multiple matched $n$-gram을 어떻게 조합할지, recipient layer를 adaptive하게 고를지 탐색할 수 있다.
7.1 serving system에서의 현실적 고려
Memory Grafting이 실제 serving에 들어가려면 모델 구조 외의 문제가 따라온다. frozen memory table은 일반 adapter보다 크고, entry lookup은 prompt의 token suffix 분포에 따라 달라진다. GPU에 전부 올리면 memory pressure가 커지고, CPU나 NVMe에 두면 lookup latency와 batching이 중요해진다. 논문이 throughput 분석을 제시하지만, production serving에서는 batch size, sequence length, request locality, cache hit, memory prefetch policy가 모두 결과를 바꾼다. 따라서 Memory Grafting의 시스템 평가는 모델 accuracy와 별도로, bank placement와 retrieval kernel을 포함한 end-to-end serving benchmark가 필요하다.
또 하나는 bank lifecycle이다. frozen bank는 한 번 만들면 고정되지만, 언어 사용과 도메인 용어는 바뀐다. general pretraining bank라면 업데이트 주기가 길 수 있지만, 도메인 bank라면 새 제품명, API, 법률 문구, 의학 용어가 계속 추가된다. bank를 새로 만들 때 기존 recipient와의 compatibility를 어떻게 보장할지, 오래된 entry를 어떻게 폐기할지, entry별 provenance를 어떻게 기록할지 정해야 한다. 이런 문제는 논문 범위를 벗어나지만, Memory Grafting을 post-training이나 continual learning에 쓰려면 반드시 다뤄야 한다.
마지막으로 safety 관점도 남는다. frozen memory가 특정 $n$-gram hidden state를 강하게 보강한다면, 민감한 phrase나 편향된 표현도 함께 강화될 수 있다. RAG는 retrieved document를 사람이 추적할 수 있지만, latent memory bank는 사람이 바로 읽기 어렵다. 따라서 domain bank를 만들 때는 entry selection, source corpus filtering, hit logging, output audit를 함께 설계해야 한다. 특히 exact lookup은 표면 문자열이 맞으면 memory가 선택되므로, adversarial prompt가 특정 bank entry를 유도할 가능성도 평가해야 한다.
7.2 평가 프로토콜을 더 촘촘하게 만드는 방법
후속 평가에서 가장 먼저 추가할 만한 것은 hit-aware benchmark slicing이다. 각 benchmark item을 풀 때 어떤 token position에서 frozen memory hit가 발생했는지, hit된 $n$-gram이 entity인지, 코드 조각인지, 수식인지, 일반 phrase인지 분류하면 aggregate score 뒤에 숨어 있는 효과를 분해할 수 있다. 예를 들어 LAMBADA 개선이 자주 등장하는 collocation completion에서 나오는지, BoolQ 개선이 질문-답변 패턴의 local phrase에서 나오는지 확인하려면 token-level hit log와 item-level correctness를 함께 저장해야 한다. 이런 분석이 들어가면 Memory Grafting이 어느 데이터 도메인에서 가장 높은 수익을 내는지 더 선명해진다.
두 번째는 cost-normalized comparison이다. 현재 논문은 trainable/activated recipient parameter를 잘 통제하지만, frozen memory storage와 construction compute를 하나의 비용 축으로 정규화하지는 않는다. 실전에서는 12GB 또는 24GB frozen bank를 붙이는 결정이 모델 크기 축소, quantization, LoRA adapter 추가, retrieval cache 확장과 경쟁한다. 따라서 같은 GPU memory budget, 같은 disk footprint, 같은 token/s latency budget에서 MoE, Engram, Memory Grafting, distillation adapter를 비교하면 시스템 관점의 결론이 더 강해진다. 이 비교는 논문 주장을 약하게 만드는 보완이 아니라, Memory Grafting을 배포 가능한 선택지로 끌어올리는 검증이다.
마지막으로 negative control도 필요하다. 같은 빈도 분포의 $n$-gram key를 유지하되 value를 무작위 회전하거나, grafting model layer를 일부러 representation 품질이 낮은 층으로 바꾸거나, hit mask를 보존한 채 value만 shuffle하면 memory lookup 빈도와 parameter 수를 고정한 상태에서 latent value 자체의 기여를 더 명확히 볼 수 있다. 논문은 geometry와 probe로 설득력 있는 증거를 제공하지만, 이런 control이 추가되면 frozen representation transfer라는 주장이 더 단단해진다.
8. 내 해석: 좋은 약점 하나와 바로 이어지는 확장 제안
나는 이 논문의 가장 좋은 지점이 메모리의 비용 위치를 재배치한 것이라고 본다. RAG처럼 문서를 길게 붙이는 방식은 서비스 지연과 context 품질에 부담을 주고, distillation은 teacher forward를 학습 과정에 끌고 들어온다. Memory Grafting은 teacher-like model을 완전히 온라인 path에서 빼고, frequent $n$-gram hidden state만 frozen bank로 남긴다. 이전에 리뷰한 StructMem이 agent의 장기 행동 기억을 사건 단위로 정리했다면, 이 논문은 사전학습 모델의 반복 표현을 token-level bank로 외부화한다. HyLo나 long-context upcycling이 긴 입력 자체를 모델이 견디게 하는 쪽이었다면, Memory Grafting은 자주 반복되는 짧은 local pattern을 더 풍부한 latent vector로 보강한다. 이 차이 덕분에 “memory”라는 단어가 단순 사용자 기록 저장소를 넘어 pretraining capacity design까지 확장된다.
약점은 효과가 어떤 종류의 지식에서 나오는지 아직 충분히 분해되지 않았다는 점이다. 논문은 frequent $n$-gram이 named entity, formulaic phrase, library call, mathematical notation 같은 패턴을 담을 수 있다고 설명하지만, benchmark 결과는 대부분 aggregate accuracy로 제시된다. LAMBADA와 BoolQ에서 큰 개선이 보이지만, 그것이 entity completion, phrase familiarity, commonsense retrieval, syntactic pattern stabilization 중 무엇 때문인지까지는 선명하지 않다. 또한 GLM memory geometry가 좋지 않아 gain이 작다는 분석은 설득력 있지만, geometry metric과 downstream task별 개선을 정량적으로 연결하는 단계는 아직 남아 있다. 내가 이 실험을 확장한다면, 먼저 hit된 $n$-gram을 유형별로 분류하고, hit position에서 logit 변화가 어떤 token class에 집중되는지 보겠다.
후속 제안은 domain bank grafting이다. 현재 논문은 general pretraining setting에서 frequent $n$-gram bank를 만들지만, 실제 활용에서는 의학, 법률, 코드베이스, 수학 기호, 내부 제품 문서처럼 local phrase와 entity가 반복되는 도메인이 더 강한 후보가 될 수 있다. 이미 훈련된 recipient를 그대로 두고, 특정 도메인 corpus에서 frequent $n$-gram을 추출한 뒤, 더 강한 domain-aware grafting model로 bank를 만들고, 작은 adapter/gate만 post-training하는 식이다. 이 경우 RAG보다 latency가 낮고, full fine-tuning보다 catastrophic forgetting 위험이 작으며, bank 교체로 도메인 업데이트도 가능하다. 단, 이 제안이 성립하려면 bank provenance, hit logging, stale memory invalidation, 도메인별 tokenizer mismatch를 추적하는 운영 도구가 함께 필요하다.
9. 결론: Memory Grafting이 보여 준 스케일링의 다른 축
Memory Grafting은 언어 모델을 키우는 방법을 trainable parameter와 online context 길이만으로 보지 않는다. 논문은 이미 훈련된 큰 모델의 hidden representation을 frequent $n$-gram memory value로 오프라인 저장하고, 작은 recipient가 exact lookup과 gate를 통해 이를 활용하도록 만든다. 실험적으로는 2.8B trainable, 100B-token setting에서 MoE 51.95, vanilla Engram 52.43, Memory Grafting 53.86의 평균 성능을 보고하고, 0.92B setting에서도 Qwen3.5 기반 grafting이 46.98로 가장 높은 결과를 낸다. CKA, geometry, hit rate, probe 분석은 이 개선이 단순한 우연으로 보기 어려우며 frozen memory가 hidden state와 logit에 영향을 주는 구조적 변화임을 뒷받침한다.
이 논문의 실용적 의미는 “큰 모델 하나를 더 붙이면 된다”가 아니다. 더 정확히는, 큰 모델을 매 요청마다 실행하지 않고도 그 모델이 이미 학습한 local phrase representation 일부를 reusable memory bank로 바꿀 수 있다는 가능성이다. 이 방식은 storage와 lookup engineering을 요구하지만, teacher forward를 전체 training loop에 넣는 distillation보다 가볍고, RAG처럼 입력 context를 계속 늘리는 방식보다 latency 측면에서 다른 선택지를 준다. 특히 domain-specific post-training이나 continual learning으로 확장되면, frozen latent memory bank는 adapter와 retrieval system 사이의 중간 계층이 될 수 있다.
남는 질문은 분명하다. 어떤 grafting model과 layer가 좋은 memory geometry를 만드는가, bank size를 늘릴 때 marginal gain은 어디서 멈추는가, frequent $n$-gram이 실제로 어떤 지식 유형을 보강하는가, serving 시스템에서 offloaded bank를 어떻게 배치해야 하는가. 이 질문들이 풀리면 Memory Grafting은 Engram의 변형을 넘어, 사전학습과 post-training 사이에 놓이는 외부 latent capacity interface로 자리 잡을 수 있다.
9.1 이 논문이 남기는 설계 언어
Memory Grafting이 남기는 가장 유용한 설계 언어는 trainable capacity, activated compute, external frozen latent capacity를 분리해 말할 수 있게 만든다는 점이다. MoE는 총 capacity와 activated compute를 분리했고, RAG는 parametric knowledge와 non-parametric document store를 분리했다. Memory Grafting은 여기서 한 단계 더 들어가, 사람이 읽는 문서 store와 구분되는 모델 hidden representation store를 분리한다. 이 구분은 앞으로 모델 스케일링 논의에서 중요해질 가능성이 있다. 같은 1B recipient라도 어떤 frozen bank를 붙였는지에 따라 품질과 배포 특성이 달라질 수 있기 때문이다.
또한 이 논문은 “pretrained model을 어떻게 재사용할 것인가”라는 질문에 새로운 답을 준다. 보통 강한 모델을 재사용하는 방법은 distillation, synthetic data generation, reward model, evaluator, router, teacher forcing 등으로 이어진다. Memory Grafting은 강한 모델의 forward 결과를 selected local pattern의 hidden state table로 저장해 두고, 더 작은 모델이 필요할 때 lookup하게 만든다. 이는 teacher를 데이터 생성기나 평가자로 쓰는 방식과 다르게, teacher representation 일부를 architecture component로 고정하는 접근이다. 이 관점이 발전하면 model zoo의 역할도 달라질 수 있다.
10. 요약 정리: 조건부 메모리 스케일링의 핵심만 다시 보기
- Memory Grafting은 frequent 2-, 3-, 4-gram을 강한 grafting model에 오프라인 입력해 frozen hidden-state memory bank를 만든다.
- 온라인 training/inference에서는 recipient model이 exact longest-match lookup으로 memory를 찾고, miss position에는 hash-based Engram fallback을 사용한다.
- grafting model은 online path에 들어오지 않으며, recipient는 projection, gate, short convolution, residual update를 통해 retrieved memory를 hidden state에 반영한다.
- 2.8B trainable, 100B-token setting에서 평균 benchmark score는 MoE 51.95, vanilla Engram 52.43, Memory Grafting 53.86으로 보고된다.
- 0.92B setting에서는 grafting model에 따라 차이가 크며, Qwen3.5-35B-A3B 기반 MG-Qwen3.5가 평균 46.98로 가장 높다.
- geometry 분석은 Qwen/DeepSeek memory가 GLM memory보다 더 high-rank이고 안정적이며, source representation 품질이 downstream gain에 중요함을 보여 준다.
- CKA, gate/output magnitude, logit-level probe는 frozen memory가 단순 보관 테이블에 머물지 않고 recipient computation에 실제로 개입한다는 근거를 제공한다.
- 핵심 한계는 distillation과의 full comparison 부재, bank scale-out 비용, task별 지식 유형 분해 부족이며, domain-specific bank grafting이 자연스러운 후속 방향이다.
'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글
| [arXiv 2605.22817] Vector Policy Optimization: 테스트타임 탐색을 위해 다양성을 훈련하는 후학습 알고리즘 (0) | 2026.05.25 |
|---|---|
| [arXiv 2605.22866] BOHM: 계층형 라우팅 가중치로 복합 AI 시스템을 무비용 귀속하기 (0) | 2026.05.25 |
| [arXiv 2605.20123] BiRD: 양방향 랭킹으로 RAG 포이즈닝을 걸러내는 방어 메커니즘 (0) | 2026.05.22 |
| [arXiv 2605.15202] DeepSlide: 산출물 생성에서 발표 전달까지 이어지는 멀티 에이전트 프레젠테이션 시스템 (0) | 2026.05.19 |
| [arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선 (0) | 2026.05.19 |