'KVCache' 태그의 글 목록

[개발 공부] • 2026. 4. 28. 18:38

MLA KV Cache, 긴 문맥에서 먼저 줄어드는 병목

2026년 4월 28일 | 개발 공부MLA(Multi-Head Latent Attention)는 긴 문맥 추론에서 key/value cache를 토큰마다 그대로 쌓는 대신, attention에 필요한 정보를 더 작은 latent 표현으로 압축해 저장하는 방식이다. 나는 처음에 이걸 “attention을 줄이는 기법” 정도로만 읽었는데, 조금 더 들여다보니 포인트가 달랐다. attention을 없애는 게 아니라, 긴 문맥에서 제일 먼저 메모리를 잡아먹는 KV Cache의 저장 형태를 바꾸는 쪽에 가깝다.긴 컨텍스트 모델 이야기를 할 때 보통은 “몇 토큰까지 읽느냐”를 먼저 본다. 64K, 128K, 1M 같은 숫자가 워낙 눈에 잘 들어온다. 그런데 실제로 서버에 올려 보는 관점에서는 숫자보다 먼저 걸리는 ..

[논문 리뷰]/[핵심 논문] • 2026. 4. 5. 13:40

[arXiv 2310.06825] Mistral 7B: 슬라이딩 윈도우 어텐션과 효율 중심 설계로 재정의한 7B 오픈 LLM

https://arxiv.org/abs/2310.06825https://arxiv.org/pdf/2310.06825https://github.com/mistralai/mistral-srcAlbert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée La..

[개발 공부] • 2026. 4. 4. 09:04

Speculative Decoding, 작은 모델의 초안이 큰 모델의 속도로 이어지는 방식

2026년 4월 4일 | 개발 공부Speculative Decoding은 작은 보조 모델이 먼저 여러 토큰 초안을 빠르게 써 두고, 큰 메인 모델이 그 초안을 한 번에 검증하면서 가능한 구간은 그대로 받아들이는 추론 가속 기법이다. 이름만 보면 복잡해 보이지만, 내가 이해한 핵심은 단순했다. 큰 모델이 매 토큰마다 처음부터 전부 계산하는 대신, 작은 모델이 먼저 길을 몇 칸 앞서 보고 큰 모델이 맞는지 확인하는 구조라는 점이다. 그래서 이 개념은 단순히 속도를 높이는 트릭이라기보다, "초안 작성"과 "검수"를 분리한 생성 파이프라인으로 읽는 편이 훨씬 덜 헷갈렸다.처음에는 나도 이걸 그냥 추론 최적화 옵션 중 하나로만 봤다. KV cache를 켜고, 배치 크기를 조절하고, 양자화를 적용하는 것처럼 엔진 ..

[논문 리뷰]/[최신 논문] • 2026. 4. 2. 16:29

[arXiv 2604.01220v1] Universal YOCO for Efficient Depth Scaling: 글로벌 KV 캐시를 거의 늘리지 않는 재귀형 깊이 확장 아키텍처

Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei | Microsoft Research, Tsinghua University | arXiv:2604.01220v1 | 2026년 4월논문 초록 · PDF · HTML이 글은 Yutao Sun 등의 Universal YOCO for Efficient Depth Scaling를 바탕으로, 논문이 제안하는 YOCO-U의 설계 의도와 수학적 구조, 복잡도 상의 이점, 학습 설정, 주요 실험 결과, 추가 분석과 한계까지를 체계적으로 정리한 Tistory용 장문 리뷰다. 논문의 핵심 문제의식은 분명하다. 최근 대형 언어모델 연구에서 test-time scaling과 재귀적 계산은 추론 성능을..

[논문 리뷰]/[최신 논문] • 2026. 3. 31. 14:48

[arXiv 2504.19874] TurboQuant: 온라인 벡터 양자화로 근최적 왜곡률에 접근하는 새로운 압축 프레임워크

TurboQuant: Online Vector Quantization with Near-optimal Distortion Ratehttps://arxiv.org/abs/2504.19874Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni | Google Research, New York University, Google DeepMind | arXiv:2504.19874 | 2025년 4월1. 서론: LLM 추론 병목을 겨냥한 온라인 벡터 양자화의 재정의최근 대규모 언어 모델의 실제 운영 비용은 파라미터 수 자체보다도 메모리 이동과 컨텍스트 길이에서 비롯되는 경우가 많다. 특히 긴 문맥 추론에서는 KV 캐시가 레이어 수, 헤드 수, 시퀀스 길이에 비례해 빠..

[논문 리뷰]/[최신 논문] • 2026. 2. 16. 22:49

[arXiv 2505.21467] FlashDLM: KV 캐싱과 가이디드 디퓨전을 통한 확산 언어 모델 추론 가속화

FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusionhttps://arxiv.org/abs/2505.21467 | GitHubZhanqiu Hu, Jian Meng, Yash Akhauri, Mohamed S. Abdelfattah, Jae-sun Seo, Zhiru Zhang, Udit Gupta | Cornell University | arXiv:2505.21467 | 2025년 5월 | ICLR 2026 게재 확정1. 서론대규모 언어 모델(Large Language Model, LLM)은 다양한 도메인에서 뛰어난 성능을 보여주며 인공지능 연구의 핵심 축으로 자리잡았다...