Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #kv-cache

May 2, 2026

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态

从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。

22 min zh-CN
- llm
- transformer
- attention
- kv-cache
- quantization
Apr 30, 2026

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索

从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。

32 min zh-CN
- ai
- deepseek
- transformer
- attention
- kv-cache