Back
从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发,将 cache 理解为沿序列追加的可见记忆,并区分集合近似与数值近似。
llm
transformer
attention
kv-cache
quantization
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
ai
deepseek