Back
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
ai
deepseek
transformer
attention
kv-cache