- 注意力机制中的 Index:从位置下标到预算检索
从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发,将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。
30 min zh-CN - DeepSeek-V4 的 KV 压缩:从删 token 误解到预算检索
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
32 min zh-CN - DeepSeek-V3.2:将思维过程整合到工具使用中
DeepSeek-V3.2 模型实现卓越 Agentic 能力的关键技术突破:思维上下文管理、冷启动机制及大规模 Agentic 任务合成。
12 min