- 注意力机制中的 Index:从位置下标到预算检索
从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发,将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。
30 min zh-CN - KV Cache 的 Prefill、Decode、驱逐与量化:从缓存追加到误差形态
从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发,将 cache 理解为沿序列追加的可见记忆,并区分集合近似与数值近似。
22 min zh-CN - DeepSeek-V4 的 KV 压缩:从删 token 误解到预算检索
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
32 min zh-CN - RoPE(旋转位置编码)讲义:从问题到工程实践
一份 41 页 RoPE 讲义,沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践,系统理解旋转位置编码。
9 min zh-CN - Transformer 逐层解剖:从 Token 到 Logits 的完整维度推导
用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits,彻底看清层与层之间传递的到底是什么。
18 min zh-CN - Attention 01:为什么需要 Attention
从长距离依赖、固定长度瓶颈和动态信息需求出发,理解 Attention 机制到底在解决什么问题。
35 min zh-CN - Attention 02:从查资料直觉理解 Q K V
把 Attention 解释成一次软检索:Query 是你的问题,Key 是索引,Value 是内容。
29 min zh-CN - Attention 03:单头注意力的完整计算流程
从一个 3 词短句出发,手推 Attention 公式的每一步维度和数值。
35 min zh-CN