- 注意力熵与动态拓扑:从信息路由到隧道视野
把自注意力看成输入依赖的动态图,用香农熵刻画信息路由宽度,并解释低熵注意力何时有利、何时会造成隧道视野。
17 min zh-CN - Softmax 的几何本质:从相对优势到概率单纯形
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发,看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。
13 min zh-CN - 注意力机制中的 Index:从位置下标到预算检索
从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发,将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。
30 min zh-CN - KV Cache 的 Prefill、Decode、驱逐与量化:从缓存追加到误差形态
从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发,将 cache 理解为沿序列追加的可见记忆,并区分集合近似与数值近似。
22 min zh-CN - DeepSeek-V4 的 KV 压缩:从删 token 误解到预算检索
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
32 min zh-CN - RoPE(旋转位置编码)讲义:从问题到工程实践
一份 41 页 RoPE 讲义,沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践,系统理解旋转位置编码。
9 min zh-CN - Transformer 逐层解剖:从 Token 到 Logits 的完整维度推导
用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits,彻底看清层与层之间传递的到底是什么。
18 min zh-CN - Attention 01:为什么需要 Attention
从长距离依赖、固定长度瓶颈和动态信息需求出发,理解 Attention 机制到底在解决什么问题。
35 min zh-CN