- 注意力熵与动态拓扑:从信息路由到隧道视野
把自注意力看成输入依赖的动态图,用香农熵刻画信息路由宽度,并解释低熵注意力何时有利、何时会造成隧道视野。
17 min zh-CN - Softmax 的几何本质:从相对优势到概率单纯形
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发,看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。
13 min zh-CN - Post-LN Transformer 为什么需要 Warmup?
从 LayerNorm 反向传播和平均场尺度分析出发,解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。
16 min zh-CN - 从谱半径到随机 Jacobian 连乘
从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发,把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。
12 min zh-CN - 注意力机制中的 Index:从位置下标到预算检索
从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发,将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。
30 min zh-CN - KV Cache 的 Prefill、Decode、驱逐与量化:从缓存追加到误差形态
从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发,将 cache 理解为沿序列追加的可见记忆,并区分集合近似与数值近似。
22 min zh-CN - DeepSeek-V4 的 KV 压缩:从删 token 误解到预算检索
从 CSA、HCA 和 SWA 的分工出发,将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。
32 min zh-CN - RoPE(旋转位置编码)讲义:从问题到工程实践
一份 41 页 RoPE 讲义,沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践,系统理解旋转位置编码。
9 min zh-CN