Tags: #transformer

May 24, 2026

注意力熵与动态拓扑：从信息路由到隧道视野

把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。

17 min zh-CN
- llm
- transformer
- attention
- 信息熵
- 机制分析
May 24, 2026

Softmax 的几何本质：从相对优势到概率单纯形

从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。

13 min zh-CN
- llm
- transformer
- attention
- softmax
- 机制分析
May 21, 2026

Post-LN Transformer 为什么需要 Warmup？

从 LayerNorm 反向传播和平均场尺度分析出发，解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。

16 min zh-CN
May 21, 2026

从谱半径到随机 Jacobian 连乘

从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发，把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。

12 min zh-CN
May 2, 2026

注意力机制中的 Index：从位置下标到预算检索

从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。

30 min zh-CN
- ai
- transformer
- attention
- deepseek
- glm
May 2, 2026

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态

从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。

22 min zh-CN
- llm
- transformer
- attention
- kv-cache
- quantization
Apr 30, 2026

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索

从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。

32 min zh-CN
- ai
- deepseek
- transformer
- attention
- kv-cache
Apr 28, 2026

RoPE（旋转位置编码）讲义：从问题到工程实践

一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。

9 min zh-CN
- rope
- transformer
- 位置编码
- attention
- llm
- 讲义

Tags: #transformer

注意力熵与动态拓扑：从信息路由到隧道视野 把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。 17 min zh-CN

Softmax 的几何本质：从相对优势到概率单纯形 从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。 13 min zh-CN

Post-LN Transformer 为什么需要 Warmup？ 从 LayerNorm 反向传播和平均场尺度分析出发，解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。 16 min zh-CN

从谱半径到随机 Jacobian 连乘 从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发，把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。 12 min zh-CN

注意力机制中的 Index：从位置下标到预算检索 从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。 30 min zh-CN

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态 从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。 22 min zh-CN

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索 从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。 32 min zh-CN

RoPE（旋转位置编码）讲义：从问题到工程实践 一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。 9 min zh-CN

注意力熵与动态拓扑：从信息路由到隧道视野

把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。

17 min zh-CN

Softmax 的几何本质：从相对优势到概率单纯形

从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。

13 min zh-CN

Post-LN Transformer 为什么需要 Warmup？

从 LayerNorm 反向传播和平均场尺度分析出发，解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。

16 min zh-CN

从谱半径到随机 Jacobian 连乘

从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发，把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。

12 min zh-CN

注意力机制中的 Index：从位置下标到预算检索

从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。

30 min zh-CN

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态

从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。

22 min zh-CN

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索

从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。

32 min zh-CN

RoPE（旋转位置编码）讲义：从问题到工程实践

一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。

9 min zh-CN