Tags: #attention

May 2, 2026

注意力机制中的 Index：从位置下标到预算检索

从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。

30 min zh-CN
- ai
- transformer
- attention
- deepseek
- glm
May 2, 2026

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态

从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。

22 min zh-CN
- llm
- transformer
- attention
- kv-cache
- quantization
Apr 30, 2026

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索

从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。

32 min zh-CN
- ai
- deepseek
- transformer
- attention
- kv-cache
Apr 28, 2026

RoPE（旋转位置编码）讲义：从问题到工程实践

一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。

9 min zh-CN
- rope
- transformer
- 位置编码
- attention
- llm
- 讲义
Mar 24, 2026

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导

用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。

18 min zh-CN
Mar 16, 2026

Attention 01：为什么需要 Attention

从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。

35 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 02：从查资料直觉理解 Q K V

把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。

29 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 03：单头注意力的完整计算流程

从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。

35 min zh-CN
- llm
- transformer
- attention
- 专题

Tags: #attention

注意力机制中的 Index：从位置下标到预算检索 从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。 30 min zh-CN

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态 从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。 22 min zh-CN

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索 从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。 32 min zh-CN

RoPE（旋转位置编码）讲义：从问题到工程实践 一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。 9 min zh-CN

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导 用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。 18 min zh-CN

Attention 01：为什么需要 Attention 从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。 35 min zh-CN

Attention 02：从查资料直觉理解 Q K V 把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。 29 min zh-CN

Attention 03：单头注意力的完整计算流程 从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。 35 min zh-CN

注意力机制中的 Index：从位置下标到预算检索

从普通 attention 的位置索引、DeepSeek 的 lightning indexer 和 GLM-5/5.1 的 DSA index 配置出发，将 index 理解为读写地址、相关性打分、top-k 路由和训练约束的组合问题。

30 min zh-CN

KV Cache 的 Prefill、Decode、驱逐与量化：从缓存追加到误差形态

从历史 KV、query prefill、逐步 decode、KV 驱逐和 KV 量化出发，将 cache 理解为沿序列追加的可见记忆，并区分集合近似与数值近似。

22 min zh-CN

DeepSeek-V4 的 KV 压缩：从删 token 误解到预算检索

从 CSA、HCA 和 SWA 的分工出发，将 DeepSeek-V4 的百万上下文注意力理解为带预算的检索、压缩与端到端损失最小化问题。

32 min zh-CN

RoPE（旋转位置编码）讲义：从问题到工程实践

一份 41 页 RoPE 讲义，沿着问题、对象、约束、形式定义、引理、定理、例子和工程实践，系统理解旋转位置编码。

9 min zh-CN

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导

用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。

18 min zh-CN

Attention 01：为什么需要 Attention

从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。

35 min zh-CN

Attention 02：从查资料直觉理解 Q K V

把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。

29 min zh-CN

Attention 03：单头注意力的完整计算流程

从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。

35 min zh-CN