- Attention 01:为什么需要 Attention
从长距离依赖、固定长度瓶颈和动态信息需求出发,理解 Attention 机制到底在解决什么问题。
35 min zh-CN - Attention 02:从查资料直觉理解 Q K V
把 Attention 解释成一次软检索:Query 是你的问题,Key 是索引,Value 是内容。
29 min zh-CN - Attention 03:单头注意力的完整计算流程
从一个 3 词短句出发,手推 Attention 公式的每一步维度和数值。
35 min zh-CN - Attention 04:为什么 QKᵀ 表示词与词的关系
点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。
37 min zh-CN - Attention 05:softmax 为什么会变成注意力权重
非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。
36 min zh-CN - Attention 机制完全指南:16 讲从直觉到工程
一套完整的 Attention 学习路径,覆盖直觉、公式、变体和工程实现。
6 min zh-CN