Blog Concepts Roadmap Murmurs Plan Photos Projects Links About

Back

Tags: #attention

Mar 16, 2026

Attention 04：为什么 QKᵀ 表示词与词的关系

点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。

37 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 05：softmax 为什么会变成注意力权重

非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。

36 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 机制完全指南：16 讲从直觉到工程

一套完整的 Attention 学习路径，覆盖直觉、公式、变体和工程实现。

6 min zh-CN
- llm
- transformer
- attention
- 专题
- 学习路径