- Transformer / LLM 机制型论文写作素材库
整理机制解释型 Transformer / LLM 论文的常用叙事、标题、摘要、引言、理论分析、实验验证和结论模板。
23 min zh-CN - Transformer 逐层解剖:从 Token 到 Logits 的完整维度推导
用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits,彻底看清层与层之间传递的到底是什么。
18 min zh-CN - Transformer 的持续控制状态:KV Cache 与残差流如何塑造 Agent 决策
从现象锚定、反例缩因、toy 直觉到因果干预,拆解 system prompt、tool schema 和 plan 如何持续影响 Agent 决策。
46 min zh-CN - Attention 01:为什么需要 Attention
从长距离依赖、固定长度瓶颈和动态信息需求出发,理解 Attention 机制到底在解决什么问题。
35 min zh-CN - Attention 02:从查资料直觉理解 Q K V
把 Attention 解释成一次软检索:Query 是你的问题,Key 是索引,Value 是内容。
29 min zh-CN - Attention 03:单头注意力的完整计算流程
从一个 3 词短句出发,手推 Attention 公式的每一步维度和数值。
35 min zh-CN - Attention 04:为什么 QKᵀ 表示词与词的关系
点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。
37 min zh-CN - Attention 05:softmax 为什么会变成注意力权重
非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。
36 min zh-CN