Tags: #transformer

Apr 28, 2026

Transformer / LLM 机制型论文写作素材库

整理机制解释型 Transformer / LLM 论文的常用叙事、标题、摘要、引言、理论分析、实验验证和结论模板。

23 min zh-CN
Mar 24, 2026

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导

用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。

18 min zh-CN
Mar 23, 2026

Transformer 的持续控制状态：KV Cache 与残差流如何塑造 Agent 决策

从现象锚定、反例缩因、toy 直觉到因果干预，拆解 system prompt、tool schema 和 plan 如何持续影响 Agent 决策。

46 min zh-CN
Mar 16, 2026

Attention 01：为什么需要 Attention

从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。

35 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 02：从查资料直觉理解 Q K V

把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。

29 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 03：单头注意力的完整计算流程

从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。

35 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 04：为什么 QKᵀ 表示词与词的关系

点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。

37 min zh-CN
- llm
- transformer
- attention
- 专题
Mar 16, 2026

Attention 05：softmax 为什么会变成注意力权重

非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。

36 min zh-CN
- llm
- transformer
- attention
- 专题

Tags: #transformer

Transformer / LLM 机制型论文写作素材库 整理机制解释型 Transformer / LLM 论文的常用叙事、标题、摘要、引言、理论分析、实验验证和结论模板。 23 min zh-CN

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导 用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。 18 min zh-CN

Transformer 的持续控制状态：KV Cache 与残差流如何塑造 Agent 决策 从现象锚定、反例缩因、toy 直觉到因果干预，拆解 system prompt、tool schema 和 plan 如何持续影响 Agent 决策。 46 min zh-CN

Attention 01：为什么需要 Attention 从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。 35 min zh-CN

Attention 02：从查资料直觉理解 Q K V 把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。 29 min zh-CN

Attention 03：单头注意力的完整计算流程 从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。 35 min zh-CN

Attention 04：为什么 QKᵀ 表示词与词的关系 点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。 37 min zh-CN

Attention 05：softmax 为什么会变成注意力权重 非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。 36 min zh-CN

Transformer / LLM 机制型论文写作素材库

整理机制解释型 Transformer / LLM 论文的常用叙事、标题、摘要、引言、理论分析、实验验证和结论模板。

23 min zh-CN

Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导

用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits，彻底看清层与层之间传递的到底是什么。

18 min zh-CN

Transformer 的持续控制状态：KV Cache 与残差流如何塑造 Agent 决策

从现象锚定、反例缩因、toy 直觉到因果干预，拆解 system prompt、tool schema 和 plan 如何持续影响 Agent 决策。

46 min zh-CN

Attention 01：为什么需要 Attention

从长距离依赖、固定长度瓶颈和动态信息需求出发，理解 Attention 机制到底在解决什么问题。

35 min zh-CN

Attention 02：从查资料直觉理解 Q K V

把 Attention 解释成一次软检索：Query 是你的问题，Key 是索引，Value 是内容。

29 min zh-CN

Attention 03：单头注意力的完整计算流程

从一个 3 词短句出发，手推 Attention 公式的每一步维度和数值。

35 min zh-CN

Attention 04：为什么 QKᵀ 表示词与词的关系

点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。

37 min zh-CN

Attention 05：softmax 为什么会变成注意力权重

非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。

36 min zh-CN