Transformer 逐层解剖：从 Token 到 Logits 的完整维度推导

把 Transformer 每一步的矩阵维度写出来，层与层之间传递的到底是什么就会变得非常清楚。

这篇文章的目的是：用 矩阵维度 作为主线，完整追踪一个 token 从输入到最终 logits 的全过程。每一步都标注 shape 变化，不跳步骤。

如果你对 Transformer 在 Agent 中的控制状态感兴趣，可以配合这篇一起看：

Transformer 的持续控制状态：KV Cache 与残差流如何塑造 Agent 决策

以下所有推导基于 decoder-only / GPT 风格的 Pre-LN Transformer，这也是目前主流大模型（GPT、LLaMA、Qwen 等）的标准结构。部分图示参考了原始 Transformer 论文 ¹ 以及 Sebastian Raschka 的 self-attention 教程 ²。

一、符号约定#

符号	含义	典型值
$B$	batch size	2
$T$	序列长度	128
$d$	hidden size	768
$H$	注意力头数	12
$d_h$	每头维度， $d_h = d / H$	64
$L$	层数	12 / 24
$d_{ff}$	FFN 中间维度	3072
$V$	词表大小	32000+

二、输入层：token id → embedding#

2.1 Token Embedding#

输入是一组整数索引：

\text{input\_ids} \in \mathbb{Z}^{B \times T}

词向量矩阵：

W_E \in \mathbb{R}^{V \times d}

查表得到：

X_{\text{tok}} \in \mathbb{R}^{B \times T \times d}

2.2 Position Embedding#

位置编码矩阵（可学习或 RoPE）：

W_P \in \mathbb{R}^{T_{\max} \times d}

取前 $T$ 个位置，broadcast 到 batch 维：

X_{\text{pos}} \in \mathbb{R}^{B \times T \times d}

2.3 第 0 层输入#

X^{(0)} = X_{\text{tok}} + X_{\text{pos}} \in \mathbb{R}^{B \times T \times d}

这就是送入第一个 Transformer block 的输入。

三、单层结构：Pre-LN 的 Attention + FFN#

单层 Transformer Block 维度流

现代大模型普遍采用 Pre-LN 结构。一层的紧凑写法：

\hat{X}^{(l)} = \mathrm{LN}(X^{(l)})

Y^{(l)} = X^{(l)} + \mathrm{MHA}(\hat{X}^{(l)})

\tilde{Y}^{(l)} = \mathrm{LN}(Y^{(l)})

X^{(l+1)} = Y^{(l)} + \mathrm{FFN}(\tilde{Y}^{(l)})

其中每一步的 shape 都是 $\mathbb{R}^{B \times T \times d}$ ——输入和输出维度相同，这是 Transformer 能任意堆叠的关键。

四、Attention 子层：完整维度推导#

下图展示了单个 attention head 的完整计算流水线（图源 ²）：

单头 Attention 流水线：从输入 X 到归一化注意力矩阵 A 和输出 Z

核心三步：输入 $X$ 经过 $W_Q, W_K, W_V$ 投影得到 Query / Key / Value，通过点积计算注意力权重，再加权求和 Value 得到输出。

在实际模型中，多个 head 并行执行上述流程，最后拼接。下图是原始 Transformer 论文 ¹ 中的多头注意力架构：

原始 Transformer 的多头注意力模块

每个 head 学习不同的关系模式——有的偏局部邻近，有的偏语法依赖，有的偏长距离引用。下面逐步追踪维度变化。

4.1 LayerNorm#

\hat{X}^{(l)} = \mathrm{LN}(X^{(l)}) \in \mathbb{R}^{B \times T \times d}

对每个 token 的特征维做归一化，维度不变。

4.2 Q / K / V 投影#

Q / K / V 投影：输入 x 通过三组权重矩阵得到 query、key、value（图源）

每层有三组投影矩阵：

W_Q^{(l)},\; W_K^{(l)},\; W_V^{(l)} \in \mathbb{R}^{d \times d}

线性投影——每个 token 的隐藏状态分别乘以三个矩阵：

Q = \hat{X}^{(l)} W_Q^{(l)},\quad K = \hat{X}^{(l)} W_K^{(l)},\quad V = \hat{X}^{(l)} W_V^{(l)}

Q, K, V \in \mathbb{R}^{B \times T \times d}

展开来看，对序列中第 $i$ 个 token：

q_i = \hat{x}_i \cdot W_Q, \quad k_i = \hat{x}_i \cdot W_K, \quad v_i = \hat{x}_i \cdot W_V

其中 $\hat{x}_i \in \mathbb{R}^{d}$ 是该 token 的 $d$ 维隐藏向量， $q_i, k_i \in \mathbb{R}^{d_h}$ （单头维度）， $v_i \in \mathbb{R}^{d_h}$ 。

直觉：

Query 编码的是”这个 token 正在找什么”
Key 编码的是”这个 token 在什么情况下会被找到”
Value 编码的是”被找到后能提供什么信息”

4.3 拆成多头#

因为 $d = H \cdot d_h$ ，把最后一维拆开并转置：

Q \to \mathbb{R}^{B \times T \times H \times d_h} \to \mathbb{R}^{B \times H \times T \times d_h}

同理：

K, V \in \mathbb{R}^{B \times H \times T \times d_h}

4.4 计算 attention score#

未归一化注意力权重 ω：每个 query 和所有 key 做点积（图源）

每个 head 内，用 query 和 key 的点积衡量”相关性”：

\omega_{ij} = q_i \cdot k_j = \sum_{m=1}^{d_h} q_{i,m} \cdot k_{j,m}

写成矩阵形式（在最后两维做乘法）：

S = \frac{Q K^\top}{\sqrt{d_h}}

$Q$ : $(T \times d_h)$ — 每行是一个 query 向量
$K^\top$ : $(d_h \times T)$ — 每列是一个 key 向量
$S$ : $(T \times T)$ — 位置 $i$ 对位置 $j$ 的打分

S \in \mathbb{R}^{B \times H \times T \times T}

具体例子（ $T=6, d_h=2$ ）：假设第 2 个 token 的 query 是 $q_2 = [0.3,\; 1.2]$ ，第 4 个 token 的 key 是 $k_4 = [0.8,\; 0.5]$ ，那么：

\omega_{2,4} = 0.3 \times 0.8 + 1.2 \times 0.5 = 0.24 + 0.60 = 0.84

对所有 key 位置做同样计算，就得到 $q_2$ 对整个序列的打分向量。

4.5 加 causal mask#

因果 Mask：上三角被遮蔽，每个位置只能看到自己和之前的 token（图源）

decoder-only 模型需要因果 mask，禁止看未来 token。mask 矩阵是一个下三角全 0、上三角全 $-\infty$ 的矩阵：

M \in \mathbb{R}^{1 \times 1 \times T \times T}

S' = S + M \in \mathbb{R}^{B \times H \times T \times T}

展开看 $T=6$ 的情况，mask 矩阵长这样：

M = \begin{pmatrix} 0 & -\infty & -\infty & -\infty & -\infty & -\infty \\ 0 & 0 & -\infty & -\infty & -\infty & -\infty \\ 0 & 0 & 0 & -\infty & -\infty & -\infty \\ 0 & 0 & 0 & 0 & -\infty & -\infty \\ 0 & 0 & 0 & 0 & 0 & -\infty \\ 0 & 0 & 0 & 0 & 0 & 0 \end{pmatrix}

加到 $S$ 上后，softmax 中 $e^{-\infty} \approx 0$ ，被 mask 的位置权重自然归零。这是 pre-softmax masking，无需额外归一化 ²。

另一种做法是 post-softmax masking（先 softmax 再置零再归一化），但 pre-softmax 更高效，也是主流实现。

4.6 softmax → 注意力权重#

归一化注意力权重 α：softmax 将打分转成概率分布（图源）

\alpha_{ij} = \frac{\exp(S'_{ij})}{\sum_{m=1}^{t} \exp(S'_{im})}

写成矩阵形式：

A = \mathrm{softmax}(S',\; \text{dim}=-1) \in \mathbb{R}^{B \times H \times T \times T}

每个 query 位置对所有可见历史位置的权重和为 1。

为什么要 scaled（除以 $\sqrt{d_h}$ ）？ 当 $d_h$ 较大时， $q \cdot k$ 的方差约为 $d_h$ （假设 $q, k$ 各分量独立、均值 0、方差 1），导致 softmax 输入值很大，输出趋向 one-hot，梯度几乎消失。除以 $\sqrt{d_h}$ 可以将方差控制回 1 ¹²。

具体例子：假设 $d_h = 64$ ，原始点积可能是 $\omega = 51.2$ ，softmax 几乎全给这一个位置。除以 $\sqrt{64} = 8$ 后变成 $6.4$ ，分布就平滑很多。

4.7 加权求和 V#

上下文向量：用注意力权重对 value 向量加权求和，得到融合了上下文的输出（图源）

对第 $i$ 个 token，它的输出是所有可见位置的 value 的加权和：

z_i = \sum_{j=1}^{i} \alpha_{ij} \cdot v_j

展开来看——假设第 2 个 token 的注意力权重是 $[\alpha_{2,1}, \alpha_{2,2}] = [0.3, 0.7]$ ：

z_2 = 0.3 \cdot v_1 + 0.7 \cdot v_2

也就是说， $z_2$ 更多地包含了 $v_2$ 的信息，同时带入了 30% 的 $v_1$ 。

写成矩阵形式：

O_{\text{head}} = A \cdot V

$A$ : $(T \times T)$ — 注意力权重
$V$ : $(T \times d_h)$ — value 矩阵

O_{\text{head}} \in \mathbb{R}^{B \times H \times T \times d_h}

4.8 拼接各头 + 输出投影#

多头注意力：多个 head 并行计算后拼接（图源）

多头机制让模型同时关注不同类型的关系。每个 head 独立计算自己的 $Q_h, K_h, V_h$ ，得到 $\text{head}_h \in \mathbb{R}^{T \times d_h}$ 。

拼接所有 head（ $H$ 个，每个 $d_h$ 维）：

\mathrm{MultiHead} = \mathrm{Concat}(\text{head}_1, \ldots, \text{head}_H) \in \mathbb{R}^{B \times T \times (H \cdot d_h)}

因为 $H \cdot d_h = d$ ：

O_{\text{cat}} \in \mathbb{R}^{B \times T \times d}

再经过输出投影矩阵 $W_O^{(l)} \in \mathbb{R}^{d \times d}$ ，把多头信息混合回统一空间：

O_{\text{attn}} = O_{\text{cat}} \cdot W_O^{(l)} \in \mathbb{R}^{B \times T \times d}

4.9 残差连接#

Y^{(l)} = X^{(l)} + O_{\text{attn}} \in \mathbb{R}^{B \times T \times d}

4.10 Self-Attention 完整流程回顾#

Self-Attention 完整机制总结（图源）

把 4.1–4.9 串起来看：输入 $X$ 经 LayerNorm → 投影出 $Q, K, V$ → 点积打分 → scaling + mask → softmax 得到注意力权重 → 加权 $V$ → 拼接多头 → 输出投影 → 加残差。整个过程的输入和输出都是 $(B, T, d)$ 。

下图展示了真实模型中注意力权重的可视化——颜色越深表示注意力越强。可以看到 “making” 这个词主要关注 “more” 和 “difficult”，体现了语义依赖 ¹：

注意力权重热力图：单词 "making" 对其他单词的注意力分布（图源）

五、FFN 子层：升维与降维#

先做 LayerNorm：

\tilde{Y}^{(l)} = \mathrm{LN}(Y^{(l)}) \in \mathbb{R}^{B \times T \times d}

5.1 第一层线性：升维#

W_1^{(l)} \in \mathbb{R}^{d \times d_{ff}}

对每个 token 位置 $i$ ，独立做同一个线性变换：

z_i = \tilde{y}_i \cdot W_1^{(l)} + b_1

写成矩阵形式：

Z = \tilde{Y}^{(l)} W_1^{(l)} + b_1 \in \mathbb{R}^{B \times T \times d_{ff}}

具体例子： $d = 768, d_{ff} = 3072$ ，相当于每个 token 的 768 维表示被映射到 3072 维——“升维”让模型有更大的空间做非线性变换。

5.2 激活函数#

G = \mathrm{GELU}(Z) \in \mathbb{R}^{B \times T \times d_{ff}}

GELU 的公式（近似形式）：

\mathrm{GELU}(x) = x \cdot \Phi(x) \approx x \cdot \sigma(1.702x)

其中 $\Phi$ 是标准正态分布的 CDF。直觉：GELU 类似一个”软门控”——正值基本保留，负值被平滑抑制。

现代模型常用 SwiGLU 变体，引入门控机制：

\mathrm{SwiGLU}(x) = \mathrm{SiLU}(x W_a) \odot (x W_b)

其中 $\odot$ 是逐元素乘法， $W_a, W_b$ 是两组独立参数。这让 FFN 有更强的特征选择能力。

5.3 第二层线性：降回 hidden size#

W_2^{(l)} \in \mathbb{R}^{d_{ff} \times d}

O_{\text{ffn}} = G \cdot W_2^{(l)} + b_2 \in \mathbb{R}^{B \times T \times d}

5.4 残差连接#

X^{(l+1)} = Y^{(l)} + O_{\text{ffn}} \in \mathbb{R}^{B \times T \times d}

六、多层堆叠：维度不变，表示逐层演化#

多层堆叠：残差驱动的增量演化

X^{(0)} \xrightarrow{\text{Block}^{(0)}} X^{(1)} \xrightarrow{\text{Block}^{(1)}} X^{(2)} \xrightarrow{\cdots} X^{(L)}

每一层输入输出都是 $\mathbb{R}^{B \times T \times d}$ ，可以无缝堆叠任意多层。

紧凑写法：

X^{(L)} = \mathrm{Block}^{(L-1)} \circ \cdots \circ \mathrm{Block}^{(0)}(X^{(0)})

每层结构相同，但参数独立：

\theta^{(l)} = \{W_Q^{(l)}, W_K^{(l)}, W_V^{(l)}, W_O^{(l)}, W_1^{(l)}, W_2^{(l)}, \ldots\}

七、最后一层之后：从 hidden state 到 logits#

最后一层输出再做一次 LayerNorm：

H = \mathrm{LN}(X^{(L)}) \in \mathbb{R}^{B \times T \times d}

然后映射到词表空间：

W_{\text{lm}} \in \mathbb{R}^{d \times V}

\text{logits} = H \cdot W_{\text{lm}} \in \mathbb{R}^{B \times T \times V}

每个 batch 样本、每个时间步，对词表中每个 token 都有一个预测分数。

八、残差的真正作用：增量叠加#

残差连接让每层学的是”增量修正”：

X^{(l+1)} = X^{(l)} + \Delta^{(l)}

这有三个关键效果：

梯度更容易传播：反向传播时梯度可以沿残差连接直接流向浅层，不会被中间层的非线性”吃掉”
原始信息不会丢：底层编码的 token 身份、位置信息会被一路保留
深层训练更稳定：每层只需要学”补充什么”，而非”从零重造什么”

所以多层 Transformer 更像逐层加注释：

\text{原始 token 身份} \to +\text{局部依赖} \to +\text{语义约束} \to +\text{篇章关系} \to +\text{任务特征}

九、逐层抽象是怎么形成的#

单层 Attention 已经可以”看到全局”——每个 query 都会扫描所有历史 key。但**“看到全局”不等于”一步就提取出复杂抽象”**。

逐层抽象的形成机制：

第 $l$ 层的 Attention 读到的 K/V，来自第 $l$ 层的 hidden state。这些 hidden state 已经经过了前面 $l$ 层的上下文化处理。
所以第 1 层读到的是原始词向量附近的信息，第 8 层读到的是已带局部上下文的表示，第 22 层读到的是已经压入复杂组合关系的表示。
每层的 FFN 再对 Attention 聚合后的结果做非线性重编码，把”混合信息”压成更适合表达高阶特征的方向。

所以常见的逐层特征演进是：

\text{词级特征} \to \text{短语关系} \to \text{句子语义} \to \text{跨句推理}

注意：这个过程的驱动力是 Attention 的反复聚合 + FFN 的非线性变换，残差只是保证这些新特征能在旧表示上稳定叠加。

十、三个最容易混淆的矩阵维度#

主干隐藏状态#

X^{(l)} \in \mathbb{R}^{B \times T \times d}

这是层与层之间真正传递的东西。

每头的 Q / K / V#

Q, K, V \in \mathbb{R}^{B \times H \times T \times d_h}

Attention 内部临时展开的表示，不会传到下一层主干。

Attention 权重#

A \in \mathbb{R}^{B \times H \times T \times T}

“每个位置看其他位置”的权重矩阵。这个矩阵同样不会传到下一层——下一层传的是 attention 输出加残差后的 $X^{(l+1)}$ 。

十一、具体数值例子#

取 $B=2,\; T=128,\; d=768,\; H=12,\; d_h=64,\; d_{ff}=3072$ ：

步骤	Shape
层输入 $X^{(l)}$	$(2, 128, 768)$
Q / K / V 投影	$(2, 128, 768)$
拆头后	$(2, 12, 128, 64)$
Attention score $QK^\top$	$(2, 12, 128, 128)$
加权 V 后	$(2, 12, 128, 64)$
拼接回去	$(2, 128, 768)$
输出投影后 $O_{\text{attn}}$	$(2, 128, 768)$
残差后 $Y^{(l)}$	$(2, 128, 768)$
FFN 第一层（升维）	$(2, 128, 3072)$
FFN 第二层（降回）	$(2, 128, 768)$
层输出 $X^{(l+1)}$	$(2, 128, 768)$

层输入和层输出 shape 完全相同——这就是 Transformer 能任意堆叠的根本原因。

十二、总公式#

把整个模型压成最精简的形式：

X^{(0)} = \text{TokenEmb} + \text{PosEmb}

对 $l = 0, \ldots, L-1$ ：

Q^{(l)}, K^{(l)}, V^{(l)} = \mathrm{Proj}(\mathrm{LN}(X^{(l)}))

\mathrm{Attn}^{(l)} = \mathrm{softmax}\!\left(\frac{Q^{(l)} (K^{(l)})^\top}{\sqrt{d_h}} + M\right) V^{(l)}

Y^{(l)} = X^{(l)} + \mathrm{OutProj}(\mathrm{Attn}^{(l)})

X^{(l+1)} = Y^{(l)} + \mathrm{FFN}(\mathrm{LN}(Y^{(l)}))

最终：

\text{logits} = \mathrm{LN}(X^{(L)}) \cdot W_{\text{lm}} \in \mathbb{R}^{B \times T \times V}

四行核心公式，描述了从输入到输出的完整计算过程。主干张量始终是 $(B, T, d)$ ，每层内部临时展开为 $(B, H, T, d_h)$ 和 $(B, T, d_{ff})$ ，最后都收回 $(B, T, d)$ 传给下一层。

附录 A：Cross-Attention#

在 encoder-decoder 架构（如原始 Transformer ¹）中，decoder 的每一层除了 masked self-attention 和 FFN，还有一个 cross-attention 子层。

与 self-attention 的区别只有一点：Q 来自 decoder，K/V 来自 encoder：

Q = X_{\text{dec}} W_Q, \quad K = X_{\text{enc}} W_K, \quad V = X_{\text{enc}} W_V

\text{CrossAttn}(Q, K, V) = \mathrm{softmax}\!\left(\frac{Q K^\top}{\sqrt{d_h}}\right) V

也就是说，decoder 用自己当前的状态去”查询” encoder 的输出。维度流与 self-attention 完全一致，只是 Q 和 K/V 来自不同序列 ²。

在 decoder-only 模型（GPT、LLaMA 等）中不存在 cross-attention，所有 attention 都是 self-attention。

参考#

Vaswani, A., et al. Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762 ↗ ↩ ↩² ↩³ ↩⁴ ↩⁵
Raschka, S. Understanding and Coding Self-Attention, Multi-Head Attention, Cross-Attention, and Causal-Attention in LLMs. sebastianraschka.com ↗ ↩ ↩² ↩³ ↩⁴ ↩⁵

一、符号约定#

二、输入层：token id → embedding#

2.1 Token Embedding#

2.2 Position Embedding#

2.3 第 0 层输入#

三、单层结构：Pre-LN 的 Attention + FFN#

四、Attention 子层：完整维度推导#

4.1 LayerNorm#

4.2 Q / K / V 投影#

4.3 拆成多头#

4.4 计算 attention score#

4.5 加 causal mask#

4.6 softmax → 注意力权重#

4.7 加权求和 V#

4.8 拼接各头 + 输出投影#

4.9 残差连接#

4.10 Self-Attention 完整流程回顾#

五、FFN 子层：升维与降维#

5.1 第一层线性：升维#

5.2 激活函数#

5.3 第二层线性：降回 hidden size#

5.4 残差连接#

六、多层堆叠：维度不变，表示逐层演化#

七、最后一层之后：从 hidden state 到 logits#

八、残差的真正作用：增量叠加#

九、逐层抽象是怎么形成的#

十、三个最容易混淆的矩阵维度#

主干隐藏状态#

每头的 Q / K / V#

Attention 权重#

十一、具体数值例子#

十二、总公式#

附录 A：Cross-Attention#

参考#

Footnotes#