Back
从 LayerNorm 反向传播和平均场尺度分析出发,解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。
transformer
layernorm
warmup
optimization
paper-reading
从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发,把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。
gradient
random-matrix
lyapunov-exponent