Back
从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发,把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。
transformer
gradient
random-matrix
lyapunov-exponent
optimization