Back
把自注意力看成输入依赖的动态图,用香农熵刻画信息路由宽度,并解释低熵注意力何时有利、何时会造成隧道视野。
llm
transformer
attention
信息熵
机制分析
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 几何出发,解释 softmax 如何把 logit 结构变成注意力竞争。
softmax