Back
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 几何出发,解释 softmax 如何把 logit 结构变成注意力竞争。
llm
transformer
attention
softmax
机制分析