Back
非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。
llm
transformer
attention
专题
一套完整的 Attention 学习路径,覆盖直觉、公式、变体和工程实现。
学习路径