Back
点积的几何意义、为什么不能用 XXᵀ、以及 Attention 学到的'关系'到底是什么。
llm
transformer
attention
专题
非负、归一化、放大差异但不绝对独占——softmax 如何把分数变成信息分配比例。
一套完整的 Attention 学习路径,覆盖直觉、公式、变体和工程实现。
学习路径