- 形式化建模:RL 是当前策略分布上的 reward-tilting 与 KL 正则投影
从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手,推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。
12 min zh-CN - 形式化建模:SFT 是外部数据分布上的前向 KL 投影
把自回归语言模型写成有限时域决策过程,并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。
22 min zh-CN - 注意力熵与动态拓扑:从信息路由到隧道视野
把自注意力看成输入依赖的动态图,用香农熵刻画信息路由宽度,并解释低熵注意力何时有利、何时会造成隧道视野。
17 min zh-CN - Softmax 的几何本质:从相对优势到概率单纯形
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发,看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。
13 min zh-CN - 从普通 RL 到 GRPO
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
17 min zh-CN - 从 REINFORCE 到 PPO
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
13 min zh-CN - 理解 GRPO 的 7 个元维度
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
16 min zh-CN - SAE 深入理解:从 Superposition 到机制诊断
从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder:它如何把混合 activation 转化为可检验的 feature 假设。
31 min zh-CN