Page 1 - Showing 8 of 71 posts
View all posts by years →
- 形式化建模:RL 是当前策略分布上的 reward-tilting 与 KL 正则投影
从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手,推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。
12 min zh-CN - 形式化建模:SFT 是外部数据分布上的前向 KL 投影
把自回归语言模型写成有限时域决策过程,并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。
22 min zh-CN - 注意力熵与动态拓扑:从信息路由到隧道视野
把自注意力看成输入依赖的动态图,用香农熵刻画信息路由宽度,并解释低熵注意力何时有利、何时会造成隧道视野。
17 min zh-CN - Softmax 的几何本质:从相对优势到概率单纯形
从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发,看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。
13 min zh-CN - Post-LN Transformer 为什么需要 Warmup?
从 LayerNorm 反向传播和平均场尺度分析出发,解释 Post-LN 初始化阶段的层间梯度失衡以及 warmup 的作用。
16 min zh-CN - 从谱半径到随机 Jacobian 连乘
从 Gelfand 谱半径公式、标量随机乘积和 Furstenberg-Kesten 定理出发,把 Transformer 梯度传播写成随机 Jacobian 乘积的指数率问题。
12 min zh-CN - 从普通 RL 到 GRPO
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
17 min zh-CN - 从 REINFORCE 到 PPO
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
13 min zh-CN