Tags: #llm

Jun 7, 2026

形式化建模：RL 是当前策略分布上的 reward-tilting 与 KL 正则投影

从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手，推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。

12 min zh-CN
- rl
- kl
- 强化学习
- llm
- 策略梯度
- ppo
- grpo
Jun 6, 2026

形式化建模：SFT 是外部数据分布上的前向 KL 投影

把自回归语言模型写成有限时域决策过程，并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。

22 min zh-CN
- sft
- kl
- 强化学习
- llm
- 形式化建模
- 策略梯度
May 24, 2026

注意力熵与动态拓扑：从信息路由到隧道视野

把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。

17 min zh-CN
- llm
- transformer
- attention
- 信息熵
- 机制分析
May 24, 2026

Softmax 的几何本质：从相对优势到概率单纯形

从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。

13 min zh-CN
- llm
- transformer
- attention
- softmax
- 机制分析
May 15, 2026

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN
- 强化学习
- rl
- ppo
- grpo
- 最大熵
- policy gradient
- rlhf
- llm
May 14, 2026

从 REINFORCE 到 PPO

从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。

13 min zh-CN
- 强化学习
- policy gradient
- reinforce
- actor-critic
- gae
- ppo
- rlhf
- llm
May 10, 2026

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN
- grpo
- deepseek-r1
- rlhf
- ppo
- dpo
- 强化学习
- llm
- 机器学习
May 7, 2026

SAE 深入理解：从 Superposition 到机制诊断

从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder：它如何把混合 activation 转化为可检验的 feature 假设。

31 min zh-CN

Tags: #llm

形式化建模：RL 是当前策略分布上的 reward-tilting 与 KL 正则投影 从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手，推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。 12 min zh-CN

形式化建模：SFT 是外部数据分布上的前向 KL 投影 把自回归语言模型写成有限时域决策过程，并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。 22 min zh-CN

注意力熵与动态拓扑：从信息路由到隧道视野 把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。 17 min zh-CN

Softmax 的几何本质：从相对优势到概率单纯形 从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。 13 min zh-CN

从普通 RL 到 GRPO 把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。 17 min zh-CN

从 REINFORCE 到 PPO 从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。 13 min zh-CN

理解 GRPO 的 7 个元维度 从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。 16 min zh-CN

SAE 深入理解：从 Superposition 到机制诊断 从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder：它如何把混合 activation 转化为可检验的 feature 假设。 31 min zh-CN

形式化建模：RL 是当前策略分布上的 reward-tilting 与 KL 正则投影

从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手，推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。

12 min zh-CN

形式化建模：SFT 是外部数据分布上的前向 KL 投影

把自回归语言模型写成有限时域决策过程，并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。

22 min zh-CN

注意力熵与动态拓扑：从信息路由到隧道视野

把自注意力看成输入依赖的动态图，用香农熵刻画信息路由宽度，并解释低熵注意力何时有利、何时会造成隧道视野。

17 min zh-CN

Softmax 的几何本质：从相对优势到概率单纯形

从平移不变性、log-odds、log-sum-exp、最大熵优化和 Jacobian 出发，看 softmax 如何把 logit 的相对结构变成注意力中的概率竞争。

13 min zh-CN

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN

从 REINFORCE 到 PPO

从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。

13 min zh-CN

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN

SAE 深入理解：从 Superposition 到机制诊断

从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder：它如何把混合 activation 转化为可检验的 feature 假设。

31 min zh-CN