- 形式化建模:SFT 是外部数据分布上的前向 KL 投影
把自回归语言模型写成有限时域决策过程,并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。
22 min zh-CN - 从普通 RL 到 GRPO
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
17 min zh-CN - 从 REINFORCE 到 PPO
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
13 min zh-CN - 高斯策略
从高斯分布、归一化常数和最大熵原理出发,推导连续动作空间里的高斯策略公式。
9 min zh-CN - 理解 GRPO 的 7 个元维度
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
16 min zh-CN - RL 对齐算法学习笔记:从 PPO 到 DAPO 的演进全景
一份系统梳理 RL 对齐算法的学习笔记,覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。
21 min zh-CN - 强化学习自学教程:从表格方法到大模型对齐
一份教科书级的 RL 全景教程,覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。
2 min zh-CN