- 从普通 RL 到 GRPO
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
17 min zh-CN - 从 REINFORCE 到 PPO
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
13 min zh-CN - 理解 GRPO 的 7 个元维度
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
16 min zh-CN - RL 对齐算法学习笔记:从 PPO 到 DAPO 的演进全景
一份系统梳理 RL 对齐算法的学习笔记,覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。
21 min zh-CN - 强化学习自学教程:从表格方法到大模型对齐
一份教科书级的 RL 全景教程,覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。
2 min zh-CN