Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #学习笔记

Apr 15, 2026

RL 对齐算法学习笔记：从 PPO 到 DAPO 的演进全景

一份系统梳理 RL 对齐算法的学习笔记，覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。

21 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- alignment
- 学习笔记