Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #deepseek-r1

May 10, 2026

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN
- grpo
- deepseek-r1
- rlhf
- ppo
- dpo
- 强化学习
- llm
- 机器学习