Back
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
grpo
deepseek-r1
rlhf
ppo
dpo
强化学习
llm
机器学习