Back
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
强化学习
rl
ppo
grpo
最大熵
policy gradient
rlhf
llm
从高斯分布、归一化常数和最大熵原理出发,推导连续动作空间里的高斯策略公式。
概率论
高斯分布
连续控制