Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #最大熵

May 15, 2026

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN
- 强化学习
- rl
- ppo
- grpo
- 最大熵
- policy gradient
- rlhf
- llm
May 13, 2026

高斯策略

从高斯分布、归一化常数和最大熵原理出发，推导连续动作空间里的高斯策略公式。

9 min zh-CN