Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #reinforce

May 14, 2026

从 REINFORCE 到 PPO

从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。

13 min zh-CN
- 强化学习
- policy gradient
- reinforce
- actor-critic
- gae
- ppo
- rlhf
- llm