Back
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
强化学习
policy gradient
reinforce
actor-critic
gae
ppo
rlhf
llm