Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #强化学习

Jun 7, 2026

形式化建模：RL 是当前策略分布上的 reward-tilting 与 KL 正则投影

从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手，推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。

12 min zh-CN
- rl
- kl
- 强化学习
- llm
- 策略梯度
- ppo
- grpo
Jun 6, 2026

形式化建模：SFT 是外部数据分布上的前向 KL 投影

把自回归语言模型写成有限时域决策过程，并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。

22 min zh-CN
- sft
- kl
- 强化学习
- llm
- 形式化建模
- 策略梯度
May 15, 2026

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN
- 强化学习
- rl
- ppo
- grpo
- 最大熵
- policy gradient
- rlhf
- llm
May 14, 2026

从 REINFORCE 到 PPO

从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。

13 min zh-CN
- 强化学习
- policy gradient
- reinforce
- actor-critic
- gae
- ppo
- rlhf
- llm
May 13, 2026

高斯策略

从高斯分布、归一化常数和最大熵原理出发，推导连续动作空间里的高斯策略公式。

9 min zh-CN
May 10, 2026

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN
- grpo
- deepseek-r1
- rlhf
- ppo
- dpo
- 强化学习
- llm
- 机器学习
Apr 15, 2026

RL 对齐算法学习笔记：从 PPO 到 DAPO 的演进全景

一份系统梳理 RL 对齐算法的学习笔记，覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。

21 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- alignment
- 学习笔记
Apr 8, 2026

强化学习自学教程：从表格方法到大模型对齐

一份教科书级的 RL 全景教程，覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。

2 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- agentic rl
- 教程
- dqn
- 离线rl