Jerry's Blog

Back

强化学习自学教程:从表格方法到大模型对齐#

一份教科书级的 RL 全景教程,覆盖经典算法到 2026 前沿。每个概念附直觉解释、公式推导、伪代码和实例。

📥 下载 PDF


目录概览#

章节内容
第 1 章RL 全局观 — MDP、Bellman 方程、7 阶段演进路线图
第 2 章DQN — 经验回放、目标网络、Double/Dueling DQN、Rainbow → BTR
第 3 章Actor-Critic — 策略梯度、GAE、PPO(四种情况分析)、TRPO、SAC
第 4 章离线 RL — CQL、IQL、Decision Transformer、Diffuser、Offline-to-Online
第 5 章世界模型 — DreamerV3、IRIS、Delta-IRIS、SafeDreamer、SIMA 2
第 6 章大模型对齐 — RLHF → DPO → SimPO → GRPO → DAPO → RLVR
第 7 章LLM 推理 — o1/o3、DeepSeek-R1、PRM 系列、Tricks or Traps
第 8 章多智能体 RL — Dec-POMDP、CTDE、SMACv2、MAGRPO
第 9 章Agentic RL — WebRL、RLEF、DeepSWE、AgentGym、OpenClaw-RL
第 10 章总结与展望 — 2025-2026 趋势 + 未来预测

涵盖的核心公式#

  • MDP / Bellman 最优方程 / 策略梯度定理 / GAE
  • PPO-Clip / TRPO / SAC 最大熵框架
  • CQL 保守正则化 / IQL 期望分位数回归
  • Decision Transformer 序列建模 / Diffuser 扩散规划
  • Dreamer RSSM 世界模型
  • RLHF 三阶段流水线 / DPO 推导 / GRPO / DAPO
  • Agentic RL POMDP 形式化 / OpenClaw-RL Binary RL + OPD

论文索引(60+ 篇)#

完整论文列表和 arXiv 链接请查看 PDF 中各章节的灰色论文框。

强化学习自学教程:从表格方法到大模型对齐
https://jerry609.github.io/blog/rl-textbook-from-tabular-to-alignment
Author Jerry
Published at April 8, 2026
Comment seems to stuck. Try to refresh?✨