强化学习自学教程:从表格方法到大模型对齐#
一份教科书级的 RL 全景教程,覆盖经典算法到 2026 前沿。每个概念附直觉解释、公式推导、伪代码和实例。
📥 下载 PDF
目录概览#
| 章节 | 内容 |
|---|---|
| 第 1 章 | RL 全局观 — MDP、Bellman 方程、7 阶段演进路线图 |
| 第 2 章 | DQN — 经验回放、目标网络、Double/Dueling DQN、Rainbow → BTR |
| 第 3 章 | Actor-Critic — 策略梯度、GAE、PPO(四种情况分析)、TRPO、SAC |
| 第 4 章 | 离线 RL — CQL、IQL、Decision Transformer、Diffuser、Offline-to-Online |
| 第 5 章 | 世界模型 — DreamerV3、IRIS、Delta-IRIS、SafeDreamer、SIMA 2 |
| 第 6 章 | 大模型对齐 — RLHF → DPO → SimPO → GRPO → DAPO → RLVR |
| 第 7 章 | LLM 推理 — o1/o3、DeepSeek-R1、PRM 系列、Tricks or Traps |
| 第 8 章 | 多智能体 RL — Dec-POMDP、CTDE、SMACv2、MAGRPO |
| 第 9 章 | Agentic RL — WebRL、RLEF、DeepSWE、AgentGym、OpenClaw-RL |
| 第 10 章 | 总结与展望 — 2025-2026 趋势 + 未来预测 |
涵盖的核心公式#
- MDP / Bellman 最优方程 / 策略梯度定理 / GAE
- PPO-Clip / TRPO / SAC 最大熵框架
- CQL 保守正则化 / IQL 期望分位数回归
- Decision Transformer 序列建模 / Diffuser 扩散规划
- Dreamer RSSM 世界模型
- RLHF 三阶段流水线 / DPO 推导 / GRPO / DAPO
- Agentic RL POMDP 形式化 / OpenClaw-RL Binary RL + OPD
论文索引(60+ 篇)#
完整论文列表和 arXiv 链接请查看 PDF 中各章节的灰色论文框。