章节	内容
第 1 章	RL 全局观 — MDP、Bellman 方程、7 阶段演进路线图
第 2 章	DQN — 经验回放、目标网络、Double/Dueling DQN、Rainbow → BTR
第 3 章	Actor-Critic — 策略梯度、GAE、PPO（四种情况分析）、TRPO、SAC
第 4 章	离线 RL — CQL、IQL、Decision Transformer、Diffuser、Offline-to-Online
第 5 章	世界模型 — DreamerV3、IRIS、Delta-IRIS、SafeDreamer、SIMA 2
第 6 章	大模型对齐 — RLHF → DPO → SimPO → GRPO → DAPO → RLVR
第 7 章	LLM 推理 — o1/o3、DeepSeek-R1、PRM 系列、Tricks or Traps
第 8 章	多智能体 RL — Dec-POMDP、CTDE、SMACv2、MAGRPO
第 9 章	Agentic RL — WebRL、RLEF、DeepSWE、AgentGym、OpenClaw-RL
第 10 章	总结与展望 — 2025-2026 趋势 + 未来预测

涵盖的核心公式#

论文索引（60+ 篇）#

完整论文列表和 arXiv 链接请查看 PDF 中各章节的灰色论文框。

强化学习自学教程：从表格方法到大模型对齐

https://jerry609.github.io/blog/rl-textbook-from-tabular-to-alignment

Author Jerry

Published at April 8, 2026

RL 对齐算法学习笔记：从 PPO 到 DAPO 的演进全景

代码拆解：oh-my-codex 是如何实现 Ralph Loop 的

Comment seems to stuck. Try to refresh?✨