Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #dqn

Apr 8, 2026

强化学习自学教程：从表格方法到大模型对齐

一份教科书级的 RL 全景教程，覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。

2 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- agentic rl
- 教程
- dqn
- 离线rl