Back
一份教科书级的 RL 全景教程,覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。
强化学习
rl
ppo
dpo
grpo
rlhf
agentic rl
教程
dqn
离线rl