- RL 对齐算法学习笔记:从 PPO 到 DAPO 的演进全景
一份系统梳理 RL 对齐算法的学习笔记,覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。
21 min zh-CN - 强化学习自学教程:从表格方法到大模型对齐
一份教科书级的 RL 全景教程,覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。
2 min zh-CN - DeepSeek-V3.2:将思维过程整合到工具使用中
DeepSeek-V3.2 模型实现卓越 Agentic 能力的关键技术突破:思维上下文管理、冷启动机制及大规模 Agentic 任务合成。
12 min