Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #rl

Jun 7, 2026

形式化建模：RL 是当前策略分布上的 reward-tilting 与 KL 正则投影

从策略梯度、轨迹级 KL 正则化和状态级局部策略改进入手，推导 RL 中 reward-tilted Gibbs 分布与 Boltzmann teacher。

12 min zh-CN
- rl
- kl
- 强化学习
- llm
- 策略梯度
- ppo
- grpo
May 15, 2026

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN
- 强化学习
- rl
- ppo
- grpo
- 最大熵
- policy gradient
- rlhf
- llm
Apr 15, 2026

RL 对齐算法学习笔记：从 PPO 到 DAPO 的演进全景

一份系统梳理 RL 对齐算法的学习笔记，覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。

21 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- alignment
- 学习笔记
Apr 8, 2026

强化学习自学教程：从表格方法到大模型对齐

一份教科书级的 RL 全景教程，覆盖 Q-Learning → DQN → PPO → SAC → 离线 RL → 世界模型 → RLHF/DPO/GRPO → Agentic RL。每个概念附直觉解释、公式推导、伪代码和实例。60+ 篇论文附 arXiv 链接。

2 min zh-CN
- 强化学习
- rl
- ppo
- dpo
- grpo
- rlhf
- agentic rl
- 教程
- dqn
- 离线rl
Dec 3, 2025

DeepSeek-V3.2：将思维过程整合到工具使用中

DeepSeek-V3.2 模型实现卓越 Agentic 能力的关键技术突破：思维上下文管理、冷启动机制及大规模 Agentic 任务合成。

12 min
- ai
- deepseek
- agent
- tool-use
- paper
- rl