Back
一份系统梳理 RL 对齐算法的学习笔记,覆盖 PPO → DPO → GRPO → GSPO → DAPO 的演进脉络、核心对比、工程选型与知识卡片模板。
强化学习
rl
ppo
dpo
grpo
rlhf
alignment
学习笔记
翻译自 OpenAI Alignment 博客,介绍如何利用 SAE 潜在归因(Latent Attribution)技术定位和调试大模型的对齐问题。
ai
sae
interpretability
翻译