Jerry's Blog
Blog
Math
Roadmap
Murmurs
Photos
Projects
Links
About
Search
Dark Theme
Menu
Back
Tags:
#策略梯度
Jun 6, 2026
形式化建模:SFT 是外部数据分布上的前向 KL 投影
把自回归语言模型写成有限时域决策过程,并推导 SFT 目标在外部数据分布上的前向 KL 分解、最优解和 logits 梯度。
22 min
zh-CN
sft
kl
强化学习
llm
形式化建模
策略梯度