- 理解 GRPO 的 7 个元维度
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
16 min zh-CN - 从极大似然到最小二乘
从残差为什么不能直接相加讲起,解释为什么选择平方误差,以及正态误差假设如何通过极大似然推出最小二乘。
10 min zh-CN - LASSO 教材
LASSO 教材
2 min zh-CN - 数学工具集合
用可推出性串起现代数学总纲,再把最小二乘、Ridge、LASSO、KKT、对偶间隙等工具整理成路线图。
13 min zh-CN - 数学工具 2:Ridge 问题
把 Ridge regression 写成最小二乘加 L2 正则项的问题,解释它惩罚什么、为什么更稳定、解析解如何推导,以及和 LASSO 的区别。
4 min zh-CN - 机器学习理论论文 LaTeX 通用素材库
整理机器学习与 Transformer 理论论文常用写法,覆盖研究问题、定义、定理、引理、公式解释、正文过渡与写作检查清单。
17 min zh-CN