Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #机器学习

May 10, 2026

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN
- grpo
- deepseek-r1
- rlhf
- ppo
- dpo
- 强化学习
- llm
- 机器学习
May 9, 2026

从极大似然到最小二乘

从残差为什么不能直接相加讲起，解释为什么选择平方误差，以及正态误差假设如何通过极大似然推出最小二乘。

10 min zh-CN
May 7, 2026

LASSO 教材

LASSO 教材

2 min zh-CN
- lasso
- 线性代数
- 最小二乘
- 稀疏表示
- 凸优化
- 机器学习
- 教材
May 7, 2026

数学工具集合

用可推出性串起现代数学总纲，再把最小二乘、Ridge、LASSO、KKT、对偶间隙等工具整理成路线图。

13 min zh-CN
- 数学
- 线性代数
- 凸优化
- 机器学习
- lasso
- ridge
- 数学工具集合
May 7, 2026

数学工具 2：Ridge 问题

把 Ridge regression 写成最小二乘加 L2 正则项的问题，解释它惩罚什么、为什么更稳定、解析解如何推导，以及和 LASSO 的区别。

4 min zh-CN
Apr 28, 2026

机器学习理论论文 LaTeX 通用素材库

整理机器学习与 Transformer 理论论文常用写法，覆盖研究问题、定义、定理、引理、公式解释、正文过渡与写作检查清单。

17 min zh-CN