Blog Math Roadmap Murmurs Photos Projects Links About

Back

Blog

Page 2 - Showing 8 of 71 posts View all posts by years →

May 13, 2026

高斯策略

从高斯分布、归一化常数和最大熵原理出发，推导连续动作空间里的高斯策略公式。

9 min zh-CN
May 11, 2026

正态分布公式的理论推导

从误差模型、函数方程、高斯积分和线性变换推导正态分布公式，并解释归一化常数、参数意义和三西格玛法则。

17 min zh-CN
May 10, 2026

理解 GRPO 的 7 个元维度

从 PPO 的 critic 成本讲起，推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline，并用 clipping 与 KL 稳定更新。

16 min zh-CN
- grpo
- deepseek-r1
- rlhf
- ppo
- dpo
- 强化学习
- llm
- 机器学习
May 9, 2026

从极大似然到最小二乘

从残差为什么不能直接相加讲起，解释为什么选择平方误差，以及正态误差假设如何通过极大似然推出最小二乘。

10 min zh-CN
May 7, 2026

LASSO 教材

LASSO 教材

2 min zh-CN
- lasso
- 线性代数
- 最小二乘
- 稀疏表示
- 凸优化
- 机器学习
- 教材
May 7, 2026

数学工具集合

用可推出性串起现代数学总纲，再把最小二乘、Ridge、LASSO、KKT、对偶间隙等工具整理成路线图。

13 min zh-CN
- 数学
- 线性代数
- 凸优化
- 机器学习
- lasso
- ridge
- 数学工具集合
May 7, 2026

数学工具 2：Ridge 问题

把 Ridge regression 写成最小二乘加 L2 正则项的问题，解释它惩罚什么、为什么更稳定、解析解如何推导，以及和 LASSO 的区别。

4 min zh-CN
May 7, 2026

SAE 深入理解：从 Superposition 到机制诊断

从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder：它如何把混合 activation 转化为可检验的 feature 假设。

31 min zh-CN