Page 2 - Showing 8 of 71 posts
View all posts by years →
- 高斯策略
从高斯分布、归一化常数和最大熵原理出发,推导连续动作空间里的高斯策略公式。
9 min zh-CN - 正态分布公式的理论推导
从误差模型、函数方程、高斯积分和线性变换推导正态分布公式,并解释归一化常数、参数意义和三西格玛法则。
17 min zh-CN - 理解 GRPO 的 7 个元维度
从 PPO 的 critic 成本讲起,推导 GRPO 如何用同题多答案的组内相对奖励替代 value baseline,并用 clipping 与 KL 稳定更新。
16 min zh-CN - 从极大似然到最小二乘
从残差为什么不能直接相加讲起,解释为什么选择平方误差,以及正态误差假设如何通过极大似然推出最小二乘。
10 min zh-CN - LASSO 教材
LASSO 教材
2 min zh-CN - 数学工具集合
用可推出性串起现代数学总纲,再把最小二乘、Ridge、LASSO、KKT、对偶间隙等工具整理成路线图。
13 min zh-CN - 数学工具 2:Ridge 问题
把 Ridge regression 写成最小二乘加 L2 正则项的问题,解释它惩罚什么、为什么更稳定、解析解如何推导,以及和 LASSO 的区别。
4 min zh-CN - SAE 深入理解:从 Superposition 到机制诊断
从重构、稀疏字典、superposition 和干预验证角度理解 Sparse Autoencoder:它如何把混合 activation 转化为可检验的 feature 假设。
31 min zh-CN