Back
从高斯分布、归一化常数和最大熵原理出发,推导连续动作空间里的高斯策略公式。
强化学习
概率论
高斯分布
最大熵
连续控制
从误差模型、函数方程、高斯积分和线性变换推导正态分布公式,并解释归一化常数、参数意义和三西格玛法则。
数学
统计学
正态分布
高斯积分