正态分布公式的理论推导、归一化与直观解释#

定义#

一维连续随机变量 $X$ 若服从均值为 $\mu$ 、方差为 $\sigma^2$ 的正态分布，记作：

X\sim \mathcal{N}(\mu,\sigma^2)

其概率密度函数为：

f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中：

$\mu$ 是均值，决定分布中心的位置；
$\sigma$ 是标准差，决定分布的离散程度；
$\sigma^2$ 是方差；
指数项 $e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 决定曲线的钟形结构；
系数 $\frac{1}{\sigma\sqrt{2\pi}}$ 保证曲线下面积等于 $1$ 。

从结构上看，正态分布公式由两部分组成：

e^{-\frac{(x-\mu)^2}{2\sigma^2}}

刻画概率密度随偏离均值程度的衰减规律，而

\frac{1}{\sigma\sqrt{2\pi}}

用于完成概率归一化，使概率密度函数满足：

\int_{-\infty}^{+\infty} f(x)\,dx=1

下面从误差模型、函数方程、高斯积分和线性变换四个角度推导该公式。

1. 指数形式的来源：二维误差模型#

设某次测量或投掷产生二维误差，横向误差为 $x$ ，纵向误差为 $y$ 。假设二维误差关于原点对称，且两个正交方向上的误差服从相同的边缘密度函数 $f$ 。

我们引入两个基本假设。

1.1 误差独立性#

横向误差与纵向误差相互独立，因此二维联合概率密度可写为边缘密度的乘积：

p(x,y)=f(x)f(y)

这表达了一个统计学事实：若两个方向上的误差没有相互影响，则联合出现的概率密度由各自密度相乘得到。

1.2 各向同性或旋转不变性#

若误差没有方向偏好，那么概率密度只应与落点到原点的距离有关。二维平面中距离平方为：

r^2=x^2+y^2

因此联合密度可写作某个函数 $g$ 的形式：

p(x,y)=g(x^2+y^2)

该假设意味着：只要两个点到原点的距离相同，它们具有相同的概率密度。

例如，在一个理想化的飞镖投掷模型中，若投掷者没有固定偏向，风向也没有系统性影响，那么落点云团应围绕靶心近似呈圆形扩散。同一圆周上的点距离靶心相同，所以概率密度相同。

2. 函数方程推导#

由独立性与旋转不变性可得：

f(x)f(y)=g(x^2+y^2)

令 $y=0$ ，得到：

f(x)f(0)=g(x^2)

因此：

g(x^2)=f(x)f(0)

将其推广到 $x^2+y^2$ ，有：

g(x^2+y^2)= f\left(\sqrt{x^2+y^2}\right)f(0)

于是：

f(x)f(y)= f\left(\sqrt{x^2+y^2}\right)f(0)

假设 $f(x)>0$ 且 $f$ 连续。对等式两边取对数：

\log f(x)+\log f(y)= \log f\left(\sqrt{x^2+y^2}\right)+\log f(0)

移项得到：

\bigl(\log f(x)-\log f(0)\bigr) + \bigl(\log f(y)-\log f(0)\bigr) = \log f\left(\sqrt{x^2+y^2}\right)-\log f(0)

定义：

\Phi(t)=\log f(\sqrt{t})-\log f(0)

令：

a=x^2,\qquad b=y^2

则上式化为：

\Phi(a)+\Phi(b)=\Phi(a+b)

这就是柯西加法方程。

在连续性、可测性或局部有界性等自然正则条件下，柯西加法方程的解为线性函数：

\Phi(t)=ct

因此：

\log f(\sqrt{t})-\log f(0)=ct

令 $t=x^2$ ，得到：

\log f(x)-\log f(0)=cx^2

于是：

\log f(x)=\log f(0)+cx^2

两边取指数：

f(x)=f(0)e^{cx^2}

记：

A=f(0)>0

则：

f(x)=Ae^{cx^2}

由于概率密度函数需要在 $|x|\to\infty$ 时趋于 $0$ ，否则积分无法收敛，所以必须有：

c<0

令：

c=-\frac{1}{2\sigma^2}

便得到：

f(x)=Ae^{-\frac{x^2}{2\sigma^2}}

这就是正态分布的核心指数结构。

3. 指数结构的直观含义#

上面的推导说明，正态分布中的平方指数项具有清晰的几何来源。

二维空间中的距离平方满足：

r^2=x^2+y^2

而独立概率密度满足乘法关系：

p(x,y)=f(x)f(y)

指数函数恰好能够把“平方和”转化成“乘积”：

e^{-a(x^2+y^2)} = e^{-ax^2}e^{-ay^2}

因此，正态分布的形式自然适配两个条件：

\text{空间距离平方相加} \quad\longleftrightarrow\quad \text{独立方向概率密度相乘}

平方项来自欧氏距离，指数函数来自独立性的乘法结构。这也是正态分布在误差理论中自然出现的重要原因。

4. 标准正态分布的方差参数#

标准正态分布要求均值为 $0$ ，方差为 $1$ 。先考虑如下形式的密度函数：

f(x)=Ae^{-kx^2}

其中 $k>0$ 。

为了使 $f(x)$ 成为概率密度函数，需要满足：

\int_{-\infty}^{+\infty}Ae^{-kx^2}\,dx=1

利用高斯积分：

\int_{-\infty}^{+\infty}e^{-kx^2}\,dx=\sqrt{\frac{\pi}{k}}

可得：

A\sqrt{\frac{\pi}{k}}=1

因此：

A=\sqrt{\frac{k}{\pi}}

接下来计算方差。由于密度关于 $0$ 对称，均值为：

\mathbb{E}[X]=0

方差为：

\operatorname{Var}(X)=\mathbb{E}[X^2] = \int_{-\infty}^{+\infty}x^2Ae^{-kx^2}\,dx

由高斯积分求导可得：

\int_{-\infty}^{+\infty}x^2e^{-kx^2}\,dx = \frac{\sqrt{\pi}}{2k^{3/2}}

代入 $A=\sqrt{\frac{k}{\pi}}$ ：

\mathbb{E}[X^2] = \sqrt{\frac{k}{\pi}} \cdot \frac{\sqrt{\pi}}{2k^{3/2}} = \frac{1}{2k}

若要求标准正态分布的方差为 $1$ ，则：

\frac{1}{2k}=1

所以：

k=\frac{1}{2}

于是标准正态分布的指数项为：

e^{-\frac{x^2}{2}}

因此标准正态分布的密度函数应具有形式：

f(x)=Ae^{-\frac{x^2}{2}}

接下来只需确定常数 $A$ 。

5. 归一化常数与高斯积分#

标准正态分布必须满足：

\int_{-\infty}^{+\infty}f(x)\,dx=1

设：

f(x)=Ae^{-\frac{x^2}{2}}

则：

A\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx=1

记：

I=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx

该积分在一维实数范围内没有初等原函数。经典做法是计算 $I^2$ ：

I^2 = \left(\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx\right) \left(\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}\,dy\right)

合并成二维积分：

I^2 = \iint_{\mathbb{R}^2} e^{-\frac{x^2+y^2}{2}} \,dx\,dy

由于被积函数非负，上述积分变换可由 Tonelli 定理保证其合法性。

接下来使用极坐标变换：

x=r\cos\theta,\qquad y=r\sin\theta

其中：

x^2+y^2=r^2

雅可比行列式为：

\left|\frac{\partial(x,y)}{\partial(r,\theta)}\right|=r

因此：

dx\,dy=r\,dr\,d\theta

于是：

I^2 = \int_0^{2\pi}\int_0^\infty e^{-\frac{r^2}{2}}r\,dr\,d\theta

将角向积分与径向积分分离：

I^2 = \left(\int_0^{2\pi}d\theta\right) \left(\int_0^\infty e^{-\frac{r^2}{2}}r\,dr\right)

角向积分为：

\int_0^{2\pi}d\theta=2\pi

径向积分中令：

u=\frac{r^2}{2}

则：

du=r\,dr

因此：

\int_0^\infty e^{-\frac{r^2}{2}}r\,dr = \int_0^\infty e^{-u}\,du = 1

所以：

I^2=2\pi

由于 $I>0$ ，得到：

I=\sqrt{2\pi}

因此：

A\sqrt{2\pi}=1

从而：

A=\frac{1}{\sqrt{2\pi}}

于是标准正态分布的概率密度函数为：

\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

这就是标准正态分布：

Z\sim \mathcal{N}(0,1)

的密度函数。

6. 归一化常数的直观解释#

正态曲线可以类比为一座对称的山峰。均值决定山峰的位置，标准差决定山峰的宽窄，而归一化常数决定山峰的高度。

概率密度曲线下方的总面积必须等于 $1$ ：

\int_{-\infty}^{+\infty}f(x)\,dx=1

这对应“所有可能结果的总概率为 $1$ ”。

当曲线变宽时，若高度不变，面积会增大；当曲线变窄时，若高度不变，面积会减小。因此，归一化系数的作用是调节曲线高度，使总面积始终保持为 $1$ 。

对于标准正态分布：

\frac{1}{\sqrt{2\pi}}

负责校准曲线总面积。

对于一般正态分布：

\frac{1}{\sigma\sqrt{2\pi}}

则同时处理标准化后的面积校准和尺度伸缩。

7. 一般正态分布的线性变换#

标准正态分布描述的是：

Z\sim \mathcal{N}(0,1)

若希望构造一个均值为 $\mu$ 、标准差为 $\sigma$ 的随机变量 $X$ ，可令：

X=\mu+\sigma Z

等价地：

Z=\frac{X-\mu}{\sigma}

这就是标准化变换。

标准正态密度为：

\varphi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}

由于：

z=\frac{x-\mu}{\sigma}

并且：

dz=\frac{1}{\sigma}dx

因此概率微元满足：

f_X(x)\,dx=\varphi(z)\,dz

代入 $dz=\frac{1}{\sigma}dx$ ，得到：

f_X(x)\,dx = \varphi\left(\frac{x-\mu}{\sigma}\right) \frac{1}{\sigma}dx

所以：

f_X(x) = \frac{1}{\sigma} \varphi\left(\frac{x-\mu}{\sigma}\right)

将标准正态密度代入：

f_X(x) = \frac{1}{\sigma} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

化简得：

f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

这就是一般正态分布的概率密度函数。

8. 参数的数学意义与物理意义#

8.1 均值 $\mu$ #

均值 $\mu$ 是位置参数，决定分布曲线的中心位置。

当 $\mu$ 增大时，曲线整体向右平移；当 $\mu$ 减小时，曲线整体向左平移。

标准正态分布的中心在 $0$ ：

Z\sim \mathcal{N}(0,1)

一般正态分布的中心在 $\mu$ ：

X\sim \mathcal{N}(\mu,\sigma^2)

因此 $\mu$ 代表最典型、最集中的位置。

8.2 标准差 $\sigma$ #

标准差 $\sigma$ 是尺度参数，控制分布的离散程度。

若 $\sigma$ 较小，数据更集中，曲线更高、更窄；若 $\sigma$ 较大，数据更分散，曲线更矮、更宽。

由于总面积必须为 $1$ ，曲线宽度和高度会相互配合。尺度变大时，横轴方向被拉伸，纵向高度相应降低；尺度变小时，横轴方向被压缩，纵向高度相应升高。

8.3 方差 $\sigma^2$ #

方差定义为：

\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]

它衡量随机变量围绕均值波动的平均平方距离。

在正态分布中， $\sigma^2$ 越大，样本值远离均值的可能性越高； $\sigma^2$ 越小，样本值越倾向于集中在均值附近。

8.4 归一化系数 $\frac{1}{\sigma\sqrt{2\pi}}$ #

该系数保证：

\int_{-\infty}^{+\infty} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \,dx = 1

其中：

$\sqrt{2\pi}$ 来自标准高斯积分；
$\sigma$ 来自尺度变换；
$\frac{1}{\sigma}$ 用于抵消横轴伸缩带来的面积变化。

可以把它理解为概率密度曲线的“面积校准因子”。

9. 指数衰减与异常值直觉#

标准正态分布的指数项为：

e^{-\frac{x^2}{2}}

若用标准化变量：

z=\frac{x-\mu}{\sigma}

表示偏离程度，则密度的核心部分为：

e^{-\frac{z^2}{2}}

当 $z=1$ 时：

e^{-\frac{1}{2}}\approx 0.607

当 $z=2$ 时：

e^{-2}\approx 0.135

当 $z=3$ 时：

e^{-\frac{9}{2}}\approx 0.011

这说明：偏离均值 $1$ 个标准差时，密度仍然较高；偏离 $2$ 个标准差后，密度明显降低；偏离 $3$ 个标准差时，密度已经很小。

平方项让较大的偏差受到更强的指数惩罚，因此正态分布具有“中心集中、两端稀疏”的特征。

10. 三西格玛经验法则#

若：

X\sim \mathcal{N}(\mu,\sigma^2)

则有经典的经验规律：

P(\mu-\sigma\le X\le \mu+\sigma)\approx 68.27\%

P(\mu-2\sigma\le X\le \mu+2\sigma)\approx 95.45\%

P(\mu-3\sigma\le X\le \mu+3\sigma)\approx 99.73\%

这常被称为“三西格玛法则”。

它说明，正态分布的大部分概率质量集中在均值附近：

约 $68.27\%$ 的结果落在均值左右 $1$ 个标准差内；
约 $95.45\%$ 的结果落在均值左右 $2$ 个标准差内；
约 $99.73\%$ 的结果落在均值左右 $3$ 个标准差内。

在测量误差、质量控制、实验数据分析中，这一规律常用于判断观测值是否属于常见波动范围。

11. 例子一：测量误差#

假设某测量仪器的误差近似服从：

X\sim \mathcal{N}(0,2^2)

其中单位为毫米。

这表示：

\mu=0,\qquad \sigma=2

即测量误差平均为 $0$ ，典型波动尺度为 $2$ 毫米。

根据三西格玛法则：

P(-2\le X\le 2)\approx 68.27\%

P(-4\le X\le 4)\approx 95.45\%

P(-6\le X\le 6)\approx 99.73\%

也就是说，大约 $68.27\%$ 的测量误差落在 $[-2,2]$ 毫米内，大约 $95.45\%$ 的测量误差落在 $[-4,4]$ 毫米内，大约 $99.73\%$ 的测量误差落在 $[-6,6]$ 毫米内。

如果某次误差为 $5$ 毫米，则标准化后：

z=\frac{5-0}{2}=2.5

这表示该误差距离平均误差 $2.5$ 个标准差，已经属于相对少见的偏差。

12. 例子二：身高模型#

假设某群体成年男性身高近似服从：

X\sim \mathcal{N}(170,6^2)

其中单位为厘米。

这表示：

\mu=170,\qquad \sigma=6

平均身高为 $170$ 厘米，标准差为 $6$ 厘米。

若某人身高为 $182$ 厘米，则：

z=\frac{182-170}{6}=2

这表示该身高比平均值高出 $2$ 个标准差，处在分布中相对靠右的位置。

若某人身高为 $164$ 厘米，则：

z=\frac{164-170}{6}=-1

这表示该身高比平均值低 $1$ 个标准差，仍属于较常见的波动范围。

标准化变量 $Z$ 的意义在于，它把不同单位、不同尺度的数据统一转换为“距离均值多少个标准差”的形式：

Z=\frac{X-\mu}{\sigma}

因此，一个身高数据、一个考试成绩数据、一个测量误差数据，只要经过标准化处理，就可以放在同一标准坐标下进行比较。

13. 正态分布为什么常见#

正态分布在自然科学、社会科学和工程领域中频繁出现，原因之一来自中心极限定理。

若某个观测量受到许多相互独立、影响较小的随机因素共同作用，那么这些因素之和在适当条件下会趋近于正态分布。

例如：

测量误差可能来自仪器精度、环境温度、操作手法等多种因素；
身高可能受到遗传、营养、生活环境等多种因素影响；
考试成绩可能受到知识掌握、临场状态、题目难度等因素影响。

当许多小扰动叠加时，整体分布往往呈现近似钟形曲线。这解释了正态分布在实际建模中的广泛适用性。

当然，现实数据未必严格服从正态分布。某些数据可能偏态明显，某些数据可能尾部更厚，某些数据可能存在多个峰值。因此，在实际应用中需要结合直方图、QQ 图、偏度、峰度和统计检验判断正态模型是否合适。

14. 总结#

正态分布公式：

f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

具有清晰的数学来源。

首先，二维误差模型中的独立性给出乘法结构：

p(x,y)=f(x)f(y)

其次，各向同性要求概率密度只依赖距离平方：

r^2=x^2+y^2

两者结合后导出指数平方形式：

f(x)=Ae^{-kx^2}

接着，标准正态分布要求方差为 $1$ ，从而确定：

k=\frac{1}{2}

于是得到核心指数项：

e^{-\frac{x^2}{2}}

再通过高斯积分：

\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx=\sqrt{2\pi}

确定标准正态分布的归一化系数：

\frac{1}{\sqrt{2\pi}}

最后通过线性变换：

X=\mu+\sigma Z

得到一般正态分布：

f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中， $\mu$ 完成位置平移， $\sigma$ 完成尺度伸缩，归一化系数保证总概率面积为 $1$ 。正态分布公式因此同时体现了几何对称性、独立性、指数衰减、面积归一化和尺度变换这几种核心数学思想。

正态分布公式的理论推导