Jerry's Blog

Back

正态分布公式的理论推导、归一化与直观解释#

定义#

一维连续随机变量 XX 若服从均值为 μ\mu、方差为 σ2\sigma^2 的正态分布,记作:

XN(μ,σ2)X\sim \mathcal{N}(\mu,\sigma^2)

其概率密度函数为:

f(x)=1σ2πe(xμ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中:

  • μ\mu 是均值,决定分布中心的位置;
  • σ\sigma 是标准差,决定分布的离散程度;
  • σ2\sigma^2 是方差;
  • 指数项 e(xμ)22σ2e^{-\frac{(x-\mu)^2}{2\sigma^2}} 决定曲线的钟形结构;
  • 系数 1σ2π\frac{1}{\sigma\sqrt{2\pi}} 保证曲线下面积等于 11

从结构上看,正态分布公式由两部分组成:

e(xμ)22σ2e^{-\frac{(x-\mu)^2}{2\sigma^2}}

刻画概率密度随偏离均值程度的衰减规律,而

1σ2π\frac{1}{\sigma\sqrt{2\pi}}

用于完成概率归一化,使概率密度函数满足:

+f(x)dx=1\int_{-\infty}^{+\infty} f(x)\,dx=1

下面从误差模型、函数方程、高斯积分和线性变换四个角度推导该公式。


1. 指数形式的来源:二维误差模型#

设某次测量或投掷产生二维误差,横向误差为 xx,纵向误差为 yy。假设二维误差关于原点对称,且两个正交方向上的误差服从相同的边缘密度函数 ff

我们引入两个基本假设。

1.1 误差独立性#

横向误差与纵向误差相互独立,因此二维联合概率密度可写为边缘密度的乘积:

p(x,y)=f(x)f(y)p(x,y)=f(x)f(y)

这表达了一个统计学事实:若两个方向上的误差没有相互影响,则联合出现的概率密度由各自密度相乘得到。

1.2 各向同性或旋转不变性#

若误差没有方向偏好,那么概率密度只应与落点到原点的距离有关。二维平面中距离平方为:

r2=x2+y2r^2=x^2+y^2

因此联合密度可写作某个函数 gg 的形式:

p(x,y)=g(x2+y2)p(x,y)=g(x^2+y^2)

该假设意味着:只要两个点到原点的距离相同,它们具有相同的概率密度。

例如,在一个理想化的飞镖投掷模型中,若投掷者没有固定偏向,风向也没有系统性影响,那么落点云团应围绕靶心近似呈圆形扩散。同一圆周上的点距离靶心相同,所以概率密度相同。


2. 函数方程推导#

由独立性与旋转不变性可得:

f(x)f(y)=g(x2+y2)f(x)f(y)=g(x^2+y^2)

y=0y=0,得到:

f(x)f(0)=g(x2)f(x)f(0)=g(x^2)

因此:

g(x2)=f(x)f(0)g(x^2)=f(x)f(0)

将其推广到 x2+y2x^2+y^2,有:

g(x2+y2)=f(x2+y2)f(0)g(x^2+y^2)= f\left(\sqrt{x^2+y^2}\right)f(0)

于是:

f(x)f(y)=f(x2+y2)f(0)f(x)f(y)= f\left(\sqrt{x^2+y^2}\right)f(0)

假设 f(x)>0f(x)>0ff 连续。对等式两边取对数:

logf(x)+logf(y)=logf(x2+y2)+logf(0)\log f(x)+\log f(y)= \log f\left(\sqrt{x^2+y^2}\right)+\log f(0)

移项得到:

(logf(x)logf(0))+(logf(y)logf(0))=logf(x2+y2)logf(0)\bigl(\log f(x)-\log f(0)\bigr) + \bigl(\log f(y)-\log f(0)\bigr) = \log f\left(\sqrt{x^2+y^2}\right)-\log f(0)

定义:

Φ(t)=logf(t)logf(0)\Phi(t)=\log f(\sqrt{t})-\log f(0)

令:

a=x2,b=y2a=x^2,\qquad b=y^2

则上式化为:

Φ(a)+Φ(b)=Φ(a+b)\Phi(a)+\Phi(b)=\Phi(a+b)

这就是柯西加法方程。

在连续性、可测性或局部有界性等自然正则条件下,柯西加法方程的解为线性函数:

Φ(t)=ct\Phi(t)=ct

因此:

logf(t)logf(0)=ct\log f(\sqrt{t})-\log f(0)=ct

t=x2t=x^2,得到:

logf(x)logf(0)=cx2\log f(x)-\log f(0)=cx^2

于是:

logf(x)=logf(0)+cx2\log f(x)=\log f(0)+cx^2

两边取指数:

f(x)=f(0)ecx2f(x)=f(0)e^{cx^2}

记:

A=f(0)>0A=f(0)>0

则:

f(x)=Aecx2f(x)=Ae^{cx^2}

由于概率密度函数需要在 x|x|\to\infty 时趋于 00,否则积分无法收敛,所以必须有:

c<0c<0

令:

c=12σ2c=-\frac{1}{2\sigma^2}

便得到:

f(x)=Aex22σ2f(x)=Ae^{-\frac{x^2}{2\sigma^2}}

这就是正态分布的核心指数结构。


3. 指数结构的直观含义#

上面的推导说明,正态分布中的平方指数项具有清晰的几何来源。

二维空间中的距离平方满足:

r2=x2+y2r^2=x^2+y^2

而独立概率密度满足乘法关系:

p(x,y)=f(x)f(y)p(x,y)=f(x)f(y)

指数函数恰好能够把“平方和”转化成“乘积”:

ea(x2+y2)=eax2eay2e^{-a(x^2+y^2)} = e^{-ax^2}e^{-ay^2}

因此,正态分布的形式自然适配两个条件:

空间距离平方相加独立方向概率密度相乘\text{空间距离平方相加} \quad\longleftrightarrow\quad \text{独立方向概率密度相乘}

平方项来自欧氏距离,指数函数来自独立性的乘法结构。这也是正态分布在误差理论中自然出现的重要原因。


4. 标准正态分布的方差参数#

标准正态分布要求均值为 00,方差为 11。先考虑如下形式的密度函数:

f(x)=Aekx2f(x)=Ae^{-kx^2}

其中 k>0k>0

为了使 f(x)f(x) 成为概率密度函数,需要满足:

+Aekx2dx=1\int_{-\infty}^{+\infty}Ae^{-kx^2}\,dx=1

利用高斯积分:

+ekx2dx=πk\int_{-\infty}^{+\infty}e^{-kx^2}\,dx=\sqrt{\frac{\pi}{k}}

可得:

Aπk=1A\sqrt{\frac{\pi}{k}}=1

因此:

A=kπA=\sqrt{\frac{k}{\pi}}

接下来计算方差。由于密度关于 00 对称,均值为:

E[X]=0\mathbb{E}[X]=0

方差为:

Var(X)=E[X2]=+x2Aekx2dx\operatorname{Var}(X)=\mathbb{E}[X^2] = \int_{-\infty}^{+\infty}x^2Ae^{-kx^2}\,dx

由高斯积分求导可得:

+x2ekx2dx=π2k3/2\int_{-\infty}^{+\infty}x^2e^{-kx^2}\,dx = \frac{\sqrt{\pi}}{2k^{3/2}}

代入 A=kπA=\sqrt{\frac{k}{\pi}}

E[X2]=kππ2k3/2=12k\mathbb{E}[X^2] = \sqrt{\frac{k}{\pi}} \cdot \frac{\sqrt{\pi}}{2k^{3/2}} = \frac{1}{2k}

若要求标准正态分布的方差为 11,则:

12k=1\frac{1}{2k}=1

所以:

k=12k=\frac{1}{2}

于是标准正态分布的指数项为:

ex22e^{-\frac{x^2}{2}}

因此标准正态分布的密度函数应具有形式:

f(x)=Aex22f(x)=Ae^{-\frac{x^2}{2}}

接下来只需确定常数 AA


5. 归一化常数与高斯积分#

标准正态分布必须满足:

+f(x)dx=1\int_{-\infty}^{+\infty}f(x)\,dx=1

设:

f(x)=Aex22f(x)=Ae^{-\frac{x^2}{2}}

则:

A+ex22dx=1A\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx=1

记:

I=+ex22dxI=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx

该积分在一维实数范围内没有初等原函数。经典做法是计算 I2I^2

I2=(+ex22dx)(+ey22dy)I^2 = \left(\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx\right) \left(\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}\,dy\right)

合并成二维积分:

I2=R2ex2+y22dxdyI^2 = \iint_{\mathbb{R}^2} e^{-\frac{x^2+y^2}{2}} \,dx\,dy

由于被积函数非负,上述积分变换可由 Tonelli 定理保证其合法性。

接下来使用极坐标变换:

x=rcosθ,y=rsinθx=r\cos\theta,\qquad y=r\sin\theta

其中:

x2+y2=r2x^2+y^2=r^2

雅可比行列式为:

(x,y)(r,θ)=r\left|\frac{\partial(x,y)}{\partial(r,\theta)}\right|=r

因此:

dxdy=rdrdθdx\,dy=r\,dr\,d\theta

于是:

I2=02π0er22rdrdθI^2 = \int_0^{2\pi}\int_0^\infty e^{-\frac{r^2}{2}}r\,dr\,d\theta

将角向积分与径向积分分离:

I2=(02πdθ)(0er22rdr)I^2 = \left(\int_0^{2\pi}d\theta\right) \left(\int_0^\infty e^{-\frac{r^2}{2}}r\,dr\right)

角向积分为:

02πdθ=2π\int_0^{2\pi}d\theta=2\pi

径向积分中令:

u=r22u=\frac{r^2}{2}

则:

du=rdrdu=r\,dr

因此:

0er22rdr=0eudu=1\int_0^\infty e^{-\frac{r^2}{2}}r\,dr = \int_0^\infty e^{-u}\,du = 1

所以:

I2=2πI^2=2\pi

由于 I>0I>0,得到:

I=2πI=\sqrt{2\pi}

因此:

A2π=1A\sqrt{2\pi}=1

从而:

A=12πA=\frac{1}{\sqrt{2\pi}}

于是标准正态分布的概率密度函数为:

φ(x)=12πex22\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

这就是标准正态分布:

ZN(0,1)Z\sim \mathcal{N}(0,1)

的密度函数。


6. 归一化常数的直观解释#

正态曲线可以类比为一座对称的山峰。均值决定山峰的位置,标准差决定山峰的宽窄,而归一化常数决定山峰的高度。

概率密度曲线下方的总面积必须等于 11

+f(x)dx=1\int_{-\infty}^{+\infty}f(x)\,dx=1

这对应“所有可能结果的总概率为 11”。

当曲线变宽时,若高度不变,面积会增大;当曲线变窄时,若高度不变,面积会减小。因此,归一化系数的作用是调节曲线高度,使总面积始终保持为 11

对于标准正态分布:

12π\frac{1}{\sqrt{2\pi}}

负责校准曲线总面积。

对于一般正态分布:

1σ2π\frac{1}{\sigma\sqrt{2\pi}}

则同时处理标准化后的面积校准和尺度伸缩。


7. 一般正态分布的线性变换#

标准正态分布描述的是:

ZN(0,1)Z\sim \mathcal{N}(0,1)

若希望构造一个均值为 μ\mu、标准差为 σ\sigma 的随机变量 XX,可令:

X=μ+σZX=\mu+\sigma Z

等价地:

Z=XμσZ=\frac{X-\mu}{\sigma}

这就是标准化变换。

标准正态密度为:

φ(z)=12πez22\varphi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}

由于:

z=xμσz=\frac{x-\mu}{\sigma}

并且:

dz=1σdxdz=\frac{1}{\sigma}dx

因此概率微元满足:

fX(x)dx=φ(z)dzf_X(x)\,dx=\varphi(z)\,dz

代入 dz=1σdxdz=\frac{1}{\sigma}dx,得到:

fX(x)dx=φ(xμσ)1σdxf_X(x)\,dx = \varphi\left(\frac{x-\mu}{\sigma}\right) \frac{1}{\sigma}dx

所以:

fX(x)=1σφ(xμσ)f_X(x) = \frac{1}{\sigma} \varphi\left(\frac{x-\mu}{\sigma}\right)

将标准正态密度代入:

fX(x)=1σ12πe12(xμσ)2f_X(x) = \frac{1}{\sigma} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

化简得:

fX(x)=1σ2πe(xμ)22σ2f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

这就是一般正态分布的概率密度函数。


8. 参数的数学意义与物理意义#

8.1 均值 μ\mu#

均值 μ\mu 是位置参数,决定分布曲线的中心位置。

μ\mu 增大时,曲线整体向右平移;当 μ\mu 减小时,曲线整体向左平移。

标准正态分布的中心在 00

ZN(0,1)Z\sim \mathcal{N}(0,1)

一般正态分布的中心在 μ\mu

XN(μ,σ2)X\sim \mathcal{N}(\mu,\sigma^2)

因此 μ\mu 代表最典型、最集中的位置。


8.2 标准差 σ\sigma#

标准差 σ\sigma 是尺度参数,控制分布的离散程度。

σ\sigma 较小,数据更集中,曲线更高、更窄;若 σ\sigma 较大,数据更分散,曲线更矮、更宽。

由于总面积必须为 11,曲线宽度和高度会相互配合。尺度变大时,横轴方向被拉伸,纵向高度相应降低;尺度变小时,横轴方向被压缩,纵向高度相应升高。


8.3 方差 σ2\sigma^2#

方差定义为:

Var(X)=E[(Xμ)2]\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]

它衡量随机变量围绕均值波动的平均平方距离。

在正态分布中,σ2\sigma^2 越大,样本值远离均值的可能性越高;σ2\sigma^2 越小,样本值越倾向于集中在均值附近。


8.4 归一化系数 1σ2π\frac{1}{\sigma\sqrt{2\pi}}#

该系数保证:

+1σ2πe(xμ)22σ2dx=1\int_{-\infty}^{+\infty} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \,dx = 1

其中:

  • 2π\sqrt{2\pi} 来自标准高斯积分;
  • σ\sigma 来自尺度变换;
  • 1σ\frac{1}{\sigma} 用于抵消横轴伸缩带来的面积变化。

可以把它理解为概率密度曲线的“面积校准因子”。


9. 指数衰减与异常值直觉#

标准正态分布的指数项为:

ex22e^{-\frac{x^2}{2}}

若用标准化变量:

z=xμσz=\frac{x-\mu}{\sigma}

表示偏离程度,则密度的核心部分为:

ez22e^{-\frac{z^2}{2}}

z=1z=1 时:

e120.607e^{-\frac{1}{2}}\approx 0.607

z=2z=2 时:

e20.135e^{-2}\approx 0.135

z=3z=3 时:

e920.011e^{-\frac{9}{2}}\approx 0.011

这说明:偏离均值 11 个标准差时,密度仍然较高;偏离 22 个标准差后,密度明显降低;偏离 33 个标准差时,密度已经很小。

平方项让较大的偏差受到更强的指数惩罚,因此正态分布具有“中心集中、两端稀疏”的特征。


10. 三西格玛经验法则#

若:

XN(μ,σ2)X\sim \mathcal{N}(\mu,\sigma^2)

则有经典的经验规律:

P(μσXμ+σ)68.27%P(\mu-\sigma\le X\le \mu+\sigma)\approx 68.27\% P(μ2σXμ+2σ)95.45%P(\mu-2\sigma\le X\le \mu+2\sigma)\approx 95.45\% P(μ3σXμ+3σ)99.73%P(\mu-3\sigma\le X\le \mu+3\sigma)\approx 99.73\%

这常被称为“三西格玛法则”。

它说明,正态分布的大部分概率质量集中在均值附近:

  • 68.27%68.27\% 的结果落在均值左右 11 个标准差内;
  • 95.45%95.45\% 的结果落在均值左右 22 个标准差内;
  • 99.73%99.73\% 的结果落在均值左右 33 个标准差内。

在测量误差、质量控制、实验数据分析中,这一规律常用于判断观测值是否属于常见波动范围。


11. 例子一:测量误差#

假设某测量仪器的误差近似服从:

XN(0,22)X\sim \mathcal{N}(0,2^2)

其中单位为毫米。

这表示:

μ=0,σ=2\mu=0,\qquad \sigma=2

即测量误差平均为 00,典型波动尺度为 22 毫米。

根据三西格玛法则:

P(2X2)68.27%P(-2\le X\le 2)\approx 68.27\% P(4X4)95.45%P(-4\le X\le 4)\approx 95.45\% P(6X6)99.73%P(-6\le X\le 6)\approx 99.73\%

也就是说,大约 68.27%68.27\% 的测量误差落在 [2,2][-2,2] 毫米内,大约 95.45%95.45\% 的测量误差落在 [4,4][-4,4] 毫米内,大约 99.73%99.73\% 的测量误差落在 [6,6][-6,6] 毫米内。

如果某次误差为 55 毫米,则标准化后:

z=502=2.5z=\frac{5-0}{2}=2.5

这表示该误差距离平均误差 2.52.5 个标准差,已经属于相对少见的偏差。


12. 例子二:身高模型#

假设某群体成年男性身高近似服从:

XN(170,62)X\sim \mathcal{N}(170,6^2)

其中单位为厘米。

这表示:

μ=170,σ=6\mu=170,\qquad \sigma=6

平均身高为 170170 厘米,标准差为 66 厘米。

若某人身高为 182182 厘米,则:

z=1821706=2z=\frac{182-170}{6}=2

这表示该身高比平均值高出 22 个标准差,处在分布中相对靠右的位置。

若某人身高为 164164 厘米,则:

z=1641706=1z=\frac{164-170}{6}=-1

这表示该身高比平均值低 11 个标准差,仍属于较常见的波动范围。

标准化变量 ZZ 的意义在于,它把不同单位、不同尺度的数据统一转换为“距离均值多少个标准差”的形式:

Z=XμσZ=\frac{X-\mu}{\sigma}

因此,一个身高数据、一个考试成绩数据、一个测量误差数据,只要经过标准化处理,就可以放在同一标准坐标下进行比较。


13. 正态分布为什么常见#

正态分布在自然科学、社会科学和工程领域中频繁出现,原因之一来自中心极限定理。

若某个观测量受到许多相互独立、影响较小的随机因素共同作用,那么这些因素之和在适当条件下会趋近于正态分布。

例如:

  • 测量误差可能来自仪器精度、环境温度、操作手法等多种因素;
  • 身高可能受到遗传、营养、生活环境等多种因素影响;
  • 考试成绩可能受到知识掌握、临场状态、题目难度等因素影响。

当许多小扰动叠加时,整体分布往往呈现近似钟形曲线。这解释了正态分布在实际建模中的广泛适用性。

当然,现实数据未必严格服从正态分布。某些数据可能偏态明显,某些数据可能尾部更厚,某些数据可能存在多个峰值。因此,在实际应用中需要结合直方图、QQ 图、偏度、峰度和统计检验判断正态模型是否合适。


14. 总结#

正态分布公式:

f(x)=1σ2πe(xμ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

具有清晰的数学来源。

首先,二维误差模型中的独立性给出乘法结构:

p(x,y)=f(x)f(y)p(x,y)=f(x)f(y)

其次,各向同性要求概率密度只依赖距离平方:

r2=x2+y2r^2=x^2+y^2

两者结合后导出指数平方形式:

f(x)=Aekx2f(x)=Ae^{-kx^2}

接着,标准正态分布要求方差为 11,从而确定:

k=12k=\frac{1}{2}

于是得到核心指数项:

ex22e^{-\frac{x^2}{2}}

再通过高斯积分:

+ex22dx=2π\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}\,dx=\sqrt{2\pi}

确定标准正态分布的归一化系数:

12π\frac{1}{\sqrt{2\pi}}

最后通过线性变换:

X=μ+σZX=\mu+\sigma Z

得到一般正态分布:

f(x)=1σ2πe(xμ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中,μ\mu 完成位置平移,σ\sigma 完成尺度伸缩,归一化系数保证总概率面积为 11。正态分布公式因此同时体现了几何对称性、独立性、指数衰减、面积归一化和尺度变换这几种核心数学思想。

正态分布公式的理论推导
https://jerry609.github.io/blog/normal-distribution-derivation
Author Jerry
Published at May 11, 2026
Comment seems to stuck. Try to refresh?✨