概率分布











概率分布(德語:Wahrscheinlichkeitsverteilung英语:probability distribution)或簡稱分布,是概率論的一個概念。使用時可以有以下兩種含義:


  • 廣義地,它指稱隨機變量的概率性質--當我們說概率空間,F,P){displaystyle (Omega ,{mathcal {F}},mathbb {P} )}(Omega ,{mathcal {F}},mathbb {P} )中的兩個隨機變量XY具有同樣的分布(或同分布)時,我們是無法用概率P{displaystyle mathbb {P} }mathbb {P} 來區別他們的。換言之:


XY為同分布的隨機變量,當且僅當對任意事件A∈F{displaystyle Ain {mathcal {F}}}Ain {mathcal {F}},有P(X∈A)=P(Y∈A){displaystyle mathbb {P} (Xin A)=mathbb {P} (Yin A)}mathbb {P} (Xin A)=mathbb {P} (Yin A)成立。



但是,不能認為同分布的隨機變量是相同的隨機變量。事實上即使XY同分布,也可以没有任何點ω使得X(ω)=Y(ω)。在這個意義下,可以把隨機變量分類,每一類稱作一個分布,其中的所有隨機變量都同分布。用更簡要的語言來說,同分布是一種等價關係,每一個等價類就是一個分布。需注意的是,通常談到的離散分布、均勻分布、伯努利分布、正態分布、泊松分布等,都是指各種類型的分布,而不能視作一個分布。


  • 狹義地,它是指隨機變量的概率分布函數。設X是樣本空間,F){displaystyle (Omega ,{mathcal {F}})}(Omega ,{mathcal {F}})上的隨機變量,P{displaystyle mathbb {P} }mathbb {P} 為概率測度,則稱如下定義的函數是X的分布函數(德語:Verteilungsfunktion英语:distribution function),或稱累積分布函數(德語:kumulative Verteilungsfunktion英语:cumulative distribution function,簡稱CDF):


FX(a)=P(X≤a){displaystyle F_{X}(a)=mathbb {P} (Xleq a)}{displaystyle F_{X}(a)=mathbb {P} (Xleq a)},對任意實數a{displaystyle a}a定義。



具有相同分布函數的隨機變量一定是同分布的,因此可以用分布函數來描述一個分布,但更常用的描述手段是概率密度函數(德語:Wahrscheinlichkeitsdichtefunktion英语:probability density function, pdf)。


  • 在常用的文獻中,「分布」一詞可指其廣義和狹義,而「累計分布函數」或「分布函數」一詞只能指稱後者。為了不致混淆,下文中談及上述的廣義時使用「分布」一詞;狹義時使用「分布函數」一詞。



目录






  • 1 分布函數的性質刻劃


  • 2 隨機變量的分布


  • 3 离散分布


    • 3.1 均匀分布


    • 3.2 二项分布


    • 3.3 正态分布


    • 3.4 几何分布


    • 3.5 超几何分布


      • 3.5.1 超几何分布和二项分布的关系




    • 3.6 泊松近似




  • 4 连续分布


    • 4.1 均匀分布


    • 4.2 指数分布


    • 4.3 伽马分布


    • 4.4 正态分布


      • 4.4.1 正态分布和二项分布






  • 5 外部链接


  • 6 参考文献


  • 7 參見





分布函數的性質刻劃


對於特定的隨機變量 X{displaystyle X}X,其分布函數FX{displaystyle F_{X}}F_{X}是單調不減及右連續,而且FX(−)=0{displaystyle F_{X}(-infty )=0}F_{X}(-infty )=0FX(∞)=1{displaystyle F_{X}(infty )=1}F_{X}(infty )=1。這些性質反過來也描述了所有可能成為分布函數的函數:


  • F:[−,∞]→[0,1],F(−)=0,F(∞)=1{displaystyle F:[-infty ,infty ]to [0,1],F(-infty )=0,F(infty )=1}F:[-infty ,infty ]to [0,1],F(-infty )=0,F(infty )=1且單調不減、右連續,則存在概率空間,F,P){displaystyle (Omega ,{mathcal {F}},mathbb {P} )}(Omega ,{mathcal {F}},mathbb {P} )及其上的隨機變量 X ,使得 FX 的分布函數,即 FX=F{displaystyle F_{X}=F}F_{X}=F


隨機變量的分布


P{displaystyle P}P為概率測度,X{displaystyle X}X為隨機變量,則函數
F(x)=P(X≤x){displaystyle F(x)=P(Xleq x)}F(x)=P(Xleq x)     (x∈R{displaystyle xin mathbb {R} }xin mathbb {R} )
稱為X{displaystyle X}X的概率分布函數。如果将X{displaystyle X}X看成是数轴上的随机点的坐标,那么,分布函数F(x){displaystyle F(x)}F(x)x{displaystyle x}x处的函数值就表示X{displaystyle X}X落在区间(−,x]{displaystyle (-infty ,x]}(-infty ,x]上的概率。


例如,設隨機變量X{displaystyle X}X為擲兩次骰子所得的點數差,而整个樣本空間由36个元素组成。




















































数量

( i , j )∈ S

x{displaystyle x}x

P(X=x){displaystyle P(X=x)}P(X=x)

F(x){displaystyle F(x)}F(x)
6 ( 1,1 ),( 2,2 ),( 3,3 )
( 4,4 ),( 5,5 ),( 6,6 )
0 6/36 6/36
10 ( 1,2 ),( 2,3 )
( 3,4 ),( 4,5 ),( 5,6 )
( 2,1 ),( 3,2 ),( 4,3 )
( 5,4 ),( 6,5 )
1 10/36 16/36
8 ( 1,3 ),( 2,4 ),( 3,5 )
( 4,6 ),( 3,1 ),( 4,2 )
( 5,3 ),( 6,4 )
2 8/36 24/36
6 ( 1,4 ),( 2,5 ),( 3,6 )
( 4,1 ),( 5,2 ),( 6,3 )
3 6/36 30/36
4 ( 1,5 ),( 2,6 )
( 5,1 ),( 6,2 )
4 4/36 34/36
2 ( 1,6 ),( 6,1 ) 5 2/36 36/36

其分布函数是:


F(x)={0,x<06/36,0≤x<116/36,1≤x<224/36,2≤x<330/36,3≤x<434/36,4≤x<51,5≤x{displaystyle F(x)={begin{cases}0,x<0\6/36,0leq x<1\16/36,1leq x<2\24/36,2leq x<3\30/36,3leq x<4\34/36,4leq x<5\1,5leq xend{cases}}}{displaystyle F(x)={begin{cases}0,x<0\6/36,0leq x<1\16/36,1leq x<2\24/36,2leq x<3\30/36,3leq x<4\34/36,4leq x<5\1,5leq xend{cases}}}


离散分布


上面所列举的例子属于离散分布,即分布函数的值域是離散的,比如只取整數值的隨機變量就是屬於離散分布的。F(x){displaystyle F(x)}F(x)表示随机变量X≤x{displaystyle Xleq x}Xleq x的概率值。如果X的取值只有x1<x2<...<xn{displaystyle x_{1}<x_{2}<...<x_{n}}x_{1}<x_{2}<...<x_{n},則:



  • FX(xi)=∑j=1iP(xj){displaystyle F_{X}(x_{i})=sum _{j=1}^{i}P(x_{j})}F_{X}(x_{i})=sum _{j=1}^{i}P(x_{j})

  • k=1nP(xk)=1{displaystyle sum _{k=1}^{n}P(x_{k})=1}{displaystyle sum _{k=1}^{n}P(x_{k})=1}



均匀分布




二项分布



二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为p{displaystyle p}p,那么在n{displaystyle n}n次试验中出现k{displaystyle k}k次的概率为:


f(n,k,p)=(nk)pk(1−p)n−k{displaystyle f(n,k,p)={n choose k}p^{k}(1-p)^{n-k}}f(n,k,p)={n choose k}p^{k}(1-p)^{n-k}

例如,在掷3次骰子中,不出现6点的概率是:f(3,0,16)=(30)(16)0(56)3=0.579{displaystyle f(3,0,{frac {1}{6}})={3 choose 0}left({frac {1}{6}}right)^{0}left({frac {5}{6}}right)^{3}=0.579}f(3,0,{frac {1}{6}})={3 choose 0}left({frac {1}{6}}right)^{0}left({frac {5}{6}}right)^{3}=0.579
在连续两次的轮盘游戏中,至少出现一次红色的概率为:f(2,1,1837)+f(2,2,1837)=0.736{displaystyle f(2,1,{frac {18}{37}})+f(2,2,{frac {18}{37}})=0.736}f(2,1,{frac {18}{37}})+f(2,2,{frac {18}{37}})=0.736




二项分布在p=0.5{displaystyle p=0.5}p=0.5时的对称性 ( 自变量为k{displaystyle k}k )


二项分布在p=0.5{displaystyle p=0.5}p=0.5时表现出图像的对称性,而在p{displaystyle p}p取其它值时是非对称的。另外二项分布的期望值E⁡(X)=np{displaystyle operatorname {E} (X)=np}operatorname {E} (X)=np,以及方差var⁡(X)=np(1−p){displaystyle operatorname {var} (X)=n,p,(1-p)!}operatorname {var} (X)=n,p,(1-p)!



正态分布




几何分布




超几何分布





作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有N{displaystyle N}N个球,其中M{displaystyle M}M个黑球,(N−M){displaystyle (N-M)}(N-M)个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的n{displaystyle n}n个球中(抽出的球不放回去)有k{displaystyle k}k个黑球的概率是多少:


f(k,n;M;N):=(Mk)(N−Mn−k)(Nn){displaystyle f(k,n;M;N):={frac {displaystyle {M choose k}{N-M choose n-k}}{displaystyle {N choose n}}}}f(k,n;M;N):={frac {displaystyle {M choose k}{N-M choose n-k}}{displaystyle {N choose n}}}

例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
f(k=3)=(63)(10−65−3)(105)=0.476{displaystyle f(k=3)={frac {displaystyle {6 choose 3}{10-6 choose 5-3}}{displaystyle {10 choose 5}}}=0.476}f(k=3)={frac {displaystyle {6 choose 3}{10-6 choose 5-3}}{displaystyle {10 choose 5}}}=0.476



超几何分布和二项分布的关系


和二项分布不同的是,在超几何分布中,特別强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数n{displaystyle n}n和总共样品数N{displaystyle N}N相比很小(大约n/N<0,05{displaystyle n/N<0,05}n/N<0,05),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。



泊松近似



泊松近似是二项分布的一種極限形式。其强调如下的试验前提:一次抽样的概率值p{displaystyle p}p相对很小,而抽取次数n{displaystyle n}n值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p{displaystyle p}p,那么在n{displaystyle n}n次试验中出现k{displaystyle k}k次的概率按照泊松分布应该为:


f(n,k,p)=(n⋅p)ken⋅p⋅k!{displaystyle f(n,k,p)={frac {(ncdot p)^{k}}{e^{ncdot p}cdot k!}}}f(n,k,p)={frac {(ncdot p)^{k}}{e^{ncdot p}cdot k!}}

其中数学常数e=2.71828...{displaystyle e=2.71828...}e=2.71828...(自然對數的底数)
例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:f(100,0,1200)+f(100,1,1200)+f(100,2,1200)=0.986{displaystyle f(100,0,{frac {1}{200}})+f(100,1,{frac {1}{200}})+f(100,2,{frac {1}{200}})=0.986}f(100,0,{frac {1}{200}})+f(100,1,{frac {1}{200}})+f(100,2,{frac {1}{200}})=0.986


在实践中如果遇到n{displaystyle n}n值很大導致二项分布難於計算时,可以考慮使用泊松分布,但前提是n⋅p{displaystyle ncdot p}ncdot p必須趨於一個有限极限[來源請求]采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得)[來源請求]是:



  1. n≥100{displaystyle ngeq 100}ngeq 100

  2. p≤0.1{displaystyle pleq 0.1}pleq 0.1



连续分布


X{displaystyle X}X是具有分布函数F{displaystyle F}F的连续随机变量,且F的一階導數處處存在,則其導函數


f(x)=d⁡F(x)d⁡x{displaystyle f(x)={frac {operatorname {d} F(x)}{operatorname {d} x}}}f(x)={frac {operatorname {d} F(x)}{operatorname {d} x}}

称为X{displaystyle X}X的機率密度函数。
每个機率密度函数都有如下性质:



  • f(x)dx=1{displaystyle int _{-infty }^{infty }f(x),{rm {d}}x=1}int _{-infty }^{infty }f(x),{rm {d}}x=1

  • abf(x)dx=P⁡(a≤X≤b)=F(b)−F(a){displaystyle int _{a}^{b}f(x),{rm {d}}x=operatorname {P} (aleq Xleq b)=F(b)-F(a)}int _{a}^{b}f(x),{rm {d}}x=operatorname {P} (aleq Xleq b)=F(b)-F(a)


第一个性质表明,機率密度函数与x{displaystyle x}x轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间[a,b]{displaystyle [a,b]}[a,b]的概率值等于密度函数在区间[a,b]{displaystyle [a,b]}[a,b]上的积分,也即是与X{displaystyle X}X轴在[a,b]{displaystyle [a,b]}[a,b]内形成的区域的面积。因为0≤F(x)≤1{displaystyle 0leq F(x)leq 1}0leq F(x)leq 1,且f(x){displaystyle f(x)}f(x)F(x){displaystyle F(x)}F(x)的导数,因此按照积分原理不难推出上面两个公式。


正态分布、指数分布、t{displaystyle t}t-分布,F{displaystyle F}F-分布以及Ξ2{displaystyle Xi ^{2}}Xi ^{2}-分布都是連續分布。



均匀分布




指数分布




伽马分布




正态分布





连续随机变量的機率密度函数如果是如下形式,


f(x)=1σe(−12(x−μσ)2){displaystyle f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{left(-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}right)}}f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{left(-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}right)}

那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中μ{displaystyle mu }mu 是平均值,σ{displaystyle sigma }sigma 是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,正态機率密度函数具有和普通機率密度函数类似的性质:



  • f(t)dt=1{displaystyle int _{-infty }^{infty }f(t),{rm {d}}t=1}int _{-infty }^{infty }f(t),{rm {d}}t=1

  • F(x)=1σxe(−12(t−μσ)2)dt{displaystyle F(x)={frac {1}{sigma {sqrt {2pi }}}}int _{-infty }^{x}e^{left(-{frac {1}{2}}left({frac {t-mu }{sigma }}right)^{2}right)},{rm {d}}t}F(x)={frac {1}{sigma {sqrt {2pi }}}}int _{-infty }^{x}e^{left(-{frac {1}{2}}left({frac {t-mu }{sigma }}right)^{2}right)},{rm {d}}t


如果给出一个正态分布的平均值μ{displaystyle mu }mu 以及标准差σ{displaystyle sigma }sigma ,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助z{displaystyle z}z-变换以及标准正态分布表格(z{displaystyle z}z-表格)。


中间值μ=0{displaystyle mu =0}mu =0以及标准差σ=1{displaystyle sigma =1}sigma =1的正态分布被称之为标准正态分布,其累積分布函数是



File:Z-transformation.png

z{displaystyle z}z-变换示意图


Φ(z)=12πze−12t2dt{displaystyle Phi (z)={frac {1}{sqrt {2pi }}}cdot int _{-infty }^{z}e^{-{frac {1}{2}}t^{2}}mathrm {d} t}Phi (z)={frac {1}{sqrt {2pi }}}cdot int _{-infty }^{z}e^{-{frac {1}{2}}t^{2}}mathrm {d} t

将普通形式的正态分布变换到标准正态分布的方法是


z=x−μσ{displaystyle z={frac {x-mu }{sigma }}}z={frac {x-mu }{sigma }}

例如,已知一正态分布的μ=5{displaystyle mu =5}mu =5σ=3{displaystyle sigma =3}sigma =3,求区间概率值P(4<X≤7)?{displaystyle P(4<Xleq 7)?}P(4<Xleq 7)?计算过程如下,



4−53<Z≤7−53{displaystyle {frac {4-5}{3}}<Zleq {frac {7-5}{3}}}{frac {4-5}{3}}<Zleq {frac {7-5}{3}}

1/3<Z≤2/3{displaystyle -1/3<Zleq 2/3}-1/3<Zleq 2/3

P(4<X≤7)=P(−1/3<Z≤2/3)=Φ(2/3)−Φ(−1/3)=0.7475−0.3694=0.3781{displaystyle P(4<Xleq 7)=P(-1/3<Zleq 2/3)=Phi (2/3)-Phi (-1/3)=0.7475-0.3694=0.3781}P(4<Xleq 7)=P(-1/3<Zleq 2/3)=Phi (2/3)-Phi (-1/3)=0.7475-0.3694=0.3781


其中Φ(z){displaystyle Phi (z)}Phi (z)值通过查z{displaystyle z}z-表格获得。



正态分布和二项分布


在离散分布中如果试验次数n{displaystyle n}n值非常大,而且单次试验的概率p{displaystyle p}p值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:n⋅p⋅(1−p)≥9{displaystyle ncdot pcdot (1-p)geq 9}ncdot pcdot (1-p)geq 9
从二项分布中获得μ{displaystyle mu }mu σ{displaystyle sigma }sigma 值的方法是



  • 期望值μ=n⋅p{displaystyle mu =ncdot p}mu =ncdot p

  • 標準差σ=n⋅p⋅(1−p){displaystyle sigma ={sqrt {ncdot pcdot (1-p)}}}sigma ={sqrt {ncdot pcdot (1-p)}}


如果σ>3{displaystyle sigma >3}sigma >3,则必须采用下面的近似修正方法:


P(x1≤X≤x2)=∑k=x1x2(nk)⋅pk⋅(q)n−k⏟EF≈Φ(x2+0.5−μσ)−Φ(x1−0.5−μσ)⏟ZF{displaystyle P(x_{1}leq Xleq x_{2})=underbrace {sum _{k=x_{1}}^{x_{2}}{n choose k}cdot p^{k}cdot (q)^{n-k}} _{mathrm {EF} }approx underbrace {Phi left({frac {x_{2}+0.5-mu }{sigma }}right)-Phi left({frac {x_{1}-0.5-mu }{sigma }}right)} _{mathrm {ZF} }}P(x_{1}leq Xleq x_{2})=underbrace {sum _{k=x_{1}}^{x_{2}}{n choose k}cdot p^{k}cdot (q)^{n-k}} _{mathrm {EF} }approx underbrace {Phi left({frac {x_{2}+0.5-mu }{sigma }}right)-Phi left({frac {x_{1}-0.5-mu }{sigma }}right)} _{mathrm {ZF} }


( 注:q=1−p{displaystyle q=1-p}q=1-p , EF:二项分布,ZF:正态分布)



上(下)临界值分别增加(减少)修正值0.5的目的是在σ{displaystyle sigma }sigma 值很大时获得更精确的近似值,只有σ{displaystyle sigma }sigma 很小时,修正值0.5可以不被考虑。


例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,



μ=n⋅p=64⋅0.5=32{displaystyle mu =ncdot p=64cdot 0.5=32}mu =ncdot p=64cdot 0.5=32

σ=n⋅p⋅(1−p)=64⋅0.5⋅0.5=4{displaystyle sigma ={sqrt {ncdot pcdot (1-p)}}={sqrt {64cdot 0.5cdot 0.5}}=4}sigma ={sqrt {ncdot pcdot (1-p)}}={sqrt {64cdot 0.5cdot 0.5}}=4


n⋅p⋅q=16≥9{displaystyle ncdot pcdot q=16geq 9}ncdot pcdot q=16geq 9,符合近似规则,应用z{displaystyle z}z-变换:



P(32≤X≤42)≈Φ(42+0.5−324)−Φ(32−0.5−324){displaystyle P(32leq Xleq 42)approx Phi left({frac {42+0.5-32}{4}}right)-Phi left({frac {32-0.5-32}{4}}right)}{displaystyle P(32leq Xleq 42)approx Phi left({frac {42+0.5-32}{4}}right)-Phi left({frac {32-0.5-32}{4}}right)}
(2.63)−Φ(−0.13)=0.0517+0.4957=0.5474{displaystyle =Phi left(2.63right)-Phi left(-0.13right)=0.0517+0.4957=0.5474}=Phi left(2.63right)-Phi left(-0.13right)=0.0517+0.4957=0.5474




标准正态分布N(0,1){displaystyle N(0,1)}N(0,1)下的z{displaystyle z}z-表格


在运用z{displaystyle z}z- 表格时注意到利用密度函数的对称性来求出z{displaystyle z}z为负值时的区域面积。



外部链接



  1. 二项分布Java演示

  2. 超几何分布Java演示

  3. 泊松分布Java演示

  4. 正态分布Java演示



参考文献




  1. (德文)彼得 缺菲尔(Peter Zoefel):《统计和经济学家》PEASON Studium出版社2003年ISBN 3-8273-7062-0


  2. (德文)约瑟夫 西拉(Josef Schira):《统计理论与企业管理》PEASON Studium出版社2003年ISBN 3-8273-7041-8


  3. (德文)汉斯-底特 黑伯曼(Hans-Dieter Hippmann):《统计学》SCHAEFFER POESCHEL出版社2003年ISBN 3-7910-2119-2



參見



  • 概率论

  • 隨機變數

  • 累积分布函数

  • 概率密度函数

  • 概率質量函数









Popular posts from this blog

How did Captain America manage to do this?

迪纳利

南乌拉尔铁路局