随机变量的概率分布

时间：2022-03-11 百科知识版权反馈

【摘要】：前两类称离散型随机变量概率分布，最后一类称连续性随机变量概率分布。表5.7　　　　　　　　　　概率表格表示的一般形式而连续型随机变量x的概率分布，无法用表格的形式进行表示。函数形式这称为离散型随机变量X的概率分布。

随机变量的概率分布_社会统计学

第二节　随机变量的概率分布

随机变量的概率分布是指，各个随机变量取值时它们对应的概率取值。比如投掷n次钱币，出现1、2、3、…n次正面的概率；生育3个孩子出现1、2、3个男孩的概率；也可计算出现在等候不同时间(2分钟之内，2～4分，4～6分，……)公交汽车的概率。前两类称离散型随机变量概率分布，最后一类称连续性随机变量概率分布。

一、离散型随机变量

1.概率表示方式

随机变量的取值及其概率值的表示形式有多种，哪一种合适需要具体情况具体分析。

(1)表格形式

设离散型随机变量x的所有可能取值为x₁，x₂…，x_n，…，相应的概率为p(x₁)，p(x₂)，…，p(x_n)，…。可用表格表示如表5.7所示。

表5.7　　　　　　　　　　概率表格表示的一般形式

而连续型随机变量x的概率分布，无法用表格的形式进行表示。

(2)函数形式

这称为离散型随机变量X的概率分布。也可简单记为:

P(X=xi)=p(xi)(i=1，2，…)　　　　　　　　　　　(5.8)

(3)图示法

以X轴为横坐标，X所对应的概率为纵坐标，由此构成直角坐标图。

［例5.19］掷四个钱币，出现正面数i就是随机现象，其最小为0(全部是反面)、最大为4(全部是正面)，共有5种结果:0、1、2、3和4。有16种可能性分别是:0000、0001、0010、0100、1000、0011、0101、0110、1001、1010、1100、0111、1011、1101、1110和1111。出现0个正面——4个钱币都是反面的情况为:0000、……；2个正面的情况分别为:0011、0101、0110、1001、1010和1100等6种可能性；……；4个正面的情况为:1111。于是概率理论分布如表5.8所示。

表5.8　　　　　　　　　　4个钱币出现正面的概率理论分布

由此可见，概率是一种可能性。4个钱币出现2个正面的概率为37.5%，出现1～3个正面的概率为87.5%。以上是表格形式，实际上，其服从二项分布，可用如下函数表示:

　　p(i)=C₄ⁱ(0.5)ⁱ(0.5)^4.i=C₄ⁱ(0.5)⁴=C₄ⁱ/16(0≤i≤4)

其中C_n^m为组合，C_n^m=n!/(m!*(n－m)!)，其中n＞m，m!表示m的全排列。

m!=m*(m－1)*(m－2)*(m－3)……3*2*1

如C₄²=4!/(2!*(4.2)!)=4!/(2!*2!)=6而若以为i横坐标，p(i)为纵坐标就可获得如图5.2所示。

图5.2　概率图形表示形式

［例5.20］掷两颗六面体骰子的试验，点数之和i是随机现象，其最小为2、最大为12，共有11种结果:2，3，4，5，6，7，8，9，10，11，12，其对应出现的概率p(i)如表5.9所示:

表5.9　两颗骰子点数之和的概率表格表示形式

由此可见，2颗骰子点数之和i为6～8的概率为44.4%，i为10以上的概率为16.7%。以上是表格表示，下面是图形表示(如图5.3所示)。

图5.3　两颗骰子点数之和的概率图形表示形式

2.特征值

离散型随机变量X的特征值是指随机变量X的期望值、方差等。

(1)期望值:　　　　　μ=E(X)=∑x_ip(x_i)　　　　　(5.9)

随机变量的期望值即其平均位，是随机变量分布的集中趋势，即分布的中心位置。容易验证期望值满足性质:E(αX₁+βX₂)=αE(X₁)+βE(X₂)，其中X₁，X₂都是随机变量，α，β是任意常数。并且这个性质可推广到多个随机变量情形。

在［例5.19］中，μ=∑x_ip(x_i)=0*1/16+1*4/16+2*6/16+3*4/ 16+4*1/16=2，即如果一次抛4个钱币，平均可出现2个正面的钱币。

(2)方差:σ²=Var(X)=E(x－μ)²=∑(x_i－μ)²*p(x_i)　　　　　　　(5.10)

方差的平方根，称为标准差，方差σ²或标准差σ反映随机变量X对其期望值的离散程度，σ²或σ越小，说明期望值的代表性越好；σ²或σ越大，说明期望值的代表性越差，也容易验证。对于任意的α，σ²(αX)=α²*σ²(X)成立。

在［例5.19］中，σ²=∑(x_i－μ)²*p(x_i)=2²/16+1*4/16+0+1*4/ 16+2²*1/16=1

读者能否计算一下，在［例5.20］中μ和σ²分别是什么。

3.离散型随机变量的概率分布

离散型随机变量的概率分布，主要研究均匀分布、二点分布、二项分布、超几何分布和泊松分布情况下的随机变量概率分布形式及其参数(均值、方差等)表示。

(1)两点分布

如果随机变量仅能取0和1值，取1的概率为ρ，取0的概率为1－ρ，则称X服从两点分布或0－1分布，ρ是X的参数。如果将随机事件的所有结果分为对立的两类，成功事件和失败事件。成功的概率为ρ，而不成功事件1－ρ。若用随机变量X来描述这种随机试验的结果，把“成功”事件记作1，把“失败”记作0，那么，X服从参数为ρ的两点分布。

［例5.21］已知某100件产品中有次品15件。现从中任抽一件，写出抽中成品或次品分布列。

解:用随机变量X表示抽取结果。若结果是正品记作X=1，若结果为次品记X=0。分布列如表5.10所示:

表5.10　　　　　　　　　　二点分布表

该分布的数字特征如下:数学期望E(X)=ρ，方差V(X)=ρ(1－ρ)

(2)二项分布

在一些问题中，人们仅对试验中某事件A是否发生有兴趣，如果A发生，常称“成功”，否则称“失败”。这种只有两种结果的试验称为贝努里试验。设A出现的概率为p、不出现概率为1－p；重复进行n次贝努里试验，称为n重贝努里试验，或称二项分布。

二项分布(贝努里试验)必须满足如下四个基本条件:①仅有两个互斥的结果；②每次试验成功的概率不变；③每次试验相互独立，即任何一次试验结果都不会对另外一次试验结果有影响；④重复试验的次数固定不变。

以B_k表示n重贝努里试验中，事件A出现k次的事件，则b(k；n，p)表示试验n次后，事件A出现k次的概率:

　　　　b(k；n，p)=C_n^kp^k(1－p)^n－k(k=0，1，2，3……，n)　　　　　(5.11)

由于该公式仅依赖于k，n，p三个参数，故也简化记录为P(B_k)。二项分布的数学期望为E(x)=n*p

二项分布的方差为:σ²=Var(x)=n*p*(1－p)

二项分布的偏态系数为:

二项分布的峰态系数为:β₂=3+［1－6*p*(1－p)］/［n*p*(1－p)］

［例5.22］设想一个盒子内有10个球，6个红球4个白球，现随机抽取1个球看一下，然后放回原盒子，连续进行三次试验(抽取)，问出现2个红球的概率是多少?

这是一个典型的二项分布问题。仅有两个互斥的结果，红球与非红球；因为抽取后放回，抽样概率不变(出现红球的概率p=0.6；出现白球的概率为1－p=0.4)；本次抽样结果不影响下一次抽样；抽样次数固定，本例为n=3； k=2。

故实际上是求:P(B₂)=b(k；n，p)=b(2；3，0.6)=C₃²(0.6)²(0.4)¹=0.432

类似可以求出b(0；3，0.6)=0.064；b(1；3，0.6)=0.288；b(3；3，0.6)=0.216

即抽样中出现0、1、2、3个红球的概率分别是0.064、0.288、0.432和0.216，合计为100%。

常用B(k；n，p)表示二项分布的递增累计概率，F(x)=B(k；n，p)= P(x≤k)=∑C_n^kp^k(1－p)^n－k

如在上例中:

B(1；3，0.6)=b(0；3，0.6)+b(1；3，0.6)=0.352；

B(2；3，0.6)=B(1；3，0.6)+b(2；3，0.6)=0.352+0.432=0.784；

即出现1个及以下红球的概率为0.352，而出现2个及以下红球的概率为0.784。

显然，n重贝努里试验中事件A出现的次数A是个随机变量，其取值范围是从0到n。其分布如表5.11所示。

表5.11　　　　　　　　　　二项分布表

由于式(5.11)是二项展开式的通项，故该分布称为二项分布。

［例5.23］某地区家庭中有老年人口家庭占15%，现在该地区有放回地进行随机抽取10户进行调查，问老年人口家庭在3户以内的概率，老年人口家庭恰好为3户的概率，老年人口家庭为3～5户的概率，老年人口家庭超过4户的概率。

P(x≤3)=B(3；10，0.15)=∑C₁₀^k(0.15)^k(0.85)^10－k=0.95(K=0、1、2、3)

P(x=3)=b(3；10，0.15)=C₁₀³(0.15)³(0.85)^10－3=0.1298

P(3≤x≤5)=P(x≤5)－P(x≤2)=B(5；10，0.15)－B(2；10，0.15)= 0.9986－0.8202=0.1784

P(x＞4)=1－P(x≤4)=1－B(4；10，0.15)=1－∑C₁₀^k(0.15)^k(0.85)^10－k= 1－0.9901=0.0099

若使用计算机Excel软件，则可用函数BINOMDIST(k，n，p，0)就可以求得b(k；n，p)。在上面公式中若将其中0改为1，则可以求得B(k；n，p)或F(x)，请尝试计算。

实际上，样本抽样都是一次抽多少样本，都是无放回的。如果是无放回地进行随机抽样，那么其概率就不服从二项分布，而是服从超几何分布。

(3)超几何分布

超几何分布的出现概率常用古典概率方法来求。

［例5.24］和例5.22类似，设一个盒子内有10个球，6个红球4个白球，现随机无放回地抽取3个球，问出现2个红球的概率是多少?

P(x=3)=C₆²*C₄¹/C₁₀³=15*4/120=0.5

一般情况下，如果有限总体单位数为N，其中有某特征(比如红球)的单位数为m，对这个总体进行n次不放回的简单不放回随机抽样(或一次抽n个样本)，其中具有某特征的单位数为k的概率为:

若使用Excel软件，则可以用函数Hypgeomdist(k，n，m，N)就可以求得P(x=k)的具体数值。比如是Hypgeomdist(2，3，6，10)=0.5，请尝试一下。

超几何分布的数学期望为E(x)=n*p=n*(m/N)(其中:p=m/N)

超几何分布的方差为:σ²=Var(x)=n*p*(1－p)*［(N－n)/(N－1)］

其中(N－n)/(N－1)是有限总体校正因子，当采用不重复抽样时才应该考虑，因此又称不重复抽样校正因子。

二、连续型随机变量的概率分布

对于连续型随机变量X，它的取值不能一一列出，因此其概率分布形式不能同离散型随机变量一样，通过表格方式全部表现出来。但是，对任意的实数x，由随机变量的定义知，X＜x是一随机事件，可以对它求概率，记为F(x)=p(X＜x)，该函数就是随机变量的分布函数。分布函数的导数称为密度函数，记作p(x)。通过对密度函数积分，可得到随机变量X在点x附近或在一个区间上取值的概率。注意，连续型随机变量在某固定值的概率为0。

连续型随机变量的密度函数有以下的性质:

其中，P(a＜x＜b)表示事件a＜x＜b，即随机变量x的取值落在区间(a，b)内的概率。连续型随机变量在(a，b)区间上定积分的几何意义就是由x轴、被积函数p(x)、直线x=a和x=b所围成的面积，如图5.1所示。可以验证，对连续型随机变量，E(αX₁+βX₂)=αE(X₁)+βE(X₂)和σ²(αx)=α²*σ²(X)也都成立。

正态分布是最重要的连续型随机变量分布，原因有三:第一，它是最常见的一种分布，许多随机变量服从或近似服从正态分布。如同龄人的身高、体重，农作物的产量和学生考试的成绩等等；第二，许多有用的分布可以由正态分布推导出来，如卡方分布、t分布和F分布都可出正态分布导出；第三，正态分布在一定条件下，还是一些其他的近似分布，如大样本下的t分布与正态分布近似。

连续型随机变量x的密度函数为

则称随机变量X服从均值为μ，方差为σ²的正态分布，记为X～N(μ，σ²)。正态分布的密度函数图形一般称为正态曲线，它是—条以均值为中心的对称钟型曲线，如图5.4所示。

图5.4　不同均值情况下的正态概率分布图

连续型随机变量x的期望值为:

方差为:

从图5.5可看到，μ是该分布的中心，σ²是标准差，反映分布的离散程度，σ越大，分布曲线越平缓，离散程度越大；σ越小，分布曲线越陡峭，说明分布越集中。标准正态分布的偏态系数、峰态系数分别为0和3。

图5.5　不同标准差情况下的正态概率分布图

如果一个正态分布的μ=0，σ=1，则称该正态分布为标准正态分布，相应的随机变量称为标准正态随机变量，用Z表示，即Z～N(0，1)，与(5.13)式相应的分布密度函数为:

标准正态随机变量在区间［－Z，Z］取值的概率F(Z)，可通过查标准正态分布概率表获得。

正态分布在统计学应用中或者统计推断中占有非常重要的地位，这是因为许多客观现象的分布大多服从两端小中间大的正态分布，如成人身高、体重、儿童智力、误差分布等；其次，正态分布可以作为一些离散型随机变量概率分布的近似，如二项分布、泊松分布和超几何分布等当n增大时，可以转换为正态分布计算；许多大样本的抽样分布通常以正态分布作为极限，以便进行统计推断。

［例5.25］设随机变量Z服从标准正态分布，求以下分布中概率的大小。

①p(－1＜Z＜1)；②p(0＜Z＜1.25)；③p(1＜Z＜1.25)；④p(Z＞1)。

解:①概率p(－1＜Z＜1)是由标准正态分布的密度函数，在区间(－1，1)上的曲边梯形的面积，如图5.l所示，由于关于Z=0的对称性，该概率(或该面积)可直接Z=1查表得到:

p(－1＜Z＜1)=2*(0＜Z＜1)=2*0.3413=0.6826

②由标准正态分布关于Z=0的对称性可知，p(0＜Z＜1.25)，按临界值Z=1.25查表得，

p(0＜Z＜1.25)=0.3944

③由对称性与面积的分割关系可知: p(1＜Z＜1.25)=p(0＜Z＜1.25)－p(0＜Z＜1)］=0.3944－0.3413=0.0531

④由于标准正态分布密度函数曲线下的面积为1，所以: p(Z＞1)=1－p(0＜Z＜1)－p(－∞＜Z＜0)=1－0.3413－0.5=0.1587

可以验证，若随机变量x服从正态分布N(μ，σ²)，则随机变量z=(X－μ)/σ服从标准正态分布，即z～N(0，1)。

注意:任何正态分布都可以通过z=(x－μ)/σ变换，转变为标准化正态分布。利用这个变换来计算非标准正态分布的概率，计算或查算出随机变量取值落于任何区间的概率。然而统计教材上应用标准正态概率查算表时注意，是从0到x的区间概率、从－∞到x区间的概率还是从－x到x的概率，当然其之间是可以换算的。本文建议采用第一种。

［例5.26］假定学生某门学科的考试成绩服从均值为70分、标准差为12分的正态分布。那么某一学生的成绩在70分到85分之间的概率应为多少?

解:设x表示学生的成绩，要计算的概率是p(70＜x＜85)。首先对X进行标准化:

Z=(X－70)/12

将计算X的概率转化为计算Z的概率:

p(70＜x＜85)=p((70－70)/12＜(x－70)/12＜(85－70)/12)

　　　　　　=p(0＜Z＜1.25)=0.3944

即如果某班60个学生，将有24个同学成绩在70～85分之间。

［例5.27］设随机变量X服从正态分布N(μ，σ²)，试分别求X落在以μ为中心。以σ，2σ，1.96σ和3σ为半径的区间内的概率。

解:作变换z=(x－μ)/σ，则Z服从标准正态分布。所求概率分别为:

p(μ－σ＜X＜μ+σ)=p［(μ－σ－μ)/σ＜(X－μ)/σ＜(μ+σ－μ)/σ］=p(－1＜Z＜1)=2*0.3413=68.26%

p(μ－1.96σ＜X＜μ+1.96σ)=p［(μ－1.96σ－μ)/σ＜(X－μ)/σ＜(μ+ 1.96σ－μ)/σ］=p(－1.96＜Z＜1.96)=95%

p(μ－2σ＜X＜μ+2σ)=p［(μ－2σ－μ)/σ＜(X－μ)/σ＜(μ+2σ－μ)/σ］=p(－2＜Z＜2)=95.45%

p(μ－3σ＜X＜μ+3σ)=p［(μ－3σ－μ)/σ＜(X－μ)/σ＜(μ+3σ－μ)/σ］=p(－3＜Z＜3)=99.73%

从计算结果可知:随机变量X落在以μ为中心，以3σ为半径的区间外的概率只有l－99.73%=0.27%，是一个非常小的概率。一般可以认为X不会落到以μ为中心，以3σ为半径的区间之外，这就是所谓的“3σ原则”。

除正态分布外，常用的连续型随机变量的分布还有卡方分布(或称χ²－分布)、t－分布和F－分布。由于篇幅原因，这里从略。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

社会主义

经济发展

电子商务

发展趋势

注意事项

人力资源

主要内容

持续发展

文化产业

社会保障

商业银行

知识产权

基本原则

文化建设

公共关系

信息系统

思想政治

中小企业

中国特色

社会发展

有限公司

课堂教学

资源管理

科学发展

随机变量的概率分布

热门文章

相关推荐

随机变量的概率分布

有关社会统计学的文章

随机变量及其概率分布讲解

随机变量的概率分布函数

离散型随机变量的概率分布

常见的离散型随机变量的概率分布

常见的连续型随机变量的概率分布

随机变量服从正态分布怎么求概率

概率与概率分布

随机变量条件概率与全概率公式

热门文章

相关推荐