首页 理论教育 二维随机变量协方差计算公式

二维随机变量协方差计算公式

时间:2022-02-12 理论教育 版权反馈
【摘要】:本节中我们将介绍反映两个变量间线性关系的两个数字特征——协方差与相关系数。与之不同的是,相关系数是无量纲的指标,可以避免由于度量单位等非本质因素所带来的影响,可视之为“标准尺度下的协方差”。因为当且仅当X与Y之间有严格的线性关系时,才有|ρXY|达到最大值1。也就是说,Ni与Nj有着此消彼长的关系,即两者是负相关的。试求X与Y的协方差,并判断它们的相关性与独立性?

对于多元随机变量,除了考虑每一个分量的中心位置和离散程度,借此来了解各个分量各自的部分特性外,还对于它们之间的关系感兴趣。本节中我们将介绍反映两个变量间线性关系的两个数字特征——协方差相关系数

(一)协方差

回想期望的性质之一——定理4.1.5,对于相互独立的随机变量XY,当其期望都存在时,有EXY)=EXEY),而此式等价于

那么当E{(XEX))(YEY))}≠0时,则XY一定不独立,也就是存在某种相依关系,因此我们认为E{(XEX))(YEY))}可以在一定程度上反映出XY的某种关系,对此给出下面定义。

定义4.3.1 对于期望都存在的随机变量XY,当(XEX))(YEY))的期望存在时,称

XY协方差,其中Cov是英文covariance的前三个字母。

按协方差的定义可知,协方差的计算可以看成二元随机变量的函数

数学期望,那么根据定理4.1.3可知:

(1)若二元离散型随机变量(XY)的联合分布律为PXxiYyj)=piji=l,2,…,j=1,2,…,则XY的协方差为

(2)若二元连续型随机变量(XY)的联合密度函数为fx,y),则XY的协方差为

直接按定义计算协方差往往比较麻烦,在实际应用中常常用下面给出的计算公式来得到协方差,

这一公式利用数学期望的性质很容易就可以得到,因此我们这里就不写出推导过程了。

在引入协方差的定义之后,根据上一节中的方差的性质——定理4.2.4及证明可以得到下面的进一步结论。

定理4.3.1 对任意的正整数n⩾2,设X1X2,…,Xn为方差存在的随机变量。则X1X2+…+Xn的方差也存在,且

例4.3.1 n个人把各自的卡片混放在一起(n⩾2),然后每人从中随机抽取一张,以X表示取到自己卡片的人数,求EX)及DX)。

 设

XX1X2+…+Xn,且对任意的,那么。于是有

另外,注意到

定理4.3.2 若随机变量XY的协方差存在,则

(1)Cov(X,Y)=Cov(Y,X);

(2)Cov(X,X)=DX);

(3)Cov(aX,bY)=ab•Cov(XY),其中ab为两个实数;

(4)若Cov(XiY)(i=1,2)的协方差存在,则

(5)若XY独立,则Cov(XY)=0,但反之不然;

(6)当DY)•DY)≠0时,有(Cov(XY))2DXDY),其中等号成立当且仅当XY之间有严格的线性关系(即,存在常数c1c2使得PYc1c2X)=1成立)。

证明 (1)~(4)及(5)的前半部分根据协方差的定义及§4.1中提及的数学期望的性质很容易可以得到,留给读者自行证明。(5)的后半部分在例4.3.5中说明。

下面我们来证明(6)。

对任意tR,有

将上式的右边看成一个关于t的一元二次多项式at2btca>0),由于(4.3.4)左边对任意的实数t恒为非负,故必有acb2/4,即

若此不等式的等号成立,则(4.3.4)的右边等于,其中正负号视Cov(X,Y)>0或<0而定。不妨设Cov(XY)>0,则(4.3.4)的右边等于

当取时,上式等于0。结合(4.3.4)式,当tt0时,

注意到,若某非负随机变量Z,期望为0,则必有PZ=0)=1。那么由(4.3.6)式,可知

。因而,XY有严格的线性关系。

反之,若XY有严格的线性关系,即,存在常数c1c2,使得PYc1c2X)=1成立,那么

例4.3.2 设Xii=1,2,…,n为独立同分布的随机变量,若它们的方差存在,记为σ2。令。证明:对任意的

证明 根据定理4.3.2,知对任意的k=1,2,…,n,有

注意到Xi之间是相互独立的,故Cov(XiXk)=0,ik。所以

显然,协方差也是有量纲的,而且其取值也依赖于它们的单位。为了克服这一缺点,我们可以用上一节中所提到的,将随机变量标准化后,再来求它们的协方差。于是有了下面“相关系数”的定义。

(二)相关系数

定义4.3.2 对于随机变量XY,当EX2)与EY2)均存在且DX),DY)均为非零实数时,称

XY相关系数(correlation),也简记为ρ

注意上述定义中,“EX2)与EY2)均存在”的假设也意味着XY的期望与方差及XY的期望均存在。事实上,

从而保证了Cov(XY)的存在。

根据标准化变量的定义(定义4.2.2),可知

其中。由此可见,相关系数也是刻画两变量间相依关系的一种数字特征,其作用与协方差一样。与之不同的是,相关系数是无量纲的指标,可以避免由于度量单位等非本质因素所带来的影响,可视之为“标准尺度下的协方差”。

根据定理4.3.2,可以得到相关系数的性质:

定理4.3.3 对于随机变量XY,当相关系数ρXY存在时,有

(1)若XY独立,则ρXY=0,但反之不然;

(2)|ρXY|⩽1,其中等号成立当且仅当XY之间有严格的线性关系(即,存在常数c1c2使得PYc1c2X)=1成立)。

从上面的定理(或定理4.3.2),可知相关系数和协方差反映的不是XY之间“一般”关系的程度,而只是反映“线性”关系的紧密程度。因为当且仅当XY之间有严格的线性关系(即,两者以概率1线性相关)时,才有|ρXY|达到最大值1。因此相关系数有时也称为“线性相关系数”。

上面讲的“线性相关”可从最小二乘法的角度再来加深理解。对随机变量XY,考虑用X的线性函数c1c2X来逼近Y。该选择怎样的常数c1c2,使得逼近的程度最好?这种逼近程度,常用“最小二乘”的观点来衡量。即,使得

达到最小。解得,当时,上式达到最小,且最小值为

其中ρρXY。那么若ρ=±l,则上式等于0,从而PYc1c2X)=l,这一点在定理4.3.3中也已指出。而且从(4.3.10)可知,若0<|ρ|<1,当|ρ|越接近1,用c1c2X来逼近Y的偏差就越小,那么XY之间的线性关系的程度就越强;反之,就表明两者的线性关系程度就越弱。

ρXY>0时,即Cov(XY)>0,则线性表示中的X的系数c2也大于0,那么Y的最佳线性逼近c1c2XX增加而增加,故称XY正相关;反之,当ρXY<0时,常称XY为负相关。

例4.3.3 某保险公司业务员每月的工资是由两部分所组成的:一为基本工资,每月c元(c>0);二为业绩津贴,每签一笔业务,可以得到a元(a>0)。试分析在这样的工资体系下,业务员的月工资Y与业务量X之间的关系(其中DX)>0)。

 由题意知,

由这一关系式可知,YX之间是一种严格的线性关系,而且Y随着X的增加而增加,两者是一种正相关关系。下面我们通过计算它们的协方差和相关系数来验证一下。注意到

例4.3.4 独立地抛一枚均匀的骰子n次(n⩾2),则每次试验具有6种可能结果,而且每种结果出现的概率均为1/6。令Ni表示n次试验中“i点朝上”发生的次数,i=1,2,…,6。求与NiNjij)的相关系数ρij

 直观地来看,NiNjij)是有关系的。当取定Nkk=1,2,…,6且kj),当Ni增大时,Nj应趋于变小。也就是说,NiNj有着此消彼长的关系,即两者是负相关的。事实上,由题意知,的联合分布律为

其中,且。因此,且

kx-1,ly-1,

故可得

NiNj是负相关的,这与我们前面的直观分析相符。

(三)不相关的定义

定义4.3.3 当随机变量XY的相关系数

时,称XY不相关(uncorrelated)或零相关。由相关系数及协方差定义,可知,“不相关”还可以用下面的任意一条来定义:

(1)Cov(XY)=0;

(2)EXY)=EXEY);

(3)DXY)=DX)+DY)。

为理解这一定义,我们可以先看一个简单的例子:X为离散型随机变量,其分布律为。而YX2。那么XY具有严格的函数关系,显然是不独立的(当然,读者也可以写出它们的联合分布律,从独立的定义来严格判断)。但,所以Cov(XY)=0,即XY不相关。所以这里的“不相关”实质上指的是“不线性相关”,表示两变量间不存在线性关系,但可以存在非线性的函数关系。显然如果两变量独立,也就是两变量相互之间没有任何关联,那么它们一定没有线性关系,也就是说一定不相关。这表明不相关与独立之间有一定的关系,但也存在着明显的差别。

定理4.3.4 对于两个独立的随机变量,若其方差存在,则一定不相关;但是如果它们不相关,却未必相互独立。

例4.3.5 假设二维随机变量(XY)在圆形区域服从均匀分布(r>0)。试求XY的协方差,并判断它们的相关性与独立性?

 (XY)的联合密度函数为

所以Cov(XY)=EXY)-EXEY)=0,故XY不相关,然而X的边际密度函数为

同理可得Y的边际密度函数为。那么

因此XY不独立。由此可见由不相关是不能推出XY独立的。

回顾前面的定理4.2.4中的条件“为两两独立的随机变量”其实太强了,(4.2.4)式的成立事实上只需两两不相关”即可。

但对子一些特定的分布,如:正态分布,不相关与独立是等价的。

例4.3.6 设二维随机向量(X,Y)服从二维正态分布,试求XY的相关系数。

 (XY)的联合密度函数为

。由协方差定义知

作变量替换

,因此

这表明二维正态分布中的5个参数的含义均已明确。前两个参数分别是两个分量的期望,分别是两个分量的方差,第5个参数ρ则是两分量的相关系数。当ρ=0时,即XY不相关时,

从而XY独立。因此对于二维正态而言,两变量不相关等价于两变量独立。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈