首页 理论教育 主成分分析中的一些基本概念

主成分分析中的一些基本概念

时间:2022-02-12 理论教育 版权反馈
【摘要】:主成分分析需要用到统计学中的一些概念,有关概念在第2章里有过介绍,但它们是针对(随机)变量进行的,在本章有些概念要以矩阵形式出现和应用。显然,cov(x,x)=,在统计学中称为变量x的方差,因此同一变量的协方差就是该变量的方差。

6.1.2 主成分分析中的一些基本概念

img437

主成分分析需要用到统计学中的一些概念,有关概念在第2章里有过介绍,但它们是针对(随机)变量进行的,在本章有些概念要以矩阵形式出现和应用。

1.两变量的协方差(Covariance)

对两变量进行n次测量,得到n组数据(xi,yi),则两变量的协方差cov(x,y)定义为式中,img438img439分别是n个xi,yi的平均值。显然,cov(x,x)=img440img441,在统计学中img442称为变量x的方差,因此同一变量的协方差就是该变量的方差。

2.两变量间的相关系数(Correlation coefficient)

两变量的相关系数r(x,y)定义为两变量的协方差与其标准差之比

img443

式中,Sximg444为变量x的标准差。

3.协方差矩阵

对于方程(6-1)的原始数据矩阵X,每一列对应一个变量的n个量测值,任意两列之间可以按方程(6-6)计算两变量间的协方差cov(i,j),i=j时,cov(i,i)=img445,由这些两两变量间的协方差构成的矩阵称为协方差矩阵,记为Z。

img446

显然在协方差矩阵中,对角元素是变量的方差,又由于cov(i,j)=cov(j,i),因此,协方差矩阵是对称矩阵。

对矩阵X的每一列作均值中心化处理(即将每个元素减去该列元素的均值)

img447

则原始数据矩阵X变为每列均值为0的H矩阵

img448

显然,原数据矩阵的协方差矩阵Z与H矩阵有如下关系

img449

如果对原始矩阵的变量进行自标度化处理(即减去均值后再除以该列元素的标准方差),将各变量化为均值为零、方差为1的变量,处理后的变量记为img450,由其构成的数据矩阵记为img451,即

img452

img453

img454与Sj分别称为样本均值和样本方差。

img455

记相关系数构成的矩阵为Rp×p,由方程(6-7)可知

img456

R的对角元rjj=1(j=1,2,…,p),非对角元由对应变量间的相关系数构成,故相关矩阵R是一个p×p实对称矩阵:rij=rji

img457协方差矩阵为

img458

因此,对于自标度化处理后的数据矩阵,其协方差矩阵与相关系数矩阵是相等的,可以证明协方差矩阵Z或相关矩阵R是正定矩阵。这两个矩阵在较早的PCA方法中经常用到。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈