首页 理论教育 主成分的求解原理

主成分的求解原理

时间:2022-02-12 理论教育 版权反馈
【摘要】:前一节介绍了主成分分析的基本步骤。本节对其原理进行介绍。在满足此条件的前提下,力求第一个综合变量f1的方差var达到最大。为了分析和处理的方便,要求各综合变量间互不相关,即应使它们的协方差为零,对f1和f2而言,则有cov=0。在变量f1与f2所包含的信息尚不足以代表原有变量时,还要构造第三、第四、…于是协方差矩阵Z有分解式因此,可以得出f1=是向量x的第一主成分。这样的主成分并没有包含原有变量的信息。

6.1.4 主成分的求解原理

前一节介绍了主成分分析的基本步骤。为什么对协方差矩阵Z进行特征分解就可以确定新的坐标系(主成分轴、载荷轴)和新变量(主成分得分)呢?本节对其原理进行介绍。

设p维空间的向量x的线性组合构成一个新的综合变量为

img460

为了用尽可能少的综合变量替代原变量,就要求每个新变量尽可能多地集中所有原变量的信息,这可以由新变量的方差来表达,亦即方差var(f1)越大,变量f1所包含的信息量越多。显然对任何常数k,都有

img461

亦即向量a1乘以一个常数后,可使方差var(f1)任意增大,要使方差var(f1)可以比较,还需要求线性组合的系数满足规范化条件img462=1。在满足此条件的前提下,力求第一个综合变量f1的方差var(f1)达到最大。

若变量f1包含的信息尚不足以代表原有变量,则需建立第2个综合变量

img463

为了分析和处理的方便,要求各综合变量间互不相关,即应使它们的协方差为零,对f1和f2而言,则有cov(f1,f2)=0。在满足互不相关条件与规范化条件img464=1的前提下,也要使第二个综合变量f2的方差var(f2)达到最大。在变量f1与f2所包含的信息尚不足以代表原有变量时,还要构造第三、第四、…,第n个综合变量f3,f4,…,fn。这些综合变量就是本章要讨论的主成分。

设p维向量x的p个变量为x1,x2,…,xp,它们的线性组合构成m(m≤p)个综合变量为

img465

在满足规范化条件

img466

与互不相关条件

img467

的前提下,方差var(fi)达到最大,则称fi为向量x的第i个主成分。

按照定义,要确定p维向量x的主成分,相当于在p维空间找出一组正交的单位矢量{ai,i=1,2,…,m},并能使方差varimg468x)达到最大。

根据方差与协方差的定义可以证明

img469

img470

由于协方差矩阵Z为正定实对称矩阵,由矩阵代数的性质,它的p个特征值一定大于等于零,设它们为而且一定存在p个相互正交的单位特征矢量与这p个特征值相对应,设它们为u1,u2,…,up,可以组成一个正交矩阵U=(u1,u2,…,up)。于是协方差矩阵Z有分解式

img471

在条件aTa=1下,由方程(6-18)~方程(6-20)可以得到

img472

可见在条件(6-20)下,λ1是var(aTx)的上确界,而在img473时有

img474

因此,可以得出f1img475是向量x的第一主成分。类似地可以证明,在条件aTu2=0与aTa=1下,var(aTx)的上确界为λ2,而在img476img477时有varimg478)=λ2,记f2img479,则有

img480

因此f2img481是向量x的第二主成分。以次类推,fiimg482是向量x第i个主成分,其对应的方差为var(fi)=var(img483)=λi(i=3,4,…,p)。对于p维向量x,总共可以导出p个主成分。

实际上,零特征值所对应的主成分,其方差也为零。这样的主成分并没有包含原有变量的信息。另外,方差很小的主成分所包含的信息量也很少,这些主成分都可以略去。因此,通常只保留前m(m<p)个主成分以替代原有的p个变量。m到底取多大,将在后面讨论。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈