主成分的求解原理

时间：2023-02-12 理论教育版权反馈

【摘要】：前一节介绍了主成分分析的基本步骤。本节对其原理进行介绍。在满足此条件的前提下，力求第一个综合变量f1的方差var达到最大。为了分析和处理的方便，要求各综合变量间互不相关，即应使它们的协方差为零，对f1和f2而言，则有cov＝0。在变量f1与f2所包含的信息尚不足以代表原有变量时，还要构造第三、第四、…于是协方差矩阵Z有分解式因此，可以得出f1＝是向量x的第一主成分。这样的主成分并没有包含原有变量的信息。

6.1.4　主成分的求解原理^＊

前一节介绍了主成分分析的基本步骤。为什么对协方差矩阵Z进行特征分解就可以确定新的坐标系（主成分轴、载荷轴）和新变量（主成分得分）呢？本节对其原理进行介绍。

设p维空间的向量x的线性组合构成一个新的综合变量为

为了用尽可能少的综合变量替代原变量，就要求每个新变量尽可能多地集中所有原变量的信息，这可以由新变量的方差来表达，亦即方差var（f₁）越大，变量f₁所包含的信息量越多。显然对任何常数k，都有

亦即向量a₁乘以一个常数后，可使方差var（f₁）任意增大，要使方差var（f₁）可以比较，还需要求线性组合的系数满足规范化条件＝1。在满足此条件的前提下，力求第一个综合变量f₁的方差var（f₁）达到最大。

若变量f₁包含的信息尚不足以代表原有变量，则需建立第2个综合变量

为了分析和处理的方便，要求各综合变量间互不相关，即应使它们的协方差为零，对f₁和f₂而言，则有cov（f₁，f₂）＝0。在满足互不相关条件与规范化条件＝1的前提下，也要使第二个综合变量f₂的方差var（f₂）达到最大。在变量f₁与f₂所包含的信息尚不足以代表原有变量时，还要构造第三、第四、…，第n个综合变量f₃，f₄，…，f_n。这些综合变量就是本章要讨论的主成分。