首页 理论教育 主成分分析的特点及其几何解释

主成分分析的特点及其几何解释

时间:2022-02-12 理论教育 版权反馈
【摘要】:由此可见,主成分分析的关键就是确定新的坐标系u1、u2,这些新坐标轴就是主成分得分(新变量)与原始变量间的线性组合系数。

6.1.6 主成分分析的特点及其几何解释

主成分分析的本质可以用下面三句话来概括:主成分分析即在最小尺度空间里将方差最大化,几何上讲就是旋转原始数据的坐标轴,使其与包含最大方差信息的坐标轴重合,数学上讲就是线性代数变换。

主成分(得分)的特点与优点如下。

(1)主成分得分是原变量的线性组合。

(2)各个主成分之间互不相关(即主成分得分间的相关系数为0)。

(3)如果原始数据矩阵有p个变量、n个样本,则最多有min(n,p)个主成分。

(4)第一主成分的方差最大,越向后主成分的方差越小。

(5)主成分的方差等于原始变量的协方差矩阵Z(或相关矩阵R)的对应特征值。

(6)利用新的变量——主成分得分能直观地考察样本之间的关系。

(7)主成分分析能用前几个主成分的得分来近似反映原始的数据阵的信息,可减少变量的个数,起到变量(信息)压缩的作用。

(8)主成分得分通常描述重要的但无法测量的特性。

(9)主成分分析可以消除原始数据矩阵中存在的信息冗余和相关现象。

img494

图6-2 三维坐标系下主成分投影示意

为便于形象、直观地理解主成分分

析的过程及相关概念,下面用三个变量的主成分分析(图6-2)为例进行说明:在三维坐标系(坐标轴为x1,x2,x3)中的某一样本i可以用变量(xi1,xi2,xi3)来表示,对n个样本进行主成分分析发现,可以用两个主成分PC1、PC2表示原始的三个变量,则样本i的变量xi1,xi2,xi3可以用在正交坐标系img495下的两个新变量PC1(i)和

PC2(i)来表示,即

img496

从图6-2可知,向量img497相当于新的坐标轴u1、u2,数据点i在坐标系u1、u2的投影(坐标值)即为PC1(i)与PC2(i)。这是对一个样本而言,对于n个在三维空间x1,x2,x3下的样本,如果其原始变量间存在较高的相关性,主成分分析可将其变换到二维平面中(图6-3)。

img498

图6-3 主成分变换将三维空间的样本压缩到二维空间示意

由此可见,主成分分析的关键就是确定新的坐标系(即载荷向量、载荷轴)u1、u2,这些新坐标轴就是主成分得分(新变量)与原始变量间的线性组合系数。根据6.1.3中的主成分分析步骤,我们可以用文字直观描述图6-3所示的变换过程(主成分分析过程)就是:对三维空间下的一组样本(设样本数为n),在对原始变量经过坐标平移(相当于对原始数据自标度化过程中的减均值)、尺度伸缩(相当于自标度化过程中的除方差)后,将其投影在一组新的正交坐标系u1、u2中,这个新坐标系通过旋转原始变量的x1,x2,x3,使其与包含最大方差信息的坐标轴重合而得。因此原始变量在新坐标系上的投影(分别称为第一、第二主成分)的方差达到第一、第二大。其中img499称为第一、第二载荷轴。对于p维空间下由n个样本组成的数据矩阵,主成分轴(载荷轴)的个数最多为min(n,p)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈