首页 百科知识 主成分分析方法

主成分分析方法

时间:2022-12-18 百科知识 版权反馈
【摘要】:主成分分析除了降低多变量数据系统的维度以外,同时还简化了变量系统的统计数字特征。,zp分别称为第一主成分,第二主成分,…主成分分析作为最重要的多元统计方法之一,在社会经济、企业管理及地质、生化等各领域都有其用武之地,如在过程控制与诊断、数据压缩、信号处理、模式识别、综合评价等方向获得了广泛的应用。

6.2 主成分分析方法

6.2.1 基本原理

主成分分析(principal component analysis,PCA)也称主量分析或Karhunnen-Loeve变换,首先是由英国的Karl Pearson于1901年在生物学理论研究中针对非随机变量引入的,而后美国数理统计学家Harold Hotelling在1933年将此方法推广到随机向量的情形。1947年,Karhunnen独立运用概率论理论再次对其进行研究,而后Loeve将该理论进一步扩充和完善,故PCA理论也称为Karhunnen-Loeve变换。

主成分分析是研究如何将多指标问题转化为较少的综合指标的一种重要统计方法,它能将高维空间的问题转化到低维空间去处理,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。

主成分分析除了降低多变量数据系统的维度以外,同时还简化了变量系统的统计数字特征。主成分分析在对多变量数据系统进行最佳简化的同时,还可以提供许多重要的系统信息,例如数据点的重心位置(或称为平均水平) 、数据变异的最大方向、群点的散布范围等。

在多变量(经济指标、因素)分析中,为了尽可能完整地搜集信息,对每个样品(企业、年份)往往要测量许多项指标,以避免重要信息的遗漏。然而,以变量形式体现的诸多指标很可能存在着很强的相关性,则信息可能重叠,问题也变得较为复杂。因此,人们自然想到用少数几个不相关的综合变量来反映原变量提供的大部分信息。从数学角度来看,这就是降维的思想,把多指标转化为少数几个综合指标。

上述思想可进一步解释为:用较少的综合指标zii=1,2,…,p,p≤(m)反映m个原指标xjj=1,2,…,(m)所包含的信息,实际就是建立用标准化指标x*

j表示的综合指标zi的方程:

其中,z1,z2,…,zp分别称为第一主成分,第二主成分,…,第p主成分。z1包含原有指标的总信息最多,即方差最大,且与其他的zi(i=2,3,…,p)无关;z2是除z1外的方差最大者,且与其他的zi(i=1,3,…,p)无关;其余类推。

该方法的核心就是通过主成分分析,选择p个主成分z1,z2,…,zp,以每个主成分zi的方差贡献率ai(i=1,2,…,p)作为权数,构造综合评价函数:

其中,zi(i=1,2,…,p)为第i个主成分的得分。当计算出每个企业的主成分得分后,可由主成分得分衡量每个企业在第i个主成分所代表的含义方面的程度及地位。当把p个主成分得分代入(6-14)式后,即可计算出每个企业综合评价函数得分,根据这个得分的高低排序,即可得出每个企业被评价目标的综合名次。

6.2.2 适用性分析

主成分分析是多元统计分析中的一种重要方法,主要是进行数据线性压缩、降维、过滤数据的噪声等,它具有坚实的理论基础,是比较有效的算法,且其算法具有收敛性和稳定性。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

主成分分析的实质在于分析计算过程中完成了以下三方面工作:消除了原始变量间的相关影响;确定了评价综合时所需的权重;减少了综合评价的指标维数。

(1)通过主成分分析,将原来相关的各原始变量变换成为相互独立的主成分,进而对这些主成分进行综合评价,这就消除了由于指标间相关而在评价时反映的重复信息。

(2)主成分综合评价的权重主要是信息权重,是从评价指标包含被评价对象分辨信息多少来确定的一种权数。评价指标是用来区分各被评价对象的,如果指标所含分辨信息量比较丰富,则该指标的区分能力较强;反之,某项指标数值无助于区分各评价对象,则其权数应设为零。因此,信息权数的确定原则是:某项指标在各被评价对象间数值的离差愈大,则该指标分辨信息愈多,其权数也应愈大;反之,离差愈小,指标权数也就应该愈小,因此,与其他评价方法权重的获得相比就更为客观。

(3)通过主成分分析,所取主成分个数是小于指标个数的,不但方便了综合评价,也简化了计算。

主成分分析作为最重要的多元统计方法之一,在社会经济、企业管理及地质、生化等各领域都有其用武之地,如在过程控制与诊断、数据压缩、信号处理、模式识别、综合评价等方向获得了广泛的应用。例如PCA在图像识别中的应用,将高维的数据图像降维; PCA在神经网络研究中的应用; PCA在生物学中的基因研究; PCA与其他方法(因子分析法Factor Analysis,数据包络分析Data Envelopment Analysis)结合应用于多指标评价和决策支持系统,将多变量降维成为单变量或低维变量进行评价或决策以及其他应用; PCA在社会经济评价与预测中的应用。

本书构建的企业安全文化指标体系和企业安全氛围指标体系由三级指标构成,其中企业安全文化指标体系有6个一级指标、 14个二级指标和60个三级指标;企业安全氛围指标体系有4个一级指标、 14个二级指标和43个三级指标。由于指标体系中涉及的变量较多,并且彼此之间存在一定的相关性,使得观测数据反映的信息在一定程度上有所重叠,属于典型的高维空间问题,因此,有必要首先采用主成分分析法降维,并且通过指标所反映的信息确定其客观权重,从而使评价结果趋于合理公正。

6.2.3 基本算法与步骤

(1)整理原始资料数据。采集m维随机向量X =(x1,x2,…,xm)'的n个样品xi =(xi1,xi2,…,xim)',列出原始数据矩阵X =(xij)n×m

(2)将原始数据进行标准化处理。将各样品指标值xj按公式(6-15)转换成标准化指标x*ij:

(3)求各标准化指标x*ij的两两相关系数rij,并写出相关系数矩阵R = (rij)m×m;

(5)求出各主成分zi与标准化指标x*ij对应的系数关系。各主成分zi与标准化指标x*ij的对应系数关系如公式(6-13) 。

(6)求各例样品在p个主成分的得分z1,z2,…,zp。将标准化后的数据代入公式(6-13) ,得出各例样品在p个主成分的得分z1,z2,…,zp

(7)求出各样品综合得分z,按公式(6-14)计算各样品综合得分,并排列名次。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈