首页 理论教育 中潜变量个数的确定

中潜变量个数的确定

时间:2022-02-12 理论教育 版权反馈
【摘要】:建立PLS回归模型的主要目的是为了良好地预测未知样本的因变量,由式可知,PLS潜变量个数a的大小会影响到预测值Y的准确性。a值过小,不能完全剔除原始数据中的噪声和原始变量间的相关性;而a值过大,又会将不必要的噪声引入PLS成分,这两种情况都会影响模型的预测性能。

6.4.5 PLSR中潜变量个数的确定

建立PLS回归模型的主要目的是为了良好地预测未知样本的因变量,由式(6-71)可知,PLS潜变量个数a的大小会影响到预测值Y的准确性。a值过小,不能完全剔除原始数据中的噪声和原始变量间的相关性;而a值过大,又会将不必要的噪声引入PLS成分,这两种情况都会影响模型的预测性能。因此,在X和Y间有着良好线性关系的情况下,通常存在一个最佳PLS主成分个数a,使得在这个主成分个数下,PLS模型具有最佳的预测效果。

常用的确定最佳a值的方法如下。

(1)根据Y的迭代残差确定最佳a值

从PLSR原理可知,在迭代过程中

img635

式中,Eh=Eh-1img636;E0=X。

img637

其中Y的残差矢量长度‖Fh‖随着h的增加而减少,当它变化不大时,就可截断,如图6-17(a)所示,抽取成分数目为4或5,即a=4或a=5。

img638

图6-17 PLS成分截取示意

(2)根据模型交叉检验(Cross Validation)结果确定最佳a值

应用留K法(Leave-K-out)计算预报残差平方和PRESS(Prediction residual error sum of squares)。在训练样本集中留下K个样本,用其余的训练样本建模,用模型预测留下的K个样本,计算它们的残差平方和。所有训练样本都被轮流作为这K个检验样本,并依次计算K个检验样本的残差平方和,最后总加起来,就是PRESS。当取K为1,即留一法。定义PRESS如下

img639

式中,img640为被留下的第i个样本的第j个因变量的模型值;yij为该样本的第j个因变量的实际值。

比较每一PLS成分个数下的PRESS变化趋势,当PRESS降低到某一阈值不再随PLS成分数降低,或者以后的PLS成分数下对应的PRESS开始增加时,取这一临界点的PLS成分数作为最佳a值。如图6-17(b)所示情况,取PLS成分数目为4或5,即a=4或a=5。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈