自变量的筛选

时间：2023-02-12 理论教育版权反馈

【摘要】：若自变量间线性相关，则说明自变量所表征的信息有重复。只有基于独立性强的自变量才有可能得到好的回归方程。当两自变量相关系数大于此值时，应剔除其一。自变量间严重的线性相关会致使所建立的回归模型不稳定。例如，对于例4－3和例4－4中的自变量矩阵x，我们可以用上面的命令算得其条件数＝20.58，说明该例中自变量矩阵x存在较强的共线性。当自变量与因变量间有强的相关性时，进行回归分析才有意义。

4.6.2　自变量的筛选

在实际问题中，经常需要对多个变量同时进行统计分析。变量个数多了，就不易看清变量之间的相互关系，会给统计分析带来困难。因此需要对变量进行分析、评估，目的是：（1）删除那些信息含量比较低或不重要的变量；（2）删除那些彼此间信息相互重叠的变量；（3）提高样本数与变量的比率，这种比率一般应大于或等于5。

具体评价变量重要程度及其相互间相关程度的方法有以下几种。

1.变量的零值测试

变量不应过于接近零，否则将使变量的作用偏小。

2.变量的方差测试

当某一变量的标准方差为零时（即该变量为一常数），对于不同的样本此变量为同一值（即为常数），其在回归模型的构建中不起作用。一般来说，标准方差越大的变量，其作用也越大；标准方差越小的变量，其作用也越小。因此，应删除标准方差接近0的变量。

3.自变量的独立性（相关性）测试

若自变量间线性相关，则说明自变量所表征的信息有重复。根据变量间的相关系数可判断变量间的相关程度。只有基于独立性强的自变量才有可能得到好的回归方程。

不妨设一门槛值（如0.90）作为变量取舍的界限。当两自变量相关系数大于此值时，应剔除其一。原则上应做到：（1）剔除物理意义欠明确者；（2）剔除计算步骤较复杂者；（3）剔除与因变量相关系数较小者。

例如，根据例4－3中自变量间的相关系数，就可以去除第四个自变量，因为这个变量与第二个变量强相关（r＞0.95）。去除第三个变量后得到的回归方程（4－21）性能仍旧良好——因为变量3与变量1也有较强的相关性（r＞0.85）。

自变量间严重的线性相关会致使所建立的回归模型不稳定。通常用条件值（Condition number）来判断自变量的共线性程度：将P个变量增广为P＋1（被增广的矢量的所有分量均为1），由此可得（P＋1）×（P＋1）的相关矩阵。采用对角化方法可得该相关矩阵的一组特征值。此特征值中的极大值与极小值之比的平方根即为条件值。条件值的范围为1～∞。条件值越大，变量间存在共线性的可能性也越大，一般认为当条件值大于30时，则认为变量间存在严重共线性。

在MATLAB下输入命令

＞＞cond（X）

可以得到矩阵X的条件数，以此判断矩阵X中的变量是否存在强的共线性。

例如，对于例4－3和例4－4中的自变量矩阵x，我们可以用上面的命令算得其条件数＝20.58，说明该例中自变量矩阵x存在较强的共线性。

此外，可以计算变量间的相关系数矩阵，对于相关矩阵中相关系数大于某特定值（如0.90）的变量，可以剔除其中之一，或根据主成分分析结果确定变量间的共线性程度。

4.对自变量和因变量间的相关性进行评价

当自变量与因变量间有强的相关性时，进行回归分析才有意义。典型相关分析（CCA）最便于分析自变量（组）和因变量间的整体相关性。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈