首页 理论教育 多元线性回归模型的检验

多元线性回归模型的检验

时间:2022-02-12 理论教育 版权反馈
【摘要】:类似于一元回归相关系数r,可以定义多元线性回归的多重相关系数R,R是决定系数R2的平方根。复相关系数可反映模型对实测数据的拟合程度。在实际应用时,不可片面追求过高的R2,否则会造成虽然模型对建模数据拟合很好,但预测效果不佳的现象。因此,回归方程虽然能通过统计检验,但其反映的自变量x3与因变量Y之间的关系与实际数据间的规律不符。

4.3.2 多元线性回归模型的检验

1.复相关系数检验

类似于一元回归相关系数r,可以定义多元线性回归的多重相关系数R(又称为复相关系数),R是决定系数(又称为确定系数)R2的平方根。

决定系数R2是指在因变量Y的总平方和中,由自变量X引起的平方和所占的比例,其计算公式如下

img207

S和S的计算公式见式(4-6)、式(4-7)。

显然,S→0时,R2→1,即实测值img208与模型预测值的差别十分小时,相关系数接近于1,即模型(4-13)非常准确。复相关系数可反映模型对实测数据的拟合程度。在实际应用时,不可片面追求过高的R2,否则会造成虽然模型对建模数据拟合很好,但预测效果不佳的现象。

2.方差分析和F检验

多元变量的方差分析见表4-4。

表4-4 方差分析表(n为实验数据数,m为自变量个数)

img209

其中

img210

将F与F的临界值Fm,n-m-1(α)来比较,当F>Fm,n-m-1(α)时,即所有回归系数=0原假设不成立,故可认为回归式(4-12)在α水平下

有意义,即认为该回归方程具有1-α的置信度。

3.残差分析

反映多元线性回归精度的估计公式为

img211

需要强调的是,在回归分析时,不可为了追求大的R2(或r)和小的img212,在回归方程中引入过多的项数,使误差的自由度(n-m-1)为1甚至为0,这会使回归方程的预测功能大大降低。因此,回归分析的原始数据个数n必须足够大,使得误差的自由度(n-m-1)≥5,才能保证所得结论可靠。

例4-3 某种水泥在凝固时所释放的热量Y(cal·g-1)与水泥中下列四种化学成分的含量有关

x1——3CaO·Al2O3的含量(%)

x2——3CaO·SiO2的含量(%)

x3——4CaO·Al2O3·Fe2O3的含量(%)

x4——2CaO·SiO2的含量(%)

共观测了13组数据,见表4-5。

表4-5 水泥中的化学成分含量与水泥凝固时的放热量数据

img213

续表

img214

在MATLAB下输入

img215

Y=[78.5;74.3;104.3;87.6;95.9;109.2;102.7;72.5;94.1;115.9;84.8;114.3;109.4];

>>X=[ones(13,1)x]%生成含常数列的自变量矩阵

>>[B,BINT,R,RINT,STATS]=regress(y,X,0.05)

可得

img216

img217

img218

根据B数组可确定此种水泥凝固时所释放的热量Y与其所含的四种物质含量间的多元线性回归关系为

img219

根据STATUS数组的第一个元素值可知,多元线性回归方程(4-18)的决定系数R2=0.978 64,统计参数F=91.639。

由于本例中用于回归分析的数据点个数n=13,自变量个数m=4,故n-m-1=13-4-1=8,在MATLAB下输入命令

>>finv(0.95,4,8)

可得统计参数F的临界值F4,8(0.05)=3.84,则F=91.639>>F4,8(0.05)=3.84,说明回归方程(4-18)可以通过统计检验。

但是,观察表4-5中的数据分布规律,变量x3与Y是呈负相关关系的(其相关系数r=-0.52),从图4-4可以直观地看出这点。

img220

图4-4 自变量x3与因变量Y的关系

因此,回归方程(4-18)虽然能通过统计检验,但其反映的自变量x3与因变量Y之间的关系与实际数据间的规律不符。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈