4.3.2 多元线性回归模型的检验
1.复相关系数检验
类似于一元回归相关系数r,可以定义多元线性回归的多重相关系数R(又称为复相关系数),R是决定系数(又称为确定系数)R2的平方根。
决定系数R2是指在因变量Y的总平方和中,由自变量X引起的平方和所占的比例,其计算公式如下
S残和S回的计算公式见式(4-6)、式(4-7)。
显然,S残→0时,R2→1,即实测值与模型预测值的差别十分小时,相关系数接近于1,即模型(4-13)非常准确。复相关系数可反映模型对实测数据的拟合程度。在实际应用时,不可片面追求过高的R2,否则会造成虽然模型对建模数据拟合很好,但预测效果不佳的现象。
2.方差分析和F检验
多元变量的方差分析见表4-4。
表4-4 方差分析表(n为实验数据数,m为自变量个数)
其中
将F与F的临界值Fm,n-m-1(α)来比较,当F>Fm,n-m-1(α)时,即所有回归系数=0原假设不成立,故可认为回归式(4-12)在α水平下
有意义,即认为该回归方程具有1-α的置信度。
3.残差分析
反映多元线性回归精度的估计公式为
需要强调的是,在回归分析时,不可为了追求大的R2(或r)和小的,在回归方程中引入过多的项数,使误差的自由度(n-m-1)为1甚至为0,这会使回归方程的预测功能大大降低。因此,回归分析的原始数据个数n必须足够大,使得误差的自由度(n-m-1)≥5,才能保证所得结论可靠。
例4-3 某种水泥在凝固时所释放的热量Y(cal·g-1)与水泥中下列四种化学成分的含量有关
x1——3CaO·Al2O3的含量(%)
x2——3CaO·SiO2的含量(%)
x3——4CaO·Al2O3·Fe2O3的含量(%)
x4——2CaO·SiO2的含量(%)
共观测了13组数据,见表4-5。
表4-5 水泥中的化学成分含量与水泥凝固时的放热量数据
续表
在MATLAB下输入
Y=[78.5;74.3;104.3;87.6;95.9;109.2;102.7;72.5;94.1;115.9;84.8;114.3;109.4];
>>X=[ones(13,1)x]%生成含常数列的自变量矩阵
>>[B,BINT,R,RINT,STATS]=regress(y,X,0.05)
可得
根据B数组可确定此种水泥凝固时所释放的热量Y与其所含的四种物质含量间的多元线性回归关系为
根据STATUS数组的第一个元素值可知,多元线性回归方程(4-18)的决定系数R2=0.978 64,统计参数F=91.639。
由于本例中用于回归分析的数据点个数n=13,自变量个数m=4,故n-m-1=13-4-1=8,在MATLAB下输入命令
>>finv(0.95,4,8)
可得统计参数F的临界值F4,8(0.05)=3.84,则F=91.639>>F4,8(0.05)=3.84,说明回归方程(4-18)可以通过统计检验。
但是,观察表4-5中的数据分布规律,变量x3与Y是呈负相关关系的(其相关系数r=-0.52),从图4-4可以直观地看出这点。
图4-4 自变量x3与因变量Y的关系
因此,回归方程(4-18)虽然能通过统计检验,但其反映的自变量x3与因变量Y之间的关系与实际数据间的规律不符。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。