首页 百科知识 用【回归】数据分析工具建立一元线性回归方程

用【回归】数据分析工具建立一元线性回归方程

时间:2022-10-02 百科知识 版权反馈
【摘要】:经过消除了观测值个数和变量个数的影响,校正判定系数R2单独反映变量之间相关关系密切程度,特别在减少或增加一个自变量之后,来观测调整的判定系数的变化,可以确定减少或增加的变量对回归方程的影响。图7-13所示是方差分析运算结果,是回归方程整体的显著性检验结果。Significance F,通常也称为P值。若小于显著水平0.05,则说明参数有效,但一般情况下考虑回归系数b的t值和概率。如果其观测值服从正态分布,正态概率图将是一条直线。

例7.10 以图7-1中数据为例,通过【回归】数据分析工具建立一元线性回归方程。

(1)插入工作表,建立数据文件

参照图7-1输入数据。

(2)调用【回归】数据分析工具

单击一空白单元格,依次单击功能区选项【数据】→【数据分析】,在弹出的对话框中选择【回归】,然后单击【确定】按钮,出现【回归】对话框,如图7-11所示。

图7-11 【回归】数据分析工具

(3)输入参数并设置输出结果

单击【Y值输入区域(Y)】右侧文本框,将光标置于其中,然后选择B1:B11单元格区域;单击【X值输入区域(X)】右侧文本框,将光标置于其中,然后选择A1:A11单元格区域。由于选择A1与B1单元格时选中了指标名称,所以单击【标志】左侧的“□”,使其中出现“√”,同时单击选中以下复选框:【置信度95%】、【残差(R)】、【残差图(D)】、【标准残差(T)】、【线性拟合图(I)】、【正态分布概率图(N)】(注意:千万不能选择“常数为0”的复选框)。

(4)确定输出位置

在【输出选项】下选定【输出区域(O)】,将光标置于其右侧文本框,然后单击一空白单元格,假设单击E3单元格,最后单击【确定】按钮。

(5)运算结果说明

①【Summary Output】。

【Summary Output】的含义是结果摘要,逐行说明如下(图7-12):

图7-12 结果摘要

【Multiple R】为复相关系数,当复相关系数取值[0, 1]时,其取值越接近于1,说明两个变量之间线性相关关系越密切。

【RSquare】意为R的平方,即【Multiple R】的平方,通常理解为判定系数R2或拟合优度,是以回归平方和占总的离差平方的比率来表示回归方程拟合优度的评价指标。判定系数R2越大,说明与实际观测值越接近,回归模型y^=a+bx的拟合优度越好。

【Adjusted RSquare】为校正判定系数R2。经过消除了观测值个数和变量个数的影响,校正判定系数R2单独反映变量之间相关关系密切程度,特别在减少或增加一个自变量之后,来观测调整的判定系数的变化,可以确定减少或增加的变量对回归方程的影响。

标准误差】,是【方差分析】中【残差】的【MS】值2.65693的平方根。它说明实际值与其估计值之间差异程度的指标,可以说明以回归直线为中心的所有相关点的离散程度。

【观测值】即对应的是样本单位数目,即有n=10。

②【方差分析】。

图7-13所示是方差分析运算结果,是回归方程整体的显著性检验结果。它是对所有回归系数是否同时等于0(注:即回归方程整体效果)的一种显著性检验,其检验步骤为:

图7-13 方差分析

第一步,提出假设:H0:b=0,H1:b≠0。

第二步,构造F统计量,设SSR=,为回归平方和;SSE=,为残差平方和。统计量

即统计量F服从第一自由度为1、第二自由度为n-2的F分布。

第三步,做出判断,当F≥Fα(1,n-2)时,拒绝原假设H0,接受备择假设,则认为x与y的线性相关关系显著,即回归方程显著;若F<Fα(1,n-2),接受H0,则x与y线性相关关系不显著,即回归方程不显著。

Significance F,通常也称为P值。可根据P值比较来做出决策,其判别标准是:当Significance F≥α时,F<Fα(1,n-2),此时接受原假设H0;当Significance F<α时,F≥Fα(1,n-2),此时应拒绝原假设H0

在图7-13中,【回归分析】即为回归平方和;【残差】即为残差平方和;【总计】为总的离差平方和;【df】为自由度;【SS】列即代表了SST、SSR、SSE;【MS】列即代表了MSR、MSE;【F】即为F统计量;【Significance F】是F统计量对应概率值。

本例中,F=683.47,对应的概率值为0,即Significance F为0。若α=0.05,Significance F<α,拒绝原假设H0,授受备择假设H1,即b≠0,表示回归方程显著。

③回归参数。

回归参数如图7-14所示,现分别说明如下。

图7-14 回归方程参数

第一列和第二列【Coefficien】:【Intercept】的含义是截距。本例中的截距a=11.61,与自变量“广告投入(万元)”相乘的回归系数b=0.885。

第三列【标准误差】是指回归方程参数的标准误差,标准误差越小,说明参数越精确。

第四列【t Stat】是回归参数除以对应的标准误差得到的t统计量值。

第五列【P-value】是回归参数t统计量值对应的概率(双侧)。若小于显著水平0.05,则说明参数有效,但一般情况下考虑回归系数b的t值和概率。

第六列至第九列是回归参数95%置信区间,第六列与第八列重复,第七列与第九列重复。

本例中,回归系数b的值对应概率小于0.05,说明参数0.885有效,即自变量“广告投入(万元)”与因变量“月均销售额(万元)”相关关系显著,=11.61+0.885x。

④【RESIDUAL OUTPUT】。

如图7-15所示,【RESIDUAL OUTPUT】的含义是残差输出结果,残差输出结果中包括【观测值】序号、【预测 月均销售额(万元)y】、【残差】、【标准残差】四列。

图7-15 残差输出

【预测 月均销售额(万元)y】是将自变量“广告投入(万元)”观测值代入方程=11.61+0.885x后,逐一计算得出的。

【残差】=“月均销售额的(万元)”-“预测 月均销售额(万元)y”,即“月均销售额”的实际值减去其预测值。

【标准残差】=(残差-残差的平均数)÷残差的标准差,可用【标准残差】这一列数据绘制【广告投入(万元)x Residual Plot】(广告投入(万元)残差图)(图7-16)。

图7-16 残差图

残差散点图中的点分布是没有明显的趋势的(没有规则),即越是随机,回归的结果就越是可靠。

根据“月均销售额(万元)y”和“预测月均销售额(万元)y”可以绘制【广告投入(万元)x Line Fit Plot】(广告投入(万元)x线性拟合图)(图7-17),两者点分布趋势越接近,说明回归结果越准确。

图7-17 线性拟合图

⑤【PROBABILITYOUTPUT】。

【PROBABILITYOUTPUT】的含义是【正态概率图】,正态概率图用于检查一组数据是否服从正态分布。图7-18所示是“月均销售额(万元)”观测值与正态分布数据之间的函数关系的散点图。如果其观测值服从正态分布,正态概率图将是一条直线。

图7-18 正态概率图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈