首页 百科知识 多元线性回归

多元线性回归

时间:2022-02-18 百科知识 版权反馈
【摘要】:上一节介绍了一元线性回归问题。当因变量与各自变量之间为线性关系时,称为多元线性回归。因此,本节讨论的重点主要放在多元回归的计算机解决及其应用上。,xk和误差项ε的方程,称为多元回归模型。在多元线性回归模型中,与一元线性回归类似,我们对误差项ε有同样的3个基本假定。表85 多元线性回归结果续表a:因变量。但在多元回归中,这两种检验不再等价。

上一节介绍了一元线性回归问题。在许多实际问题中,影响因变量的因素往往有很多,这种一个因变量与多个自变量的回归问题就是多元回归。当因变量与各自变量之间为线性关系时,称为多元线性回归。多元线性回归分析的原理与一元线性回归分析的原理基本相同,但在计算机上要复杂得多,因而需借助计算机来完成。因此,本节讨论的重点主要放在多元回归的计算机解决及其应用上。

8.3.1 多元回归模型与回归方程

设因变量为y,k个自变量分别为x1,x2,… ,xk,多元回归线性模型(multiple regression model)是描述因变量y如何依赖于自变量x1,x2,… ,xk和误差项ε的方程,称为多元回归模型。

多元线性回归模型的一般形式课表示为:

y=β0+β1x1+β2x2+ …+βkxk+ ε (8.22)

其中,β0,β1,β2,… ,βk为模型的参数;ε为误差项。公式(8.22)表明:y是x1,x2,… ,xk的线性函数(β0+β1x1+β2x2+ …+βkxk)加上误差项ε误差项反映了除x1,x2,… ,xk对y的线性关系之外的随机因素对y的影响,是不能由x1,x2,… ,xk与y之间的线性关系来解释的变异性。

在多元线性回归模型中,与一元线性回归类似,我们对误差项ε有同样的3个基本假定。

8.3.2 参数的最小二乘法

回归方程中的^β0,^β1,^β2,…,^βk仍然是根据最小二乘法求得,也就是使残差平方和

Q= ∑(yi-^yi2= ∑(yi-^β0-^β1x1-…-^βkxk2=min (8.23)

由此,我们可以得到求解^β0,^β1,^β2,…,^βk的标准方程组为:

求解上述方程组需要借助于计算机,我们在此直接给出由SPSS输出的回归结果。

【例8‐3】 一家房地产评估公司想对某城市的房地产销售价格(Y)与地产估价(X1)、房产估价(X2)和使用面积(X3)建立一个模型,以便对销售价格做出合理解释。为此,搜集了20栋住宅房地产评估数据(见图8‐10)。请使用SPSS软件进行回归分析,并解释结果。

图8‐10 房地产价格原始数据

采用逐步回归法的SPSS回归结果如表8‐5所示。

表8‐5 多元线性回归结果

续表

a:因变量(销售价格)。

根据表8‐5,可写出回归模型:

Y=11.653+0.961X2+0.163X3+ε

其中,X2(房产估价)系数显著性检验的t值为4.794,显著性概率Sig=0.000,在α=0.01的显著性水平下不等于0;X3(使用面积)系数显著性检验的t值为2.470,显著性概率Sig=0.024,在α=0.05的显著性水平下不等于0。

8.3.3 回归方程的拟合优度

类似于一元回归,对于多元线性回归方程,我们需要用多重判定系数来评价其拟合优度。我们在一元回归中曾介绍了因变量变差平方和的分解,这一点同样适用于多元回归中因变量变差平方和的分解,即:

SST=SSR+SSE (8.25)

其中,SST= ∑(yi-¯y)2为总平方和;SSR= ∑(^yi-¯y)2为回归平方和;SSE= ∑(yi-^yi2为残差平方和。在多元回归中,回归平方和占总平方和的比例,称为多重判定系数(multiple coefficient of determination)。多重判定系数是估计多元回归方程拟合程度的度量,它反映了在因变量y的变差中可由估计的回归方程来解释的比例。其计算公式为:

直接利用SPSS的输出结果,可得模型的多重判定系数为0.881。

对于多重判定系数,我们还有一点需要注意:自变量个数的增加将影响因变量中可由估计回归方程来解释的变差数量。当自变量增加时,会使预测误差变得比较小,从而减少残差平方和SSE;由于回归平方和SSR=SST-SSE,所以当SSE变小时,SSR就会变大,进而使R2变大。因此,如果模型中增加了一个自变量,那么即使这个自变量在统计上并不显著,R2也会变大。为避免因增加自变量而高估R2,统计学家提出用样本量n和自变量的个数k去修正R2,以便计算出调整的多重判定系数。调整的多重判定系数的计算公式为:

其中,R2a的解释与R2类似。但是,两者的不同点在于:R2a同时考虑了样本量(n)和模型中参数个数(k)的影响,这就使得R2a值永远小于R2,而且R2a的值不会因模型中自变量个数的增加而越来越接近1。因此,在多元回归分析中,我们通常采用修正的多重判定系数。

R2的平方根称为多重相关系数,也称为复相关系数,它度量了因变量与k个自变量的相关程度。

8.3.4 显著性检验

在一元线性回归中,线性关系的检验(F检验)与回归系数的检验(t检验)是等价的,这一点很容易理解。比如,检验表明不良贷款与贷款余额之间有显著的线性关系,必然也意味着回归系数不会等于0,因为一元线性回归只有一个自变量。但在多元回归中,这两种检验不再等价。线性关系检验主要是检验因变量与多个自变量的线性关系显著,在各自变量中,只要有一个自变量与因变量的线性关系显著,F检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许我们就没有必要将这个自变量放进回归模型中了。

8.3.4.1 线性关系检验

线性关系检验是检验因变量与各变量之间的关系是否显著,也称为总体显著性检验。该检验的具体步骤为:

第1步,提出假设。

H0:β1=β2= … =βk=0

H1:β1,β2,… ,βk至少有一个不等于0

第2步,计算检验的统计量。

第3步,作出统计决策。给定显著性水平α,根据分子自由度 = k,分母自由度= n-k-1查分布表可得Fa。若F> Fa,则拒绝原假设;若F< Fa,则不拒绝原假设。根据计算机输出的结果,我们可利用P值直接作出决策:若P<α,拒绝原假设;若P>α,则不拒绝原假设。

【例8‐4】 根据例8‐3建立的回归方程,对回归方程线性关系进行显著性检验(α=0.05)。

解:

第1步,提出假设。

H0:β1=β2= … = βk=0

H1:β1,β2,… ,βk至少有一个不等于0

第2步,计算检验的统计量F。

第3步,作出统计决策。给定显著性水平α=0.05,根据分子自由度= 2,分母自由度F= 20-2-1=17查分布表可知:

Fα0.05(2,17)= 3.59

由于F=63.092> Fα0.05(2,17)=3.59,所以拒绝原假设H0。这意味着回归模型的线性关系是显著的。

8.3.4.2 回归系数检验

在回归方程通过线性关系的检验后,我们就可以对各个回归系数βi有选择地进行一次或多次检验。但究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定。此外,我们还应对回归系数检验的个数进行限制,以免犯过多的第 Ⅰ 类错误。回归系数检验的具体步骤如下:

第1步,提出假设。对于任意参数βi(i=1,2,… ,k),有

H0:βi=0

H1:βi≠0

第2步,计算检验的统计量t。

从表8‐5可知:t1= 4.794,显著性概率为0.000;t2= 2.470,显著性概率为0.024。说明,给定显著性水平α=0.05下,房产估价和使用面积均为销售价格的显著的影响因素。

多元回归显著性检验的计算过程:

阅读案例

回归分析在企业管理中的应用

某电信企业(以下称S公司)安装维护部承担某城市一固定区域电信管线维护与终端安装工作,主要工作有:住宅、厂房、办公楼电话和宽带的装移机及实装线路维护等。共有装维员工24人,分9个小组,每小组由2~3人组成,划定片区负责。S公司根据工作量(维护线数、装移机数)和服务质量指标采取类似承包的方式核定该部门员工收入。即:

部门收入=线路维护数×单价+装移机线数×单价+服务质量得分×奖惩金额

S公司管理层希望安装维护部门制定二次分配办法时考虑员工收入与本身技能情况、工作绩效挂钩,激励装维人员的工作积极性。

2008年年底,S公司管理部门选用安装维护部员工月均收入、月维护线数、终端装移数、故障修复数、客户不满意数、工龄、组长和岗位系数(岗位技能)为统计指标,采用回归方法分析该部门员工全年收入与相关工作量的影响因素。

通过分析发现,安装维护部二次分配中员工收入主要与员工本身技能情况相关性较强,与工作质量中的用户不满意数呈弱相关性,而与工作量无明显线性关系。此结果与公司期望的员工收入和员工技能情况、工作绩效挂钩的假设相差甚远。S公司要求装维部必须立即纠正现行分配办法,增加收入与工作量的相关性,体现按劳取酬、多劳多得的分配原则。

数据来源:http://club.topsage.com/thread‐1534694‐1‐1.html。

8.3.5 使用SPSS进行多元线性回归分析

(1)对例8‐3数据,单击“分析”→“回归”→“线性”,弹出如图8‐11所示的对话框。把销售价格选入因变量框,地产股价、房产股价和使用面积选入自变量框。在“方法”下拉框中选择“逐步”选项。

图8‐11 “线性回归”对话框

(2)在“统计量”按钮中选择“估计”和“模型拟合度”,其他保持系统默认值,单击主对话框中的“确定”,输出结果如表8‐6、表8‐7和表8‐8所示。

表8‐6 变量进入/剔除情况

a:因变量(销售价格)。

从表8‐6可知,首先进入方程的是房产估计变量,其次是使用面积变量,地产估价变量未能进入方程。

表8‐7给出了房产估价变量进入(模型1)及使用面积变量进入后(模型2)的回归模型拟合优度指标。最终回归模型的判断系数R2为0.881,修正的判断系数为0.867,说明房产估计与使用面积可以解释86.7%的变差,方程拟合效果非常好。标准估计误差为826.592,意味着根据房产估价与使用面积来估计销售价格时,平均的估计误差为826.592元。

表8‐7 模型汇总

a:预测变量(常量),房产估价。b:预测变量(常量),房产估价,使用面积。

表8‐8给出了模型1与模型2的线性关系显著性检验过程,包括回归平方和、残差平方和、总平方和、自由度、回归均方、残差均方、线性关系显著性检验的F统计量的值及显著性概率值。本例线性关系显著性检验的F统计量值为63.092,显著性概率Sig为0.000,因此,线性关系显著。

表8‐8 线性关系检验

a:预测变量(常量),房产估价。b:预测变量(常量),房产估价,使用面积。c:因变量(销售价格)。

表8‐9给出了模型1及模型2的回归系数及系数的显著性检验结果。估计模型2数据,可写出回归模型:^Y=11.653+0.961x1+0.163x2+ε。其中X2(房产估计)系数显著性检验的t值为4.794,显著性概率Sig=0.000,在α=0.01的显著性水平下不等于0;X3(使用面积)系数显著性检验的t值为2.470,显著性概率Sig=0.024,在α=0.05的显著性水平下不等于0。

表8‐9 回归系数及显著性检验

a:因变量(销售价格)。

知识链接

回归分析的注意事项

(1)回归分析要有实际意义,线性回归用于预测时,最好不要任意外推。

(2)注意线性回归分析的应用条件,自变量与应变量间的关系是线性的;自变量取不同值时,应变量的分布是正态的且方差相等;各观察值间是独立的。当资料不满足正态性和方差齐性时,亦可以建立多重线性回归方程,但不可估计容许区间和可信区间。

(3)方程与变量的检验,回归方程有统计学意义,并不表示方程中每个自变量均有统计学意义,因此除了对方程进行检验,还要对每个自变量的作用进行检验。

(4)变量的筛选方法很多,最常用的是逐步前进法和逐步后退法。用逐步回归分析所得结果不一定是全局最优的,而是局部最优的。运用逐步回归分析之目的,除建立方程外,更重要的是观察变量进出方程的过程,深入分析变量的独立作用和联合作用。因此,在进行逐步回归时,须多用几个剔选变量的阀值,考察不同界值时变量进出方程的情况,达到深入分析之目的。被剔除的变量不一定是与应变量无关或关系不大的变量,可能是其作用被其他变量代替了。如果根据专业知识基本明确某些变量与应变量有线性关系,则这些变量可不参加变量的筛选,而直接让这些变量保留在方程中,如果这些变量参加了变量剔选,且被剔出方程,则需要给予解释。在实际工作中,可以多建立几个回归方程,容许多个方程同时存在,并通过以后的实践来考察其优劣。

(5)样本含量,有的学者认为,多元回归分析需要的样本含量一般是所研究的变量数的10~20倍。这一要求在复相关系数大于0.5时尚可,而对较小的复相关系数可能仍然偏小。

【本章小结】

本章首先介绍了相关分析。相关分析是描述与测量变量间关系强度的统计方法。我们借助于散点图可以判断变量之间的关系形态,而利用相关系数则可以测度变量之间的关系强度。

回归分析侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个自变量的变化对因变量的影响程度。具体说来,回归分析要解决的问题主要包括:从一组样本数据出发,确定出变量之间的数学关系式;对这些关系式的可信度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些变量的影响是不显著的;利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特殊变量的取值,并给出这种估计或预测的可靠程度。

一元线性回归是只涉及一个自变量的回归问题。其基本内容是对模型的参数进行估计和检验,并对模型的拟合优度进行评价,然后利用所建立的回归方程根据自变量的取值来预测因变量的取值。多元线性回归分析的基本原理与一元线性回归类似,但计算要复杂得多,我们通常需要借助计算机来完成。

复习思考题

1.解释相关关系的含义,说明相关关系的特点。

2.相关分析主要解决哪些问题?

3.相关分析中有哪些基本假定?

4.简述相关系数的性质。

5.为什么要对相关系数进行显著性检验?

6.简述相关系数显著性检验的步骤。

7.解释回归模型、回归方程、估计的回归方程的含义。

8.一元线性回归模型中有哪些基本假定?

9.简述参数最小二乘估计的基本原理。

11.解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的关系。

12.简述判定系数的含义和作用。

13.在回归分析中,F检验和t检验各有什么作用?

案例分析

案例一:航空公司的投诉率

美国各航空公司业绩的统计数据公布在《华尔街日报1998年鉴》(The Wall Street Journal Almanac 1998)上,有关航班正点到达的比率和每10万名乘客投诉的次数的数据如表8‐10所示。请回答以下问题:

(1)画出这些数据的散点图,判断两个变量之间存在什么关系。

(2)求出描述投诉率是如何依赖航班按时到达正点率的估计的回归方程。

(3)对估计的回归方程的斜率作出解释。

(4)如航班按时到达的正点率是80% ,估计每10万名乘客投诉的次数是多少?

表8‐10 航班正点率与投诉率数据

案例二:牙膏的销售量

某牙膏制造企业要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部搜集了过去30个销售周期公司生产的牙膏的销售量Q(百万支)、销售价格P(元)、广告费用AD (百万元)的数据,以及同期其他厂家生产的同类牙膏的平均销售价格 Py(元)的数据,如图8‐11所示。试根据这些数据建立数学模型,分析牙膏销售量与其他因素的关系,为制定价格策略和广告投入策略提供数量依据。

表8‐11 牙膏销售量及其影响因素数据

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈