首页 百科知识 一元回归分析

一元回归分析

时间:2022-12-08 百科知识 版权反馈
【摘要】:一元线性回归方程的形式为:一元线性回归方程的图示是一条直线,因此也称为线性回归方程。对于一元线性回归,估计的回归方程可表示为:其中^,β0是估计的回归直线在y轴上的截距^;β1是直线的斜率。回归直线^yi=^β0+^β1xi可用来估计或预测因变量y的取值。

相关分析的目的在于测度变量之间的关系强度,它所使用的测度工具就是相关系数。回归分析侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。具体说来,回归分析主要解决以下几个方面的问题:

(1)从样本数据出发,确定出变量之间的数学关系式。

(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。

(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

8.2.1 一元线性回归模型

8.2.1.1 回归模型

在回归分析中,被预测或被解释的变量,称为因变量(dependent variable),用y表示;用来预测或解释因变量的一个或多个变量,称为自变量(independent variable),用x表示。

当回归中只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系,称为一元线性回归。在回归分析中,我们假定自变量x是可控制的,而因变量y是随机的,但在很多情况下并非如此。本章所讨论的回归方法既适用于变量预先固定的情况,也适用于自变量随机的情况,但固定自变量的情况比较容易描述,因此我们主要讲述固定自变量的回归问题。

对于具有线性关系的两个变量,我们可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程,称为回归模型(regression model)。只涉及一个自变量的一元线性回归模型可表示为:

y=β0+β1x+ε (8.3)

在一元线性回归模型中,y是x的线性函数(即β0+β1x)加上误差项εβ0+β1x反映了由于x的变化而引起的y的线性变化;ε是称为误差项的随机变量,它反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。式中的β0和β1称为模型的参数。

8.2.1.2 回归方程

根据回归模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0+β1x。也就是说, y的期望值是x的线性函数。

描述因变量 y的期望值如何依赖于自变量x的方程,称为回归方程(regression equation)。一元线性回归方程的形式为:

E y =β0+β1x (8.4)

一元线性回归方程的图示是一条直线,因此也称为线性回归方程。式中的β0是回归直线在y轴上的截距,是x=0时y的期望值;β1是直线的斜率,它表示当x每变动一个单位时,y的平均变动值。

8.2.1.3 估计的回归方程

如果回归方程中的参数β0和β1已知,那对于一个给定的x值,我们利用(8.5)式就能计算出y的期望值。但由于总体回归参数β0和β1是未知的,所以我们必须利用样本数据去估计它们。如果用样本统计量^β0和^β1代替回归方程中的未知参数β0和β1,这就得到了估计的回归方程。对于一元线性回归,估计的回归方程可表示为:

^y=^β0+^β1x (8.5)

其中^,β0是估计的回归直线在y轴上的截距^;β1是直线的斜率。(8.5)式表示对于一个给定的值,^y是y的估计值。同时^,β1也表示x每变动一个单位时,y的平均变动值。

知识链接

关于线性回归模型的几个假定

(1)因变量y与自变量x之间具有线性关系。

(2)在重复抽样中,自变量x的取值是固定的,及假定x是非随机的。

(3)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=β0+β1x。

(4)对于所有的x值,ε的方差σ2都相同。

(5)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)。

8.2.2 参数的最小二乘估计

对于第i个x值,估计的回归方程可表示为:^yi=^β0+^β1xi

对于x和y的n对观察值,用于描述其关系的直线有多条,究竟用哪条直线来代表两个变量之间的关系,需要有一个明确的原则。此时,我们自然会想到距离各观测点最近的一条直线,如果用它来代表x和y之间的关系,那么该直线与实际数据的误差将比其他任何直线都小。德国科学家卡尔・高斯(1777—1855)提出用最小化图(见图8‐6)中垂直方向的离差平方和来估计参数^β0和^β1。最小二乘法的思想可用图8‐6表示。

图8‐6 最小二乘法

用最小二乘法拟合的直线具有一些优良的性质。首先,根据最小二乘法得到的回归线能使离差平方和达到最小,虽然这并不能保证它就是拟合数据的最佳直线,但这毕竟是一条与数据拟合良好的直线。其次,我们由最小二乘法求得的回归直线可知β0和β1的估计量的抽样分布。最后,在某些条件下,β0和β1的最小二乘估计量同其他估计量相比,其抽样分布具有较小的标准差。正是基于上述性质,最小二乘法被广泛用于回归模型的参数估计

根据最小二乘法,令

Q= ∑(yi-^yi2= ∑(yi-^β0-^β1xi2=min (8.6)

在给定了样本数据后,Q是^β0和^β1的函数,而且总是存在最小值。根据极值定理,对Q求相应于^β0和^β1的偏导数,并令其等于0,便可求出^β0和^β1,即:

经简化得到求解^β0和^β1的标准方程组为:

解上述方程组,得:

由上式可知。当x=¯x时,y=¯y,即回归直线^yi=^β0+^β1xi通过点(¯x,¯y),这是回归直线的重要特征之一。

【例8‐2】 图8‐7是20个城市写字楼出租率和每平方米月租金数据。求出租率对月租金的估计方程。

图8‐7 出租率与租金数据

根据公式(8.9)可计算回归方程的常数项为49.318,变量每平方米租金的系数为0. 249。估计的回归方程为:^y=49.318+0.249x。

知识链接

最小二乘法历史简介

1801年,意大利天文学家朱赛普・皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希・奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。

法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。

1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯—马尔科夫定理。

8.2.3 回归直线的拟合优度

回归直线^yi=^β0+^β1xi可用来估计或预测因变量y的取值。但估计或预测的精度如何,将取决于回归直线对观测数据的拟合程度。可以想象,如果各观测数据的散点都落在这一直线上,那么这条直线就是对数据的完全拟合,该直线充分代表了各个点,此时用x来估计y是没有误差的。各观察值越是紧密围绕直线,说明直线对观测数据的拟合程度越好,反之则越差。回归直线与各观测点的接近程度称为回归直线对数据的拟合优度(goodness of fit)。为说明直线的拟合优度,我们需要计算判定系数。

8.2.3.1 判定系数

判定系数是对估计的回归方程拟合优度的度量。为说明它的含义,我们需要对因变量y的取值的变差进行研究。

因变量y的取值是不同的,y取值的这种变动称为变差。变差的产生来自于两个方面:①由于自变量x的取值不同造成的;②除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y与其均值¯y之差(y-¯y)来表示。n次观察值的总变差可由这些变差的平方和来表示,称为总平方和(total sum of squares),记为SST,即

SST= ∑(yi-¯y)2(8.10)

我们从图8‐8中可以看出,每个观测点的变差都可分解为:

y-¯y= (y-^y)+(^y-¯y) (8.11)

图8‐8 变差分解图

将上式两边平方,并对所有n个点求和,有

∑(yi-¯y)2= ∑(yi-^yi2+ ∑(^yi-¯y)2+2∑(yi-^yi)(^yi-¯y) (8.12)

可以证明:

∑(yi-^yi)(^yi-¯y)=0

因此,有

∑(yi-¯y)2= ∑(yi-^yi2+ ∑(^yi-¯y)2(8.13)

所以总平方和SST可分解为回归平方和与残差平方和两部分:① ∑(^yi-¯y)2是回归值^yi与均值¯y的变差平方和。根据估计的回归方程,估计值^yi=^β0+^β1xi,因此我们可以把(^yi-¯y)看作是由自变量x的变化引起的y的变化,而其平方和∑(^yi-¯y)2则反映了y的总变差中由于x与y之间线性关系引起的y的变化部分,它是可以由回归直线来解释的yi的变差部分,称为回归平方和(sum square of regression),记为SSR。②∑(yi-^yi2是各实际观测点与回归值的残差(yi-^yi)平方和,它是除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的yi的变差部分,称为残差平方和或误差平方和(sum square of error),记为SSE。这3个平方和的关系为:

总平方和(SST)= 回归平方和(SSR)+残差平方和(SSE) (8.14)

我们从图8‐8中可以直观地看出,回归直线拟合的好坏取决于SSR及SSE的大小,或者说取决于回归平方和SSR占总平方和SST的比例大小。各观测点越靠近直线,SSR/SST越大,表示直线拟合得越好。

回归平方和占总平方和的比例,称为判定系数(coefficient of determination),记为R2

判定系数R2测度了回归直线对观测数据的拟合程度。若所有观测点都落在直线上,那么残差平方和SSE=0,R2=1,拟合是完全的;如果y的变化与x无关,那么x完全无助于解释y的变差,此时^y= ¯y,而R2=0。可见,R2的取值范围是[0,1]。R2越接近1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,可用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好;反之,R2越接近0,回归直线的拟合程度就越差。

根据例8.2的数据,计算租金与出租率的回归判定系数为0.632,表明:在出租率取值的变差中,有63.2%可以由出租率与月租金之间的线性关系来解释;或者说,在出租率取值的变动中,有63.2%是由月租金所决定的。

8.2.3.2 估计标准误差

如前所述,判定系数可以用于度量回归直线的拟合程度,相关系数也可以起到类似的作用,而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。对于一个变量的诸多观测值,我们可以用标准差来测度各观测值在其平均数周围的分散程度。与之类似的一个量可以用来测度各实际观测点在直线周围的分布状况,这个量就是估计的标准误差,也称为估计量的标准差或标准误差。

均方残差(mean squared error,MSE)的平方根,称为估计量的标准差(standard error of estimate),或简称为标准误,用se来表示。

估计标准误差是对各观测点在直线周围分散程度的一个度量值,它是对误差项ε的标准差σ的估计。其计算公式为:

从上式容易看出,估计标准误是残差平方和SSE除以它的自由度n-2之后的平方根。

估计标准误差se可以看作是在排除了x对y的线性影响后,y随机波动大小的一个估计量。从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量y时的预测误差大小。若各观测点越靠近直线,那么se就越小,回归直线对各观测点的代表性就越好,而根据估计的回归方程进行的预测也就越准确。

根据例8.2的数据可计算得出租率与月租金之间线性回归的估计标准差为2.686,意味着根据租金来估计出租率时,平均的估计误差为2.686个百分点。

8.2.4 显著性检验

回归分析的主要目的是根据所建立的估计方程,用自变量x来估计或预测因变量y的取值。我们在建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量x和y之间的关系,还需要通过检验才能证实。

如前所述,在根据样本拟合回归方程时,我们实际上已经假定变量x与y之间存在线性关系,即y=β0+β1x+ε,并假定误差项ε是一个服从正态分布的随机变量,而且对不同的x具有相同的方差。这些假设是否成立,都需通过检验才能证实。

回归分析中的显著性检验主要包括两个方面的内容:①线性关系的显著性检验;②回归系数的显著性检验。

8.2.4.1 线性关系的显著性检验

线性关系的显著性检验是检验自变量x和因变量y之间的线性关系是否显著,也即,它们之间能否用一个线性模型y=β0+β1x+ε来表示。为检验线性关系是否显著,我们需要构造用于检验的一个统计量。该统计量的构造是以回归平方和(SSR)以及残差平方和(SSE)为基础的。我们将SSR除以其自由度(自变量的个数k,一元线性回归中自由度为1)后的结果称为均方回归,记为MSR;将SSE除以其自由度(n-k-1,一元线性回归中自由度为n-2)后的结果称为均方残差,记为MSE。如果原假设成立(H0:β1=0,两个变量之间的线性关系不显著),则比值MSR/MSE的抽样分布服从分子自由度为1、分母自由度为n-2的F分布,即

因此,当原假设H0:β1=0成立时,MSR/MSE的值应接近1;当原假设不成立时,那么MSR/MSE的值将变得无穷大。因此,较大的SR/MSE将导致拒绝原假设,此时可以断定变量x与y之间存在着显著的线性关系。线性关系检验的具体步骤如下:

第1步,提出假设。

H0:β1 =0,两个变量之间的线性关系不显著

第2步,计算检验统计量F。

第3步,作出决策。确定显著性水平α,并根据分子自由度df1=1和分母自由度df2=n-2查F分布表,找到相应临界值Fα。若F> Fα,拒绝H0,表明两个变量之间的线性关系是显著的;若F< Fα,不拒绝H0,没有证据表明两个变量之间的线性关系是显著的。

线性回归方程显著性检验的统计量F= 30.933,显著性概率0.000,因此,线性关系显著。

8.2.4.2 回归系数的显著性检验

回归系数的显著性检验是要检验自变量对因变量的影响是否显著的问题。在一元线性回归模型y=β0+β1x+ε中,如果回归系数β1=0,那么回归线是一条水平线,表明因变量y的取值不依赖于自变量x,即两个变量之间没有线性关系;如果回归系数β1≠0,我们也不能肯定得出两个变量之间存在着线性关系的结论,此时要看这种关系是否具有统计意义上的显著性。回归系数的显著性检验就是检验系数β1是否等于0。为检验原假设H0:β1=0是否成立,我们需要构造用于检验的统计量。为此,我们就需要研究回归系数β1的抽样分布。

估计的回归方程^yi=^β0+^β1xi是根据样本数据计算的,在抽取不同的样本时,我们就会得出不同的估计方程。实际上,^β0和^β1都是根据最小二乘法得到的用于估计参数β0和β1的统计量,它们都是随机变量,也都有自己的分布。根据检验的需要,我们在此只讨论^β1的分布。统计证明,^β1服从于正态分布,其数学期望为E(^β1)=β1,标准差为:

其中,σ为误差项ε的标准差。

由于σ未知,我们将σ的估计值se代入上式,就可得到σ^βi的估计量,即^β1的估计的标准差为:

这样一来,我们就可以构造出用于检验回归系数^β1的统计量t:

该统计量服从自由度为n-2的t分布。如果原假设成立,则β1=0,检验的统计量为

回归系数显著性检验的具体步骤如下:

第1步,提出假设。

H0:β1=0,H1:β1≠0

第2步,计算检验统计量t。

第3步,作出决策。确定显著性水平α,并根据自由度df = n-2查t分布表,找到相应临界值tα/2。若 t > tα/2,拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,也就是两个变量之间存在着显著的线性关系;若 t < tα/2,不拒绝H0,没有证据表明x对y的影响是显著的,或者说,两者之间尚不存在显著的线性关系。

根据例8‐2数据计算,月租金回归系数的估计标准误差为0.045,t值为5.562,伴随概率为0.000,说明月租金对出租率的影响显著。

一元线性回归估计与检验计算过程

(1)参数的估计

(2)判定系数

(3)F检验

8.2.5 使用SPSS进行一元回归分析

(1)针对例8‐2数据,单击“分析”→“回归”→“线性”,进入“线性回归”对话框,如图8‐9所示。把“出租率”选入“因变量”框,“每平方米租金”选入“自变量”框。

图8‐9 “线性回归”对话框

(2)“统计量”按钮中选择“估计”和“模型拟合度”,其他保持默认值。主菜单下点击“确定”,输出运算结果见表8‐2、表8‐3和表8‐4所示。

表8‐2 回归系数及其检验

a:因变量(出租率)。

表8‐3 模型汇总

a:预测变量(常量),每平方米月租金。

表8‐4 线性关系检验

a:预测变量(常量),每平方米月租金。b:因变量(出租率)。

非标准化系数下的B栏给出了线性回归方程的常数项为49.318,变量每平方米租金的系数为0.249。据此可以写成出租率与租金之间的直线回归模型:

Y=49.318+0.249X+ε

标准误差栏给出了回归系数的标准误差。用于检验回归系数的 t统计量的值为5. 562,显著性概率为0.00,因此,自变量的系数不为0,租金是影响出租率的一个显著性因素。另外,输出结果中还给出了标准系数,是标准化预测变量和响应变量后的回归系数。

模型汇总给出了线性回归方程的判定系数R2=0.632,说明租金可以解释出租率63. 2%的变差,方程拟合效果较好。判定系数的平方根R=0.795,为租金与出租率之间的相关系数,两个变量为中等程度线性相关。调整R2值可忽略,在一元线性回归中,判定系数不需要修正。标准估计的误差2.686,意味着根据租金来估计不良贷款时,平均的估计误差为2.686个百分点。

线性回归方程显著性检验的统计量F=30.933,显著性概率0.000,因此,线性关系显著。

【经典人物】

高尔顿与回归

法兰西斯・高尔顿(Francis Galton)是查尔斯・达尔文的表兄,是一名英格兰维多利亚时代的文艺复兴人、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家。

“回归”一词起源于高尔顿进行的遗传学研究。他在研究子女身高与父母身高之间关系时发现,下一代人身高有回归于同时代人类平均身高的趋势。也就是说,尽管父母高,儿女也高,父母矮,儿女也矮,但对于父母双亲都异常高或者矮的情况,儿女的身高则有走向同时代人类平均身高的趋势。之后统计学家K.皮尔逊(Karl Pearson)又用一些家庭的一千多名成员的身高数据证实了这一现象,从而产生了回归(regression)这一名词,用高尔顿的话说,这是“回归到中等 (regression to mediocrity)”。

当然,高尔顿的“回归到中等”概念与现代统计学中的“回归”并不相同,但是却是“回归”一词的起源。在此后的研究中,高尔顿还第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈