首页 百科知识 线性回归模型分析

线性回归模型分析

时间:2022-10-21 百科知识 版权反馈
【摘要】:回归模型中的参数估计出来之后,还必须对其进行检验。回归模型的检验包括理论意义检验和统计检验。此外,还有经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等,这些检验对于社会经济现象的定量分析具有特别重要的意义,这里不予讨论。
线性回归模型分析_社会统计学

第一节 线性回归模型分析

相关分析与回归分析模型都是研究两变量之间的关系。其差异是,相关分析要求X、Y变量都是随机变量,而回归分析中要求X变量是给定、可控变量,Y变量是随机变量。

一、数学模型

回归分析一般在相关分析基础上进行的,线性回归模型是变量之间存在的各种关系中最简单的形式。

1.一元回归数学模型

一元回归常用于分析两个变量之间的最简单的关系式,其基本形式是

其中xi、y^i分别是第i个样本的自变量、因变量的理论值(因变量实际值为yi),b0、b1是常数,分别代表回归直线的截矩和斜率。用最小二乘法,计算回归系数b0、b1如下:

其中xi、yi为已知值,为求回归系数,对b0、b1求一阶导数,并令导数为0,即得方程组

2.回归系数的显著性检验

相关系数r类似,这里求出的回归系数仅是随机抽取的一部分样本,而不是总体全部样本。要检验两个变量之间是否有线性关系,主要是要检验直线斜率β1是否为零。检验假设为H0∶β1=0;备择假设H1∶β1≠0。

其次,计算统计量t∶t=(b1-β1)/SEb              (11.4)

其中SEb是回归系数的标准误差,当假设成立β1=0时,就可将计算的统计量t值,与具有n-2个自由度的学生氏t分布表载值进行比较,从而判别回归系数是否异于0。由于回归系数b1=r2*Lyy/L1y,因此若证明了β1与0有显著性差异,也就证明了相关系数ρ≠0,即相关和回归计算有效。

3.回归方程的方差分析

对于回归方程的总体检验常通过方差分析来进行检验,比较SSR与SSE来构成统计量:

F=(SSR/1)/(SSE/(n-2))             (11.5)

通过F检验,自由度分别为1,n-2,视回归方程SSR是否显著地大于剩余方差SSE/(n-2),从而判断总变异中各变量回归的综合贡献是否显著,或x与y的线性关系是否显著。

二、回归系数的计算

与相关系数类似,回归系数的计算大致也有如下多种方法。仍以Excel软件为例,该软件有电子表格、函数和固定模块程序三种计算方法;可以直接使用公式(11.3)进行计算,b1等式中间公式的优点是对于初学者容易记忆,但计算需要用两步,先计算X、Y的平均值,然后才能计算回归系数;而由等式右面公式通过数学变化而获得,则可以一步计算成功。

[例11.1]仍在[例10.5]的基础数据上,假设1989—2006年三产人口数(X)和人均GDP(Y)资料如表10.4所示。利用这些数据可计算样本间相关系数。

以上公式表示,该地三产人口数和人均GDP密切相关,当三产人口每增加1万人,则该地人均GDP将增加23元予以适应。

三、回归模型检验

回归模型中的参数估计出来之后,还必须对其进行检验。若通过检验发现模型有缺陷,则必须回到模型的设定阶段。重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再估计参数。

回归模型的检验包括理论意义检验和统计检验。理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。有些函数中,β1的取值区间有一定的区间要求,若根据样本数据估计的β1超过这个区间过大,则不能通过理论意义检验。在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件。统计学检验是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。此外,还有经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等,这些检验对于社会经济现象的定量分析具有特别重要的意义,这里不予讨论。

1.拟合程度的评价r2

所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数(又称决定系数)r2。它是建立在对总离差平方和进行分解的基础之上的。

图11.1 总离差分解示意图

总离差平方和(SST)等于回归平方和(SSR)与剩余变差(SSE)之和。仍用r表示x与y的线性关联程度,则r2等于回归平方和(SSR)与总离差平方和(SST)的积,在回归分析中SSR/SST=1-SSE/SST。即r2是被模型解释掉的因变量变异的比例。若r2=0.62说明x变量的变异中有62%是由y变量的变异造成的,换言之,变量x解释了y变化的62%。

2.估计标准误差Sy/x

[例11.2]在[例10.5]的基础上,根据三产人口与人均GDP的回归直线方程,求估计标准误差。

[解]计算过程参见表11.1,并参照[例10.5]的计算结果,已知

计算结果表明,用回归线估计依变量y的估计标准误差为2153.2(元/人)。

表11.1          估计标准误差的计算方法

续上表

如果已求得回归直线的各个参数,可以用另一公式计算估计标准误差,即

[例11.3]试以(11.8)式,求算上例的估计标准误差。

[解]计算过程参见表11.15,并参照[例10.5]的计算结果,已知

∑y2=3141879271,∑y=195103,∑xy=249531372,b0=-13586.8,b1=22.92,代入(11.8)式得

估计标准误差Sy/x在某种意义上等价于标准差S,Sy/x表示预测值与实际因变量的离差。

3.回归的区间估计

(2)所有正态分布都具有相同的标准差,即所谓的同方差性。

4.Excel模块计算方案

除了前面讲的表格计算、函数计算,对于复杂模型Excel工作表还提供模块计算方案。该模块的使用和前两种方法不一样,是一种可选择模块,需要安装特殊模块,或者是Excel全部安装。安装以后要激活,具体是打开Excel工作表中,选择“工具”及“加载宏”,打开对话框,选择“分析工具库”。此时,打开“工具”栏就可见“数据分析”栏,进行分析。

首先,将数据输入Excel工作表中,选择菜单“工具”中的“数据分析”,打开对话框,选择其中“回归”,打开对话框并输入如图11.2信息后,点确定即可在D2单元右下输出相关结果,详细见图11.3。

图11.2 一元线性回归模型计算法示意图

四、多元线性回归分析

由于社会经济现象是复杂的,因变量往往不只是受一个自变量的影响,而是受两个或两个以上自变量的影响,这就需要进行多元回归分析。可以期望的是,借助于多个自变量的相关资料,我们在估算因变量值时会有更小的误差。

图11.3 一元线性回归模型输出结果示意图

1.多元回归模型及常规方程

用于分析n个自变量与因变量之间的关系,其基本形式是:

用最小二乘法求回归系数b0,b1,b2、……bn

其中自变量x1i,x2i,x3i,……xni,因变量yi都是具体已知观察值,为求回归系数,对b0,b1,b2,b3……bn求导,并令其一阶导数为0,得联立常规方程如下:

(11.12)

[例11.4]私人小汽车拥有量增长情况是社会普遍关心的问题,一方面小汽车是财富的象征,另一方面也造成了空气污染、交通堵塞等重要原因。假设私人小汽车拥有量与人均地区生产总值(GDP)及地区等级公里长度有关,以2006年江苏13个地区为例,这里研究私人小汽车发展与该两个因素之间的关系。

图11.4 多元回归模型计算法示意图

由上述计算,可以建立最终的方程,启示我们,若某地区人均GDP增加10000元,汽车拥有量将增加5.95万辆;而地区等级公路增加1000公里,则私人小汽车将增加1.23万辆,计算同时给出该方程的解释能力为82%,调整以后的解释能力为79%。

2.多元回归系数的显著性检验

多元回归系数的检验有三个主要参数,分别是多元复相关系数R、标准误差Sy,以及方差检验值F。而这些计算机的Excel模块几乎全部计算出来了。但是,若要比较多元回归之间各个系数的好坏,则要进行偏回归系数的显著性检验或者计算并比较各个标准化以后的回归系数。

偏回归系数显著性检验的基本假设:H0∶βj=0;备择假设H1∶βj≠0。

同样构造t统计量:t=bj/SE(bj),若计算t值大于表载值t,则偏回归系数是显著的,否则偏回归系数不显著(即总体偏回归系数有可能等于0)。值得注意的是,有的偏回归系数不显著时,总体回归方程可能仍然显著。因此,在多元回归分析中方差检验是对整个回归方程整体的检验,与单独地进行每个偏回归系数的显著性检验不一定等效。就是说经方差分析得出的结论,若回归方程显著,方程中每一个偏回归系数不一定都显著,但至少有一个是显著的。这时因子的取舍应以总体回归方程显著性检验为依据。

3.多元线性回归方程的方差分析

与一元回归方程的检验类似,多元回归方程也采用方差检验,首先构造统计量:

F=(SSR/dfR)/(SSE/dfE)          (11.13)

n为样本容量,P为自(独立)变量数。计算的F值大于表载值F,说明本方程回归效果是显著的。另外,我们可用多元相关系数R来度量各自变量与因变量的综合联系程度。多元相关系数R的平方为多元测定系数R2,它被定义为:

即在多元线性回归方程中,测定系数R2是y的全部变异中被回归平方和解释掉的那部分所占的比例,即回归平方和占总离差平方和的比重。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈