首页 理论教育 一元线性回归

一元线性回归

时间:2022-02-12 理论教育 版权反馈
【摘要】:用前一节相关系数的概念来说,具有相关关系的变量是指相关系数满足的变量。回归分析是研究具有“相关关系”的自变量与应变量之间的统计规律性。从而由所得样本可给出未知参数α和β的点估计,分别记为为y关于x的一元线性回归方程。因此,我们必须对回归方程进行检验。一般求回归方程的目的是找出响应变量与解释变量之间的关系,如果得出的回归方程经检验有意义后,最常见的应用就是在已知解释变量的情形下,希

自变量给定一个值时,就有一个确定的应变量的值与之相对应。这时,自变量与应变量之间的关系为确定性关系,如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:,其中g为重力加速度。变量之间的另一种关系为相关关系。即变量之间关系不完全确定,但表现为具有随机性的“趋势”。对自变量X的同一值,因变量Y可以取不同的值,而且取值是随机的,但对应X在一定范围变化时,因变量YX的变化而呈现有一定趋势。如儿童的年龄X与儿童的身高Y,从平均意义上来说,随着儿童年龄的增加,儿童的身高Y也增加。但对于个体而言,存在着年龄小的儿童的身高高于年龄较大的儿童的可能性因此,儿童的年龄X与儿童的身高Y不存在确定的函数关系,但确实存在着相关关系。用前一节相关系数的概念来说,具有相关关系的变量是指相关系数满足的变量。

回归分析是研究具有“相关关系”的自变量与应变量之间的统计规律性。为了研究方便,本节假设自变量为确定性变量,记为X,是一个可观测到的,可控的变量。

(一)数学模型

回归分析由许多步骤组成,如:模型确定、数据收集、模型修正等等,我们这里主要研究回归模型参数估计,模型检验等等。现在先看一个例子:

例9.4.1 某户人家打算安装太阳能热水器。为了了解加热温度与燃气消耗的关系,记录了16个月燃气的消耗量,数据见下表。

在回归分析时,我们称“燃气消耗量”为响应变量,记为Y,“加热温度”为解释变量,记为X,由数据计算相关系数得r=0.995,表明加热温度与燃气消耗量之间有非常好的线性相关性。如果以加热温度作为横轴,以消耗燃气量作为纵轴,得到散点图(见图9.4.1)的形状大致呈线形。

图9.4.1

从散点图(图9.4.1)看到,我们若从这些点的“中间”画一条直线,这些点均匀地分布在直线两侧,但不完全落在直线上。于是,我们这样考虑,加热温度X的变化是引起燃气消耗量Y变化的主要因素,还有其他一些因素对燃气消耗量Y也起着影响,但这些因素是次要的。从数学角度来考虑,由于加热温度X的变化而引起燃气消耗量Y变化的主要部分记为αβX,其中αβ是未知参数;另一部分是由其他随机因素引起的记为ε,即,

其中,变量X是确定性变量,是可观测到的,而ε是不可观测的随机误差。如果已经收集到(XY)的n独立的样本(xiyi),i=1,2,…,n,可得到如下的一元线性数学模型:

其中αβσ为未知参数。

称EY关于X的回归函数,它在平均意义下表明了YX变化的一种统计规律性。

通常我们假定随机误差εi是相互独立的,且服从正态分布N(0,σ2)。显然,在这样的假定下yi也是相互独立,服从正态分布Nαβxiσ2)。从而由所得样本可给出未知参数αβ的点估计,分别记为y关于x的一元线性回归方程。

 随机误差部分可由多种原因引起,有时并不一定服从正态分布,因此,对随机误差也可采用更一般的假定,并且εi相互独立。这样假定称高斯-马尔可夫假定(简称GM假定)。

(二)参数估计及参数的性质

有很多的方法可以对模型参数进行估计,这里只介绍最小二乘法。采用极大似然估计也可以给出模型的参数估计,请读者自行完成。

最小二乘法的主要想法是找一条回归直线,使每个样本点(xiyi)到直线上相应xi所对应的yαβxi的距离的平方和达到极小,基于这种想法,记

我们把使Qαβ)达到极小的αβ的值称为最小二乘估计。利用微积分中求极值的方法,对Qαβ)求偏导,并令其为零,得如下方程

其中sxxsxy如(9.3.1)和(9.3.3)所定义。

如果把代入回归方程,可得

因此,只要在平面上确定这两个点,就可以画出由最小立乘法得出的回归直线。

在模型(9.4.2)的假设下,由最小二乘法得出的参数点估计αβ具有如下的一些性质(证明参见附录9.7)。

定理9.4.1 在模型(9.4.2)的假设下,

由上面的性质可以知道,分别是βα的无偏估计。模型的另一个未知参数是标准差σ,它描述了响应变量y偏离真实回归直线的程度。

为了给出标准差σ的估计,我们先来定义残差。记ei称为残差。显然,残差可以看成是不可观测的误差εi的估计。残差是诊断回归模型拟合是不是好的一种直观的工具,我们将在回归诊断一节中作详细介绍。通常我们用s2作为σ2的估计,、s2定义为:

可以证明s2σ2的无偏估计(证明参见定理9.4.2)。

(三)回归方程的显著性检验

从参数估计公式((9.4.4)可以知道,只要有数据,无论响应变量与解释变量之间有没有线性关系,我们都能得出回归方程,但有可能这种回归方程是没有意义的。因此,我们必须对回归方程进行检验。从统计意义上讲,回归参数βEY)随变量X变化的变化率,如果β=0,那么说明EY)不随变量X变化,此时回归方程就没有意义。因此要对回归方程进行显著性检验,即要对假设

进行检验。对于假设H0,仍可采用平方和分解方法导出检验统计量,记

其中SST称为总的平方和,SSE称为残差平方和,SSR称为回归平方和。

容易验证:

由于,并由方程(9.4.3),我们有

因此可得 ST=SSE+SSR。

定理9.4.2 在模型(9.4.2)的假设下,

(1)

s2σ2的无偏估计。

(2)当H0为真时,

并且,独立。

定理的证明见附录9.7。事实上,在模型(9.4.2)的假设下,

由定理9.4.2(2)知,对于假设(9.4.5)常用的检验方法有两种:

(1)t检验法:统计量

H0为真时,ttn-2),对于给定的显著水平α,检验的拒绝域为

(2)F检验法:统计量

H0为真时,FF(1,n-2)。

对于给定的显著水平α,检验的拒绝域为

采用F检验时,类似于方差分析的方法,给出如下的方差分析表见表9.4.1。

表9.4.1 方差分析表

(四)回归系数的区间估计

如果经检验回归方程是显著的,可以给出参数β的区间估计。结合定理9.4.2和定理9.4.1知,

对于给定的置信水平1-α,则有

于是给出参数β的区间估计为

类似,我们可以采用F分布给出参数β的区间估计(请读者自己给出结果)。

(五)回归系数的计算及显著性检验的Excel实现

下面我们用一个例子来说明回归系数计算及显著性检验在Excel中的实现。

例9.4.2 例9.4.1(续)前面我们已经分析了加热温度与燃气消耗量之间的关系,认为两者具有较好的线性关系,下面我们进一步建立燃气消耗量(响应变量)与加热温度(解释变量)之间的回归方程。采用Excel中的“数据分析”模块。

(1)在Excel工作表中输入上面的数据⇒点击主菜单中“工具”⇒点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框⇒点击菜单中“回归”⇒点击“确定”,出现“回归”框。

(2)在“Y值输入区域”中标定你已经输入的响应变量数据的位置,在“X值输入区域”中标定你已经输入的解释变量数据的位置(注意:数据按“列”输入)⇒“置信度”中输入你已经确定置信度的值⇒选定输出结果的位置⇒点击“确定”。

(3)在指定位置输出相应的方差分析表和回归系数输出结果,例9.4.1的输出结果如表9.4.2所示。

表9.4.2 方差分析表

对Excel输出结果解释如下:

(1)方差分析中,给出了假设H0β=0的F检验。方差分析表中各项也与前一节方差分析表中的意义类似。值得注意的是,方差分析表中“MS”列对应于“误差”行的值即为模型参数σ2的估计,即、s2=0.115。

(2)这里“Coef.”列中,对应于“Intercept”行给出参数α的估计,即,对应于X行的值为β的估计,即。“t Stat”列中,对应于“X”行的值为假设H0β=0的t统计量的值,即,查表可得,t0.025(14)=2.1448,因此,拒绝假设H0,认为“加热温度”对“燃料消耗量”有显著影响。

(3)“Lower 95%”和“Upper 95%”列中,对应于“Intercept”行的值0.791和1.387分别是由t分布所构造的参数α区间估计的下限和上限,对应于“X”行的值0.178和0.200分别是由t分布所构造的参数β区间估计的下限和上限。

(六)预测

一般求回归方程的目的是找出响应变量与解释变量之间的关系,如果得出的回归方程经检验有意义后,最常见的应用就是在已知解释变量的情形下,希望通过已得出的回归方程,预测响应变量相应的值。这种预测一般有两种意义:

(1)当给定Xx0时,求相应响应变量平均值即Ey0)的点估计和区间估计,在例9.4.2中的意义是:求某个加热温度下,燃气消耗量的平均值,如加热温度为10℃时这种月份燃气消耗量的平均值;

(2)当给定Xx0时,求y0的预侧值和预测区间,在例9.4.2中的意义是:求指定某个月的燃气消耗量,如假设某个月的加热温度为10℃,预测这个月的燃气消耗量。

当给定Xx0时,作为Ey0)和y0的点估计是一样的,均为,但两者的区间估计是有较大的差别的。为了给出Ey0)的置信区间y0的预测区间,我们先给出的分布(证明见附录9.7)。

定理9.4.3 在模型(9.4.2)的假设下,

由定理9.4.3,我们可以给出Ey0)区间估计和y0的预测区间。

(1)Ey0)的区间估计

由定理9.4.3及s2的性质知,

由此知Ey0)的置信区间为

(2)y0的预测区间

显然,y0独立,由定理9.4.3及s2的性质知,

由此知y0的预测区间为

例9.4.3 例9.4.1(续)由前面的Excel的输出结果,我们可以分别计算出Ey0)的区间估计和y0的预测区间。设x0=5,则

计算得出:Ey0)的区间估计为(1.946,2.122);y0的预测区间为(1.772,2.296)。

很小,即要预测的x0值比较靠近xi的中心位置,并且n充分大时,则。由于n很大,,如果α=0.05,则。此时,可得近似预测区间为

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈