回归分析模型优劣判断

时间：2023-10-25 理论教育版权反馈

【摘要】：回归分析则度量了一个变量的变化量对另一个变量变化量的贡献，因此常用于对实验数据的分析。回归分析根据研究的问题和收集的资料也有很多形式，一元线性回归是最简单的也是最基本的一种回归分析。这个方程在平面坐标系中表现为一条直线，回归分析中称之为回归直线。可以证明，一元线性回归的判定系数r2的平方根就是简单线性相关的相关系数r。一元线性回归模型的假设检验包括对回归系数b的t检验和对模型整体的F检验。

二、一元线性回归分析

在相关分析中，虽然可以利用相关系数r来表示两变量相关关系的方向和相关关系的密切程度，但是，相关分析却不能解决当一个变量X发生变化时，另一个变量Y相应地发生了多大的变化。回归分析则度量了一个变量的变化量对另一个变量变化量的贡献，因此常用于对实验数据的分析。

（一）相关分析和回归分析

回归分析和相关分析都是对变量间依存关系的分析，在理论基础和方法上具有一致性。只有对存在相关关系的变量才能进行回归分析，相关程度越高，回归测定的结果越可靠，相关系数也是判定回归效果的一个重要依据；另外，相关系数和回归模型中的参数可以相互换算。

但回归分析和相关分析也有如下差别：

第一，相关分析是研究变量之间的共同变化关系，这些变量相互对应，不必分主次和因果关系。回归分析却是在控制或给定一个或多个变量的条件下来观察另一个变量的变化，控制的变量称为自变量，不是随机变量，被观察的变量称为因变量，是一个随机变量。当给定一个自变量数值时，因变量可能有多个取值，而且在通常的研究中也假定它们呈正态分布，并且具有相同的方差。因此，回归分析必须根据研究的目的和对象的性质确定哪个是自变量（也称为解释变量），哪个是因变量（也称为被解释变量）。

第二，相关分析主要是测定变量之间关系的密切程度和变量变化的方向。而回归分析却可以对具有相关关系的变量建立一个定量模型来描述变量之间具体的变动关系，通过控制或给定自变量的数值来估计或预测因变量可能的数值。

相关分析和回归分析既有联系又有差别，实际研究中，通常把它们结合在一起应用。回归分析根据研究的问题和收集的资料也有很多形式，一元线性回归是最简单的也是最基本的一种回归分析。

（二）一元线性回归模型

一元线性回归模型是用于分析一个自变量（X）与一个因变量（Y）之间线性关系的数学方程式。一般的形式是：

这个方程在平面坐标系中表现为一条直线，回归分析中称之为回归直线。其中X是自变量，是因变量Y的估计值，也称理论值，它是根据回归模型和给定的自变量X的值计算得到的结果。

a和b通称为回归模型的参数。a是回归直线的截距，即X＝0时的值，b是回归直线的斜率，也称为回归直线的斜率或回归系数，表示自变量每变化一个单位时的增量，它的符号同相关系数r是一致的。当b＞0时，它就表示X每增加一个单位时的增加量，X与同方向变动；当b＜0时，它就表示X每增加一个单位时的减少量，X与反方向变动。当b＝0时，表示自变量X与因变量之间不存在线性关系，无论X取何值，为一个常数。

回归模型表明的是两个变量之间的平均变动关系。当给定自变量X某一个数值时，因变量Y的实际值可能有不止一个，只是这些众多数值的均值。当控制X为某一取值时，Y的实际值可以看做由两部分组成：一部分是X对Y均值的线性影响而形成的系统部分，由回归量a＋bX来测定；另一部分是由ε所代表的各种偶然因素、观察误差以及被忽略的其他影响因素所带来的随机误差。如图3—34所示。

图3—34　回归关系中Y的实际值由两部分组成

回归分析的主要目的是建立回归模型，借助给定的X值来估计Y值，并判断模型是否合适、估计的精度等。对于给定的一组X和Y值，按照不同的法则可以拟合出不同的直线，但最常用的方法是用最小二乘法拟合这条直线。

最小二乘法的原则是让所有的Y和的偏差都尽可能地小。为了克服正负号的抵消，先将所有的偏差都进行平方计算，然后求和，令它最小，即让取最小值。这就是最小二乘法原则。

按照这个原则，得出斜率b的计算公式是：

b＝

和计算相关系数时一样，令

x＝

求b的公式就简化为：

求出了斜率b之后，截距a就可以用下面的公式求得：

下面用一个例子来说明回归模型的计算过程。例如，有人相信儿童对电视的接触时间（平均每天看电视的时间X）和儿童的知识量（Y是用5级量表测量到的知识量得分）之间有因果关系，他们对20个儿童进行了测量，结果如表3—17的前3列所给出，回归模型的计算过程如下：

表3—17　　　儿童对电视的接触时间和儿童知识量的回归分析

表3—17的后四列是回归系数的计算过程，根据上表的结果，可以得出回归系数为：

a＝-b＝3.77-0.02×89.25＝1.99

代入回归模型中，得到：

＝1.99＋0.02X

即，当X增加一个单位（分钟）时，Y的增加量是0.02（评分值），直线的截距是1.99。用这个模型可以进行预测，比如某个儿童平均每天看电视的时间为90分钟，便可以预测出他的知识量的得分是：

＝1.99＋0.02X＝1.99＋0.02×90＝3.79

（三）判定系数r²

用最小二乘法求得的回归直线＝a＋bX确定了X与Y在数量上的变动关系。但是得出的模型应用价值如何，必须通过对回归直线的拟合优度加以测定。判定系数r²便是测定回归直线拟合优度的一个重要指标。

设Y的实际值到的离差）被回归直线分割成两部分：（Y-）和）。对于所有的实际值Y，总有下式：

总变差＝

回归变差＝

剩余变差＝

由于（a＋bX-a-＝，其中b为回归系数，可见回归变差很大程度上决定于回归系数，所以也称为被回归解释的变差；剩余变差也称为未被解释的变差或残差。

可以证明，上述三类变差的关系是总变差＝回归变差＋剩余变差，即：

Y的实际值同Y的均值的总变差包括两个部分：一部分是回归变差，即X与Y依存关系影响的变差；另一部分是各种不确定因素引起的随机误差。在总变差一定时，回归变差越大，剩余变差就越小；反之，回归变差越小，剩余变差就越大。由此推论，如果实际值Y都紧密分布在回归直线两侧，剩余变差很小，说明X与Y的依存关系很强，总变差主要由回归变差来解释；极端而言，如果Y都落在回归直线上，＝0，这时总变差就完全由回归变差来解释了。