怎样判断线性回归方程的准确度

时间：2023-03-14 理论教育版权反馈

【摘要】：在应用研究中，常见到的是按变量是否一次性来划分线性与非线性回归方程，因此我们沿用这种观点。

一元线性回归分析_统计学教程

第二节　一元线性回归分析

一、回归分析的特点

回归分析是应用统计方法寻找一数学方程，建立自变量与因变量之间的关系，并据以利用自变量的给定值来推算或估计因变量的值。对于回归分析来说，需要确定哪个是自变量，哪个是因变量。如人的身高与体重的关系，以身高为自变量，则以体重为因变量；反之若以体重为自变量，则以身高为因变量。但是有些现象的两个变量之间不能互换。例如，炉膛温度和出铁量，只能以炉膛温度为自变量，出铁量为因变量，分析炉膛温度对出铁量的影响，而反过来分析出铁量对炉膛温度的影响则没有意义。在回归分析中，要求因变量是随机变量，自变量是非随机变量，是给定的数值。

回归分析可分为线性回归（Linear regression）与非线性回归（Currilinear regression），对线性回归与非线性回归的区分有两种理解，一是按回归变量本身是否线性，即是否一次式来划分，例如，y＝β₀＋β₁x₁＋β₂x₂＋β₃x₃＋ε为三元线性回归方程，而y＝β₀＋β₁x＋β₂x²＋β₃x³＋ε为一元三次非线性回归方程。二是按回归变量的参数即回归系数（Regression coefficient）是否线性来划分，例如，上例两式都是线性方程，因为它们的回归系数β₁、β₂、β₃都是线性的（一次式），而是非线性回归，因y不是两参数β₀、β₁的线性函数，β₀与β₁是用乘法和指数方法连在一起的。在应用研究中，常见到的是按变量是否一次性来划分线性与非线性回归方程，因此我们沿用这种观点。

在线性回归分析中，对一个因变量与一个自变量的回归称一元线性回归（Linear regression），而一个变量与多个自变量的回归称多元线性回归（Multiple linear regression）。我们首先讨论一元线性回归。

二、一元线性回归方程

如果随机变量y随自变量X的变化而变化，且呈简单线性关系，则y依x变化的规律可用一元线性回归方程表示。由于随机因素的干扰，y与x线性关系中包含随机误差项ε，即有：y＝β₀＋β₁x＋ε。

例7－1：钢铁工业固定资产投资总额与钢产量之间有较密切的关系。现将某钢铁公司1993～2002年的有关资料列于表7－1。

表7－1　　　某钢铁公司固定资产投资总额及钢产量统计表

图7－1　1993～2002年某钢铁公司固定资产投资总额与钢产量散点图与回归线

计算可有不同的方法，统计中使用最多的是最小平方法，或称普通最小二乘估计（Ordinary Lease Square Estimation，简记为OLSE），就是通过要求各散点到回归线的距离平方和最小来求得回归线，这时所求的回归线是最适线。即

将回归方程　代入Q有：

求Q对的偏导数并令其为0，即

这说明回归线通过点，这是我们做回归直线的图形时应当注意的。

若将式的子项、母项分别除以n，则：

式子项：

式母项：

故　　

根据例7－1资料，计算回归系数估计值的计算步骤可列表进行，其计算步骤如下（见表7－2）：

表7－2　　　回归系数估计值计算表

由表7－2可知：

∑x＝239762　　　∑y＝725.32

∑x²＝8095238086　∑y²＝54903.26　∑xy＝19484694.37

则

故：

所求回归方程为：

根据这个方程式，把10年的固定资产投资总额的实际值（x）逐项代入，就可算出对应的钢产量估计值（见表7－2末栏），并可在散点图上画出回归直线（见图7－1），这条直线的斜率为0.000892，表示某钢铁公司的钢铁工业固定资产投资总额每增加1万元，钢产量平均增加8.92吨。

三、估计标准误差

图7－2　数据点的分散程度与回归直线代表性的对照

估计标准误差就是用来反映与y之间估计误差大小，说明估计值准确程度的统计指标，记为S_y，意思是各观察值与估计值估计误差的平均值。

式中：n－2表示自由度，因为n个数据点在求得回归系数后，受两个正规方程的限制，丧失了两个自由度，因此用n－2。

为了进一步说明估计标准误差，下面对随机变量y的总变差进行分析。

图7－3　总变差分解图

所以总变差：

上式中：

总变差、回归变差、剩余变差的关系式可写为：

回归变差与剩余变差的计算：

可见，有了回归系数，回归变差就可以通过上式求得。至于剩余变差可按下式求得：

则

根据例7－1的资料代入上式得：

四、回归方程的显著性检验（Significance tests）

估计标准误差的大小可以反映回归直线的精确度，即x与y之间的线性相关程度。但判定估计标准误差的大小要有一个基准，即当估计标准误差为多少时我们就可以认为回归方程的线性关系显著，回归直线具有代表性。数理统计学中选取统计量即U与Q的比例大小来体现x与y的线性相关关系的相对大小。根据F值的大小来判定回归直线的斜率β₁是否等于0，即假设H₀：β₁＝0，如果否定了H₀，也即判定x与y间有线性相关关系。那么在什么情况下否定H₀呢？数理统计中可以证明，在假设H₀成立时，统计量F服从自由度为1，n－2的F分布，因此对于给定的检验标准α（即显著性水平），查自由度为1，n－2的F分布分位数表，得临界值F_α（1，n－2），将其与算得的F值进行比较，如果F＞F_α（1，n－2）则否定假设“H₀：β₁＝0”，即认为x，y间具有显著的线性相关关系，否则假设H₀是相容的，即没有理由认为x，y间存在显著的线性相关关系。