回归分析的概念与原理

时间：2023-02-12 理论教育版权反馈

【摘要】：回归分析是一种古典而又充满生机的数学方法，是数理统计中最成熟、最常用的方法。其目的就是通过多次测量数据建立自变量与因变量之间的统计关系，这一过程通常被称为建模。即使是通过统计检验的回归模型，它是否具有外推性也是不能肯定的。但回归分析所建立的自变量与因变量间的关系会随所选取的样本数据的变化而变动，自变量与因变量间的回归关系不是唯一确定的。回归分析的原理——最小二乘原理：回归分析建立自变量x1，x2，…

4.1　回归分析的概念与原理

在各行各业的科研、生产实践活动中经常需要对某些未能直接观测（或尚未直接观测）的性质进行估计或预报。如化学家需要估计一个未知样品的分子结构或化学组成；材料学家需要估计一批尚未制备的新材料的物理、化学性质；药物学家需要估计某一类化合物的药效等。如果我们对被估计或预报的事物的理论知之甚详，就可以对未知事物进行严格的理论预测。但在大多数情况下，由于研究对象过于复杂或详细机理不清楚、理论工作量太大使得严格的理论预测难以实现等原因，这就需要从大量的已知实验数据中总结经验规律，进而估计或预报未知性质。

回归分析是一种古典而又充满生机的数学方法，是数理统计中最成熟、最常用的方法。其目的就是通过多次测量数据建立自变量与因变量之间的统计关系，这一过程通常被称为建模。例如，色谱、光谱的标准工作曲线就是通过对仪器响应值与物质浓度的一元线性回归建立的。有了自变量与因变量之间的数学关系模型，我们就可以根据自变量（往往是易于获得的数据或信息）来预测因变量（往往是难以直接获得的数据或信息）。

在回归分析中，关于自变量、因变量各自的分布及联合分布通常无需做任何假定，也没有限制它们的变量类型，因此回归分析可广泛应用于社会、经济、科技各领域的数据分析、经验公式的建立，作为经验规律进行预测预报等。如气象预报、地震预报、病虫预报、股市行情分析、经济预测等。在化学、化工及药物研发领域，回归分析用于化学校正模型的建立、定量结构－活性关系（Quantitative Structure－Activity Relationship，QSAR）研究和参数估值等。

简单地说，回归分析就是一种建立变量与变量之间定量统计关系的数学方法，这种关系是近似的、不严格确定的经验规律，而且仅在测试数据所覆盖的范围内成立。与确定的函数关系不同，利用回归分析建立的变量间的经验关系是否能够反映数据间的内在规律，仅根据建立的经验公式是难以判断的，需要利用统计理论进行验证，这一过程称为模型的检验。即使是通过统计检验的回归模型，它是否具有外推性也是不能肯定的。

例如，自由落体运动中，物体下落的距离s与所需时间t之间有如下关系

变量s的值随t而定，如果t取了固定值，那么s的值就完全确定了。这种关系就是所谓的函数关系或确定性关系。

但回归分析所建立的自变量与因变量间的关系会随所选取的样本数据的变化而变动，自变量与因变量间的回归关系不是唯一确定的。

回归分析的名称有一个有趣的起源：法国生物学家和统计学家F.高尔顿1986年分析了1 704例父母平均身高X和儿子身高Y的数据，发现1 704例的＝68英寸^[1]＝69英寸，由此推测若父母平均身高为a，则子代平均身高应为a＋1。但分析具体个例时，发现对于身高较高的某一对夫妇，其平均身高X＝72英寸，对应儿子的身高Y＝71英寸＜（72＋1）英寸；而对于身高较矮的某一对夫妇，其平均身高X＝64英寸，对应儿子身高Y＝67英寸＞（64＋1）英寸。由此发现一个规律：若父母身高高于X的统计平均值（68），其儿子身高会倾向于“回归”Y的平均值（69），小于父母平均身高＋1；若父母身高低于X的统计均值，儿子的身高为了“回归”Y的均值69，会大于父母平均身高＋1。他把这种现象称为“回归”均值，后来这种统计建模方法就被命名为回归分析（Regression Analysis）。

建立各影响因素与目标值之间的关系，最常用的方法就是多元线性回归。常用的回归模型有线性回归模型、二次模型、非线性模型。在回归建模的过程中还要考虑引入的自变量（称为回归变量）的选择，不是所有的变量在模型中都有用或起着重要作用，因此需要进行变量的评估和选择。在回归建模之前需要先假设模型种类（即预先假定自变量与因变量之间的数学关系），但假设的关系是否能如实反映有关数据间的关系，需要采用统计分析的方法对回归模型的可靠性进行检验，有关数据、信息处理结果的误差分析也要用到数理统计的相关知识。

回归分析主要用来解决如下几类问题。

第一，描述样本的分布趋势。

第二，确定变量之间是否存在相关关系，如果存在的话，找出它们之间合适的数学表达式。

第三，用统计方法检验建立的经验关系是否可靠。

第四，根据一个或几个变量的值，预报或控制另一个变量的取值，并且可判断这种预报或控制的精确度。

回归分析的原理——最小二乘原理：回归分析建立自变量x₁，x₂，…，x_p与因变量y之间经验数学关系的基本原理是最小二乘方法，即先假设因变量y_i＝f（α₁，α₂，…，α_m，x₁，x₂，…，x_p）（m＞p，α₁，α₂，…，α_m为待定回归参数，也称为回归模型参数），若有n个数据点（x_i1，x_i2，…，x_ip，y_i），i＝1，2，…，n，通过求回归模型给出的因变量预测值与其实际值之间的残差平方和Q＝（y_i－）²的极小值，可确定回归参数，通常称这样确定的回归参数α₁，α₂，…，α_m为回归方程＝f（α₁，α₂，…，α_m，x₁，x₂，…，x_p）的最小二乘解。