建模与验证相结合，不可片面追求拟合效果

时间：2022-02-12 理论教育版权反馈

【摘要】：本书介绍的各种定量拟合模型多数是线性模型。线性模型具有稳定、不易出现过拟合的优点。对于自变量与因变量之间不是线性关系的情况，可以采用非线性模型。因此，在数据分析与信息挖掘时不可片面追求建模结果最优，更重要的是应当看模型预测效果是否良好。因为，建模的目的是为了预测未知，对于建模样本拟合再好而预测非建模样本的结果却很糟糕时，这个模型可以说是彻底失败的。

9.6　建模与验证相结合，不可片面追求拟合效果

本书介绍的各种定量拟合模型多数是线性模型（即认为自变量和因变量之间是线性关系）。线性模型具有稳定、不易出现过拟合的优点。对于自变量与因变量之间不是线性关系的情况，可以采用非线性模型。即假设二者之间的关系不是线性关系，例如，因变量y是自变量的多项式函数、指数函数、对数函数等。对有限点做非线性拟合有很多种方法（很多种模型），如神经元网络、多次样条函数拟合等。但其中多数没有物理意义，只能算“数学游戏”的结果。而且由于噪声干扰，对建模数据拟合最佳的未必是“真”模型，有时虽然对建模样本给出的评价指标（残差、相关系数等）很好，但对于预测样本给出的结果却非常差，此即所谓的“过拟合”现象，如图9－1中建立的数学模型（实线）通过了每一个建模点（＊号表示），但对于非建模样本（°号表示），模型值（实线）偏离这些点很远。即建立的模型仅仅是使模型非常逼近建模样本的值但并未真实反映实际数据的规律（实际的数据分布规律如虚线所示并不像图中的曲线那样分布）。