首页 百科知识 鲁棒回归法

鲁棒回归法

时间:2022-10-14 百科知识 版权反馈
【摘要】:换句话说,最小二乘回归方法对局外点无免疫能力,一个局外点即可废掉结果。如果采样数据的观测误差不服从正态分布,那么最小二乘法就不是最佳拟合方法。图6-2所示的是数据集合包含一些局外点时,使用最小二乘法拟合时,可能一个局外点就足够把回归直线推向远离其正确的位置。而鲁棒回归方法则要求对数据的各种子集进行测试,从中选择一个产生最佳拟合的子集。

6.2.1 鲁棒回归法

经过数据滤波后,不能百分之百地保证得到的地面激光脚点中不含有非地面激光脚点。在生成DEM的过程中,如果使用的地面激光脚点中含有没有过滤干净的地物激光脚点,就会歪曲真实的DEM。

这里介绍一种鲁棒回归算法,即最小中值二乘回归方法。该方法被证明是解决大量局外点回归问题的非常有效的方法。最小中值二乘回归方法可以容错高达50%的局外点,也就意味着数据点集内有一半的数据可以取任意值而不会严重地影响回归结果。如果有多于50%的点为局外点,最小中值二乘回归方法就变得无效,此时需要更有效的方法,如Hough变换。

设第i个观测数据的n阶线性多变量模型可以用下面的方程表示:

img150

式中,img151是模型参数θi的估计值。每一点的残差为img152。在最小二乘回归算法中,模型参数的估计由残差平方和的极小化求得:

img153

通常,噪声和局外点可以用联合分布表示,即噪声的正态分布和局外点的宽尾分布的线性组合。在这种情况下,估计器的范数同小误差的最小二乘范数一样,同时对大误差不敏感,这样就可以忽略局外点的影响。这种方法称为影响函数法。

为了定量说明局外点对函数逼近的影响,引入溃点(Breakdown Point)这一术语。溃点是指局外点占整个数据的一个最小比例值。当局外点的点数不超过这个值时,无论局外点如何不正确,都不会使估计算法产生任意的错误估计(Rousseeuw,1987)。

设Z是n个数据点的集合,将集合Z中任意m个点的坐标设置成任意值(局外点),构成一个含有m个任意点的集合Z'。设一个回归估计器img154,由局外点造成的估计偏差为:

img155

设置溃点的基本思想是定量分析局外点的数量m在数据点数据n中所占的比例增加时对ε值的影响程度。当m增加到一定数量时,ε无界,这就是溃点。当低于溃点时,回归估计器可以完全拒绝局外点,或使得局外点对预估计结果的影响很小。当高于溃点时,局外点可以驱使预估器产生任意解,结果将取决于局外点而不是合法观测数据。换句话说,预估器所提供的结果是不可预估的。溃点的定义为:

img156

对于最小二乘回归,img157,在极限情况下,当数据点数量变得很大时,img158。换句话说,最小二乘回归方法对局外点无免疫能力,一个局外点即可废掉结果。

在最小中值二乘回归方法中,模型参数θi的估计由极小化残差平方的中值求得:

img159

最小中值二乘回归算法如下。

(1)假定有n个数据点和p个参数的线性模型;

(2)在n个数据点中,随机地选择p个点;

(3)用模型拟合p个点;

(4)计算残差平方的中值;

(5)重复进行上述拟合过程,直到得到足够小的残差平方中值,或者达到预定的再取样步长数值。

如果采样数据的观测误差不服从正态分布,那么最小二乘法就不是最佳拟合方法。图6-2所示的是数据集合包含一些局外点时,使用最小二乘法拟合时,可能一个局外点就足够把回归直线推向远离其正确的位置。而鲁棒回归方法则要求对数据的各种子集进行测试,从中选择一个产生最佳拟合的子集。

img160

图6-2 使用最小二乘回归拟合方法和鲁棒回归方法对包含有局外点的一组数据进行拟合的差别

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈