首页 百科知识 大规模数据

大规模数据

时间:2022-08-24 百科知识 版权反馈
【摘要】:本节我们在9个不同大规模的数据集上测试ADMM和CCCP求解RNPSVM的性能。在全部9个数据集上,NPSVM和RNPSVM分别有2个和5个最好的结果,显然RNPSVM在处理大规模数据集上具有更好的性能。表6.3 算法在大规模数据集上的比较 类似地,图6.2 也给出了目标函数值,原始残差r和对偶残差s的值随着迭代次数的变化,可知在一定的迭代步数后,ADMM逐渐收敛。图6.2 ADMM在大规模数据集上的收敛性

本节我们在9个不同大规模的数据集上测试ADMM和CCCP求解RNPSVM的性能。这些数据集的描述见表6.2 ,可见数据集在样本规模,特征数目和类别上各有不同。分别用LIBLINEAR求解SVM(SVM-L)和ADMM求解SVM(SVM-A)来对比NPSVM和RNPSVM的性能,其中参数的选取范围与上节相同,最优的参数用3折交叉验证来选取。表6.3 给出了错误率和训练时间,从表中可知SVM-A比SVM-L得到更低的分类错误率,并在5个数据集上比SVM-L快。在全部9个数据集上,NPSVM和RNPSVM分别有2个和5个最好的结果,显然RNPSVM在处理大规模数据集上具有更好的性能。

表6.2 数据描述
(Table 6.2 Datasets description)

表6.3 算法在大规模数据集上的比较
(Table 6.3 Comparison results on large scale datasets)

类似地,图6.2 也给出了目标函数值,原始残差r和对偶残差s的值随着迭代次数的变化,可知在一定的迭代步数后,ADMM逐渐收敛。这里也只展示了两个数据集(a9a和skin)的结果。以skin为例,横坐标为ADMM的迭代次数,纵坐标分别为目标函数值,原始残差r和对偶残差s的值。图6.2 (a)为ADMM求解SVM的表现,可以看出,随着迭代次数的增多,三个值(图中的黑实线所示)均趋于稳定并低于事先设定的阈值线(黑虚线);图6.2 (b)为ADMM求解NPSVM的表现,可以看出,随着迭代次数的增多,三个值(图中的红蓝实线所示)均趋于稳定并接近事先设定的阈值线(红蓝虚线),红线表示ADMM求解第一个优化问题,蓝线表示ADMM求解第二个优化问题;图6.2 (c)为ADMM求解RNPSVM的表现,可以看出,随着迭代次数的增多,三个值(图中的红蓝实线所示)均趋于稳定并接近事先设定的阈值线(红蓝虚线),红线表示ADMM求解第一个优化问题的表现,蓝线表示ADMM求解第二个优化问题表现。

图6.2 ADMM在大规模数据集上的收敛性
(Figure 6.2 Convergence of the ADMM on the large scale datasets)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈