大规模数据

时间：2022-08-24 百科知识版权反馈

【摘要】：本节我们在9个不同大规模的数据集上测试ADMM和CCCP求解RNPSVM的性能。在全部9个数据集上，NPSVM和RNPSVM分别有2个和5个最好的结果，显然RNPSVM在处理大规模数据集上具有更好的性能。表6.3　算法在大规模数据集上的比较类似地，图6.2　也给出了目标函数值，原始残差r和对偶残差s的值随着迭代次数的变化，可知在一定的迭代步数后，ADMM逐渐收敛。图6.2　ADMM在大规模数据集上的收敛性

本节我们在9个不同大规模的数据集上测试ADMM和CCCP求解RNPSVM的性能。这些数据集的描述见表6.2　，可见数据集在样本规模，特征数目和类别上各有不同。分别用LIBLINEAR求解SVM（SVM－L）和ADMM求解SVM（SVM－A）来对比NPSVM和RNPSVM的性能，其中参数的选取范围与上节相同，最优的参数用3折交叉验证来选取。表6.3　给出了错误率和训练时间，从表中可知SVM－A比SVM－L得到更低的分类错误率，并在5个数据集上比SVM－L快。在全部9个数据集上，NPSVM和RNPSVM分别有2个和5个最好的结果，显然RNPSVM在处理大规模数据集上具有更好的性能。

表6.2　数据描述
（Table 6.2　Datasets description）

表6.3　算法在大规模数据集上的比较
（Table 6.3　Comparison results on large scale datasets）

类似地，图6.2　也给出了目标函数值，原始残差r和对偶残差s的值随着迭代次数的变化，可知在一定的迭代步数后，ADMM逐渐收敛。这里也只展示了两个数据集（a9a和skin）的结果。以skin为例，横坐标为ADMM的迭代次数，纵坐标分别为目标函数值，原始残差r和对偶残差s的值。图6.2　（a）为ADMM求解SVM的表现，可以看出，随着迭代次数的增多，三个值（图中的黑实线所示）均趋于稳定并低于事先设定的阈值线（黑虚线）；图6.2　（b）为ADMM求解NPSVM的表现，可以看出，随着迭代次数的增多，三个值（图中的红蓝实线所示）均趋于稳定并接近事先设定的阈值线（红蓝虚线），红线表示ADMM求解第一个优化问题，蓝线表示ADMM求解第二个优化问题；图6.2　（c）为ADMM求解RNPSVM的表现，可以看出，随着迭代次数的增多，三个值（图中的红蓝实线所示）均趋于稳定并接近事先设定的阈值线（红蓝虚线），红线表示ADMM求解第一个优化问题的表现，蓝线表示ADMM求解第二个优化问题表现。

图6.2　ADMM在大规模数据集上的收敛性
（Figure 6.2　Convergence of the ADMM on the large scale datasets）

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈