应用背景及相关数据

时间：2023-02-14 理论教育版权反馈

【摘要】：为了验证模型的有效性,实验选取了2个UCI信用风险数据集、10个经典的数据挖掘分类方法、10大绩效评估指标、4大重要的多目标决策方法来评估德国和澳大利亚关于客户信用卡申请的信用风险水平。澳大利亚信用数据集也来自UCI机器学习数据库,是澳洲一家大型银行的关注客户的信用卡申请的资料数据,共包含了690个实例和14个变量。

没有免费的午餐定理指出不存在任何一个方法都优于其他方法,也就是说,不存在任何一种适合所有数据集、所有目标问题的普适性的最优方法。那么,如何评价方法的优劣,以识别出最鲁棒的方法呢?本节通过结合领域知识和专家经验,基于群决策、多目标决策方法和数据挖掘技术,并结合二次挖掘的思想,提出一个层次分析模型。该模型包括三个阶段:数据挖掘阶段、多目标决策阶段和二次挖掘阶段。为了验证模型的有效性,实验选取了2个UCI信用风险数据集、10个经典的数据挖掘分类方法、10大绩效评估指标、4大重要的多目标决策方法来评估德国和澳大利亚关于客户信用卡申请的信用风险水平。通过本书提出的层次分析模型,可以快速、准确地识别鲁棒的信用评分分类方法,并能够诱导出一个方法优劣排序的列表,进而快速、准确地指导决策者规避信用风险,且可以很好地解决没有免费的午餐定理所指出的问题。在这部分中,实证分析被用来验证提出的层次分析模型在信用风险分析中的可行性和有效性,并能够识别鲁棒的分类方法,提高挖掘效率。

实证中的数据集来自两个常用的公共领域的信用数据集:澳大利亚信用数据集和德国信用数据集。这两个数据集在UCI机器学习库中很容易获得,为知名度很高的UCI数据集,也是被各领域学者所广泛使用的、公信度很高的开源研究型数据集。同时在学术界通常被用来对比分析不同的分类方法的评估绩效。其网址和下载链接为http://archive．ics．uci．edu/ml。这两个UCI数据集的数据结构如表5－1所示。

表5－1　信用数据集

pagenumber_ebook=103,pagenumber_book=96