基于方法评估理论框架的聚类方法评估方案

时间：2022-02-14 理论教育版权反馈

【摘要】：不只一个多目标决策方法被用来评估聚类方法的绩效问题是十分有意义的,因为由多个多目标决策方法获得的排序结果更为客观、更可靠和更具说服力。

聚类被广泛应用在大数据分析的初始阶段,尤其是探索性数据分析,把相似数据组成簇,进而把大数据分割成小的数据集合［186］。聚类方法评估时,尤其在处理大量数据的情况下,不同的评估方法往往会生成不一致甚至矛盾的排序,评价结果甚至可能产生很大的差距［11］。同时,由于决策参与者的专业知识、经验背景及个人偏好的影响,作出精确和有效的决策是十分困难的［72］。本节的目标是通过结合专家智慧,提出一个共识支持模型,以融合聚类方法评估时产生的不一致甚至矛盾的结果。本书提出的共识支持模型包含三个阶段,分别是数据挖掘阶段、多目标决策阶段和二次挖掘阶段。该聚类方法评估的具体评估流程如图6－1所示,详细过程介绍如下:

pagenumber_ebook=127,pagenumber_book=120

图6－1　聚类方法评估流程图

第一阶段,即数据挖掘阶段,为了便于说明和理解,采用6个最具影响力的、最经典的聚类方法,包括:Expectation Maximization(EM),Farthest－First algorithm(FF),Filtered Clustererer(FC),Hierarchical Clustering(HC),Make Density Based Clusterer(MD)和K－Means Clustering(KM)被用来建模,数据来自20个UCI数据集,拥有18310条实例和313个属性维度,数据挖掘阶段在WEKA 3．7中实施完成。

第二阶段,即多目标决策阶段,4个经典的多目标决策方法——TOPSIS,GRA,WSM和PROMETHEEⅡ被用来分析20个UCI数据集,以提供初始的聚类评估绩效排序,评估指标为数据挖掘阶段产生的9个外部度量指标。此外,每一个多目标决策方法被平均分配5个UCI数据集。不只一个多目标决策方法被用来评估聚类方法的绩效问题是十分有意义的,因为由多个多目标决策方法获得的排序结果更为客观、更可靠和更具说服力。书中所采用的多目标决策方法均在MATLAB 7．0中实施。

最后,在第三阶段,也就是二次挖掘阶段,通过结合领域知识、专家经验、多目标决策和数据挖掘技术,基于二八定律,通过考虑所有决策参与者的整体满意度,提出一个针对聚类方法评估二次挖掘的共识融合模型,以融合聚类方法评估绩效的不一致问题。同时,该模型能够生成一个方法优先级列表来识别最佳的聚类方法。基于二八定律的共识融合模型的详细步骤如下:

步骤1:标记两个位置集合:一个高位置集合和一个低位置集合。

众所周知,二八定律指出,在大多数情况下,80%的成果源自于20%的行为［187］。该规则通常记为Vilfredo Pareto［64,187］。二八定律认为,在大多数国家,财富的80%由20%的人掌握［188］。其含义是,人们总是向往成为20%的那群人而不是80%。因此,二八定律可以适用于集中分析可预见的不平衡中最可能的排序位置。二八定律指出,产生了80%成果的那20%的人具有高杠杆性。

在本书中,基于源自20%的人的专家智慧,排序的集合被分为两部分,其中,方案的前20%被指定为高位置集合,其代表了在方法评估过程中,所有参与者心中最令人满意的排名。同理,方案的后20%被指定为低位置集合,其代表了在方法评估过程中,所有参与者心中最令人不满意的排名。因此,最令人满意的高位置集合的元素能够被计算: