首页 理论教育 数据挖掘的理论与方法

数据挖掘的理论与方法

时间:2022-11-20 理论教育 版权反馈
【摘要】:目前,关于数据挖掘的概念,比较公认的有广义和狭义两种观点。本书也倾向于采用数据挖掘概念的广义观点,本书给予数据挖掘的定义是:用已验证的方法,从大量数据中发掘出可采取行动的内在知识,从而改善企业运营、提高效率。数据挖掘技术的发展是和数据库中知识发现紧密联系在一起的,1995年第一届国际知识发现与数据挖掘大会上,“数据挖掘”被首次正式提出,随后在世界范围内迅速成为研究热点。

第二节 数据挖掘的理论与方法

一、数据挖掘的概念和理论

目前,关于数据挖掘的概念,比较公认的有广义和狭义两种观点。广义的数据挖掘认为,数据挖掘(Data Mining)就是从海量的、不连续的、有噪声的、模糊的、歧义的、不完全的、发散的和随机的实际应用数据中,提取人们事先不知道的、隐含在其中的,但又是潜在有用的信息和知识的过程。在这一过程中,企业从海量的数据中分析和寻找有用的知识,并利用这些信息和知识指导企业的经营和决策,如发现潜在客户、指导零售企业商品货柜布局、提高客户满意度等等。狭义的数据挖掘认为数据挖掘仅仅是数据库中知识发现(Knowledge Discovery in Database,KDD)的一个基本步骤,即发现阶段。尽管有学者坚持狭义的数据挖掘概念,然而在企业界和学术界,广义的数据挖掘概念比狭义的数据挖掘概念更被广泛接受,数据挖掘已经普遍成为数据库中知识发现(KDD)的代名词。

本书也倾向于采用数据挖掘概念的广义观点,本书给予数据挖掘的定义是:用已验证的方法,从大量数据中发掘出可采取行动的内在知识,从而改善企业运营、提高效率。

数据挖掘是一种决策支持过程,是一门复杂的交叉科学,它主要基于数据库技术、模式识别、统计学、人工智能、机器学习、可视化技术、专家系统技术等,通过分析企业的内部数据和外部数据,对数据进行各种综合、统计、分析和推理,从而发现事件间的潜在关联,做出归纳和推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,提高运营效率。

数据挖掘的主要分析技术包括预测和分类技术、聚类技术、关联分析技术、序列分析技术、异常监测技术和时间序列分析技术等。其中,预测与分类技术是对将来发生的事情进行预测,聚类技术是基于事物的属性进行自动归类,关联性分析技术是对可能一起发生的事件进行关联分析,序列分析是确定事件发生的顺序,异常监测是从正常群体中筛选出行为异常的个体,时间序列分析是基于事物发展的延续性和随机性预测事物未来的发展方向。

二、数据挖掘的起源和发展

半个多世纪以来,计算机技术和信息技术迅速发展,社会和人们的经济生活发生了巨大的变化,人们的日常活动范围日益扩大,生活节奏和商业节奏日益加快,获取和存储生活数据、商业数据和经济数据也更方便、更迅速,人们掌握的各类数据量及其隐含的信息快速增长,人类社会发展告别了工业化时代,迈进到信息化时代。

但是,数据本身没有意义,人们的决策和行为取决于知识和智慧,而数据仅是人们观察社会所得到的信息原材料,数据经过加工、分析、处理和精炼,才可能得到知识和智慧。数据、信息、知识和智慧之间的关系如下:数据描述客观事实,是信息原材料,数据有事实而无结论,因此无法直接导致决策或行为;数据经过分析,发现数据之间的联系和模式,得到可以被人们理解的意义,这就是信息,但分散的信息往往与人们的目标无关,人们无法直接用大量的信息去解决现实问题,进行决策和行为;对大量信息进行归纳或推理分析,获得以目标为导向的系统化的信息,就是知识;对大量的知识进行研究和升华,发现新的原理和新的规则,就形成了智慧。人类的历史,就是发现知识、交流知识、应用知识、再发现新知识,不断循环积累知识,从量变到质变、螺旋发展的历史。

在目前的社会经济环境下,数据量迅速增长,但数据利用率却不断下降。据估计,大型企业数据库中的数据,平均只有7%的部分得到充分使用,大量数据没有转变为有用的知识,发生了“海量的数据”和“缺乏的知识”共存的现象,只有采用有效的方法,借助计算机技术和信息技术,从海量数据中发现有用的信息和知识,才能帮助人们做出正确的判断和决策。

在市场经济的环境下,面对全球性竞争,产品和服务等传统因素已无法继续保证企业的竞争优势,企业的核心竞争力很大程度上取决于企业的创新能力,知识作为创新的原动力,能使企业长期持续地保持竞争优势。

在计算机技术和信息技术发展早期,因技术条件受限,企业一般采用手工操作进行数据处理,用定期统计报告满足决策的信息需求。

自20世纪60年代始,文件处理系统逐渐发展成为数据库系统。20世纪70年代,数据库技术快速发展,出现了关系数据库系统和索引技术,企业开始应用数据存取界面和高级编程语言来进行数据的高效处理,实现了大容量数据存储、数据检索数据管理。20世纪80年代中期开始,许多先进的数据模型被提出,如面向对象模型和演绎模型等;同时兴起了新型数据库系统的研究和开发,如多媒体数据库和空间数据库等。数据库技术的发展和互联网的普及,使众多数据库存储的海量数据大大超出了人们的数据分析和数据理解能力,由于缺乏合适的工具帮助人们从海量数据中挖掘信息和知识,结果许多重要的决策不是基于数据分析和知识发现,而是依赖于决策者的主观判断,数据库逐渐成为“数据坟墓”。人们不仅面临数据量爆炸式增长的问题,也面临着不同数据库来源的数据格式不兼容的问题,为了便于进行信息分析和决策,需要将同一机构的全部数据以标准格式统一储存,这就形成了数据仓库,数据仓库为深入进行数据分析创造了条件,是数据挖掘技术产生的基础。

由于企业的市场环境变化越来越快,急需提高信息处理的及时性和决策的效率,在线分析工具(OLAP)应运而生,OLAP能实时分析数据,实时产生报表,允许交互式浏览,并能对数据进行多维度分析,是数据分析手段的一大进步。

OLAP分析的前提是用户对数据背后的潜藏知识有预判或假设,是由使用者指导进行的数据分析和知识发现,其实质是对知识假设的数据进行验证,但对于数据中大量的潜藏信息和知识,如果仍不为使用者所知,OLAP分析就无能为力了。处理此种情况需要智能化、自动化的数据分析工具,此工具应不仅能适应现实经济生活中数据的海量性、动态性、含噪性、异质性等真实特性,还应不再依赖于使用者的指导和假设,能智能化生成假设,并自动用数据进行验证。要同时达到上述要求,一般的传统数学分析方法或传统统计方法是无能为力的,在强大的需求推动下,数据挖掘技术应运而生。

数据挖掘技术的发展是和数据库中知识发现(KDD)紧密联系在一起的,1995年第一届国际知识发现与数据挖掘大会上,“数据挖掘”被首次正式提出,随后在世界范围内迅速成为研究热点。1997年第3届KDD国际学术大会举行了数据挖掘工具的实测活动,自此,数据挖掘技术进入了快速发展时期。

数据挖掘技术迅速发展的原因主要可总结为三个方面,分别是数据储备、技术准备和需求巨大。首先,在数据挖掘技术诞生之前,全世界已经储备了巨量的数据资源;其次,人工智能和数理统计等技术领域的研究成果,为发展数据挖掘技术和数据挖掘工具准备了牢固的理论和技术基础;最后,现实经济生活中巨量数据与知识贫乏的强烈反差,迫切需要数据挖掘工具将“数据坟墓”中的数据转化为有用的知识财富,以帮助人们进行正确决策。

三、CRISP-DM方法论

跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining,CRISP-DM),是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方法论,它没有特定的工具限制,也没有特定领域局限,是适用于所有行业的标准方法论,相对于现存的其他数据挖掘方法论,CRISP-DM方法论更具有优越性,因而被广泛地采用。

img288

图4-1 CRISP-DM方法论示意图

CRISP-DM方法论把数据挖掘实践定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布,以下分别加以简介。

(一)商业理解阶段

商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数据挖掘计划。

(二)数据理解阶段

数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

(三)数据准备阶段

数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。

(四)建立模型阶段

建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。对同样的业务问题和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。

(五)模型评估阶段

模型评估是要从业务角度和统计角度进行模型结论的评估。要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。

(六)模型发布阶段

模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。

四、数据挖掘应用于保险客户研究的意义

不同的保险消费者之间存在着巨大的差异,客户研究的目标之一就是掌握不同消费者的差异,从而有针对性地进行销售和服务,降低成本,提高效率。因此说,保险中介的效率和核心竞争力,其来源正是客户之间的差异化。

与统计方法的“同类归并”原则正好相反,数据挖掘的方法适宜对客户差异性的包容和研究。数据挖掘方法擅长处理海量数据,因此使客户的具体差异信息在分析过程中得以完整保留,能充分体现客户之间的差异化,避免了事先以主观维度归并和统计数据,避免信息损失和统计诱导现象的发生,非常适合客户研究。

同时,改善运营、提升效率是数据挖掘的本质追求,数据挖掘提倡“从商业中来,到商业中去”的研究方法,能更好地实现理论联系实际,而客户研究本质的要求,就是为了找到提高销售和管理效率的方法。由此看来,数据挖掘技术更适合于客户研究和保险中介实践。

此外,CRISP-DM数据挖掘方法论高度强调数据挖掘以商业理解始,以商业应用终,也就是确定了数据挖掘研究和实践高度统一的原则,因此数据挖掘的方法完全摆脱了传统理论研究的局限性,兼具了高度科学性和深入的实践性。这些特性使数据挖掘彻底区别于统计,统计科学一般更强调假设检验和方法研究,是从数据中验证理论的科学,实践性是它的弱项,而数据挖掘则是研究商业问题和解决商业问题的有效工具。

最后,数据挖掘“提升度”(Lift)的概念是客户研究的利器。通常对客户研究的质疑主要集中在其“投入产出比”的问题上,这一问题,其本质上就是对客户研究所带来的经营效率的提升程度如何进行量化的问题。数据挖掘本身常用来进行模型评估的“提升度”指标,正是一个描述相对效率的量化指标,通常用来衡量数据挖掘分析选择后的客户,其响应效率比未经选择的客户提升的倍数。一般认为,Lift是评估数据挖掘模型是否有效的度量,这个比值由运用和不运用数据挖掘模型所得来的结果进行比较计算而来,其计算公式可以表述为:

提升度(倍)=运用数据挖掘模型的结果÷不运用数据挖掘模型的结果[1]

提升度可以用累积提升图直观地展现出来。累积提升图的纵轴表示提升度倍数,横轴表示应用数据挖掘模型进行个体挑选的比例,左侧表示严格挑选(如20%纵线表示应用数据挖掘模型只挑选20%最优个体),曲线点表示此时的效率提升倍数;最右侧表示不应用数据挖掘模型进行挑选(100%原始个体全部保留),此时曲线值为1.0。在商业实践中,通常会选择累积提升曲线的最高点来制订商业策略,并应用于营销活动中,因此数据挖掘项目的实际商业效果,一般等于累积提升图曲线的最高值,这也就最终体现为该数据挖掘项目的提升度水平。

累积提升图的曲线从左至右的走势通常为:起始于大于1.0的值,并逐渐下降,直到接近1.0。优秀的数据挖掘模型的提升图,其曲线开始于图表左侧远大于1.0的值,且在向右移动的过程中保持在较高的水平,在图表最右侧,向1.0的方向迅速回归。如果数据挖掘模型不能体现效率提升,则其曲线在整个图形中将始终围绕在1.0左右。

由于提升度指标是可以量化计算的指标,企业据此可以算出数据挖掘和客户研究工作导致的销售和管理效率提升程度(倍数),并间接推导出应用的价值。同时,提升度指标不是靠统计推算出来的,而是用每个差异化的个体客户响应与否逐个相加出来的,其精确度和差异性难以用技术手段加以修饰,因此非常适于实践检验,适宜作为测量数据挖掘模型效率的指标。

img289

图4-2 累积提升示意图[2]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈