首页 百科知识 数据挖掘项目的实施步骤

数据挖掘项目的实施步骤

时间:2022-07-15 百科知识 版权反馈
【摘要】:在近几年的数据挖掘实践中,跨行业数据挖掘过程标准占据领先地位,采用量达到60%左右。它把数据挖掘项目的实施步骤分为六个阶段,而这六个阶段的顺序是不固定的,经常需要前后调整以完成数据挖掘工作。通过对原始数据进行清洗和梳理,有效地消除无关或者虚假信息对最终数据挖掘结果造成的不良影响。

在近几年的数据挖掘实践中,跨行业数据挖掘过程标准(CRISP-DM)占据领先地位,采用量达到60%左右。它把数据挖掘项目的实施步骤分为六个阶段(如图4-6所示),而这六个阶段的顺序是不固定的,经常需要前后调整以完成数据挖掘工作。

图4-6 数据挖掘的六个阶段

1.业务理解

业务理解阶段主要指理解项目目标,从业务的角度理解数据分析的需求,同时将之转化为数据挖掘问题的定义,制定数据挖掘的目标,并完成初步阶段。

2.数据理解

数据理解阶段从初始的数据搜集开始,一旦对象和工作计划拟定完成,就要考虑所需要的数据,熟悉数据,识别数据的质量问题,发现数据的内部属性。

3.数据准备

大数据中包含大量错误、重复的部分,需要删除、整理和转化。数据准备可以视为一次数据探索,为之后的模型建立做准备。通过对原始数据进行清洗和梳理,有效地消除无关或者虚假信息对最终数据挖掘结果造成的不良影响。所以在数据准备时,数据清洗至关重要。

4.建立模型

这一阶段需要描述数据并建立关联,然后用一定的分析方法借助数据挖掘工具进行数据的基础分析。在这一阶段,因为需要依据不断增长的数据进行修正,所以要不断地回到数据准备阶段,最后依据数据建立相关模型。

5.模型评估

在发布模型之前,需要彻底评估模型,检查构造模型的步骤,确保模型可以完成业务目标,这一阶段的关键是确定是否充分地考虑重要业务问题。

6.实施部署

根据客户需求,实施部署可以产生简单的数据报告或可重复进行数据挖掘过程。客户可以把实践的结果反馈给技术人员,并进一步对模型进行修订。

[1] API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无须访问源码,或理解内部工作机制的细节。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈