数据挖掘的分类和方法

时间：2024-10-17 百科知识版权反馈

【摘要】：为了更好地从大量的数据中挖掘对我们有用的信息，人们借助其他相关学科如统计学、人工智能和数据库等领域的研究成果和工具，提出了许多数据挖掘方法。决策树是一种用树来展现数据受各变量的影响情形的预测模型，根据对目标变量产生之效应的不同而构件分类的规则。决策树可应用在监督式数据挖掘上，尤其是数据分类。人工神经网络用于分类、群集、特征挖掘、预测和模式识别。

10.6.3　数据挖掘的分类和方法

从广义上看，数据分析可以分成验证型分析和挖掘型分析。其中多维查询和OLAP可以非常方便地观察系统的实际情况，以便确定某种假设是否成立，因此属于验证的范畴。而数据挖掘是从大量模糊的数据中去寻找那些我们未知的信息和没有发现的信息，因而属于挖掘型分析范畴。

在挖掘型分析中，又可分为描述性分析和预测性分析。描述性分析是用来了解数据所表现的实际状态和存在信息，通过它可以了解数据的一些特征，其目的是为预测做准备。预测性分析是在描述性分析得到结论的基础上对系统的发展进行估计，通过预测性分析能得到最终需要的结果，能够为决策者提供直接的依据。预测型分析分成分类型预测和统计回归型预测。分类型预测是预测某个事物将来归属于哪个类别的概率。回归型预测是指预测一个变量的变化。如果此变量随时间变化，则成为时间序列预测。

为了更好地从大量的数据中挖掘对我们有用的信息，人们借助其他相关学科如统计学、人工智能和数据库等领域的研究成果和工具，提出了许多数据挖掘方法。其中主要的方法有如下几种：

（1）统计分析方法

统计分析方法主要用于完成知识的总结和关系型知识挖掘。这种方法主要是对关系表中的属性进行统计和分析，以此来找出属性之间存在的一些我们不知道的联系。在关系表的属性之间一般存在两种关系：函数关系，也就是关系具有确定性，能用数学公式来描述这种关系；相关关系，即不能用函数公式表示的关系，这些变量之间存在着密切的关系，但不能由一个（或几个）变量的数值精确地求出另一个变量的值。

但是确定关系和相关关系是相对的，由于测量的误差等等原因，确定关系有时候以相关关系呈现出来；当事物的内部规律被深刻了解时，相关关系又可能转化为确定性关系。

（2）决策树

决策树可用于分类。决策树是一种用树来展现数据受各变量的影响情形的预测模型，根据对目标变量产生之效应的不同而构件分类的规则。简单地说，决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

决策树可应用在监督式数据挖掘上，尤其是数据分类。它们能够将训练模块的记录区分为独立的子群，而其中子群都有自己的规律。

（3）人工神经网络

人工神经网络用于分类、群集、特征挖掘、预测和模式识别。在人工神经网络中，用计算机处理单元来模拟人脑的神经元，并将这些处理单元相互连接起来，构成一个网络。它采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作，使得神经网络的某些连接或模式得到强化，从而让神经网络“学会”如何去做这项工作。人工神经网络可以分为以下3种：前馈式网络，可用于预测及模式识别等方面；反馈式，可用于联想记忆和最优化计算；自组织网络，主要用于群集。

人工神经网络具有分散型和存储信息、平行处理信息和进行推理、自我组织和自我学习等特点，解决了众多以往方法很难解决的问题。它在多数应用中可以从训练数据组中学习，并产生归类和预测模型。它也可以通过自我组织图和相关结构，应用于非监督或数据挖掘和时间原则分析，其新的应用及结构正在快速增加中。

（4）遗传算法

遗传算法用于分类、关系型规则挖掘等。遗传算法是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。它从一个初始规则集合开始，逐代地通过交换对象成员产生群体，评估并择优复制，优胜劣汰，逐代积累计算，最终得到最优的知识集。遗传算法提供了一种求解复杂问题的通用框架，它不依赖于问题的具体领域，因此在各个领域都有广泛的应用。

（5）粗糙集

粗糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖掘等。粗糙集是20世纪80年代提出，是用于研究不完整性数据、不精确知识表达、学习和归纳的理论与方法。其主要思想是：把对象的属性分为条件属性和决策属性，按各个属性值相同划分为等价类。条件属性上的等价类E与决策属性上的等价类Y之间有3种情况：下近似，Y包含E；上近似，Y和E的交集并非空集；无关，Y和E的交集是空集。对下近似建立确定性规则，对上近似建立不确定性规则，而无关情况下不存在规则。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈