知识发现的主要技术

时间：2023-03-04 理论教育版权反馈

【摘要】：关联分析的目的是抽取隐藏在数据或对象间的关联规则。关联分析可以揭示数据间未知的依赖关系，并以置信度因子衡量依赖的程度。偏差分析用来发现数据集中与正常情况不同的异常和变化，并进一步分析这种变化的原因。因此，偏差分析有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数据，还可产生新的引人关注的事实。常用的预测技术包括线性和多项式同归、神经网络和决策树预测等。

6.3.5　知识发现的主要技术

数据挖掘可以从海量数据中寻找数据关联和隐藏要素，建立模型并预测未来的趋势及行为，自动探测以前未发现的模式，从而提炼出决策知识。其实现技术主要包括:

1.特征提取

特征提取的目的是对数据进行浓缩，给出它的紧凑描述。特征提取不是数据的简单枚举，而是产生数据的特征化和比较描述。其中的特征化提供给定数据集的简洁汇总，而概念或类的比较则提供对两个或多个数据集的比较描述。

2.关联分析

关联分析的目的是抽取隐藏在数据或对象间的关联规则。关联规则是描述事物之间同时出现的规律的知识模式。关联分析可以揭示数据间未知的依赖关系，并以置信度因子衡量依赖的程度。根据这种关系就可从一个数据对象的信息来推断另一数据对象的信息。例如，若两个或多个数据项的取值重复出现且概率很高时，它们就存在某种关联。例如，在超市的商品销售数据库中，我们可以找到以下信息:在购买面包和黄油的顾客中，大部分人同时也买了牛奶。关联分析近几年研究较多，已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现，并把研究的重点放在提高算法的效率和规模的可收缩性上。常用的关联分析方法有数据立方体法、面向属性归纳法。

3.分类分析

分类分析就是通过学习构造一个分类函数或分类模型(也常称为分类器)，形成一个类别的概念描述，即该类的内涵描述，包括共同特征描述和辨别性描述(与其他类的区别)。类的描述可以是显式的，如用一组特征概念描述;也可以是隐式的，如用一个数学公式或数学模型描述。分类分析方法包括机器学习、神经网络、粗糙集(rough set)、决策树、统计分析法等。

4.聚类分析

聚类分析是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集中的个体(对象)按照相似性归约成若干类别，使其“物以类聚”。聚类分析的原则是使同一类别中的对象之间具有尽可能大的相似性，而不同类别中的对象之间具有尽可能大的差异性。与分类分析不同的是，聚类结果主要基于当前所处理的数据，不依赖于预先定义好的类，事先也不知道可分割的类的个数。因此在机器学习中，数据分类被称为监督学习，而数据聚类则称为非监督学习。聚类分析的方法包括基于划分的方法、基于密度的方法、基于层次的方法、基于网格的方法、基于模型的方法等。

5.时序分析

时序分析把数据之间的关联性与时间性联系起来，通过时间序列搜索出重复发生且概率较高的模式，其目的是为了挖掘数据之间的联系。序列模式可以看成是一种特定的关联模型，它在关联模型中增加了时间属性。时序分析非常适于寻找事物的发生趋势或重复性模式。

6.偏差分析

偏差分析用来发现数据集中与正常情况不同的异常和变化，并进一步分析这种变化的原因。当某数据对象不符合大多数数据对象所构成的规律时就会形成孤立点，就需要进行偏差分析。以前许多数据分析方法都将孤立点作为噪声或意外而将其排除在分析处理的范围之外。事实上在一些商业应用中，小概率发生事件往往比经常发生的事件更有挖掘价值，如各种商业欺诈行为的自动检测等。因此，偏差分析有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数据，还可产生新的引人关注的事实。偏差分析的主要算法包括基于统计的、基于距离的、基于密度的、基于偏离的分析算法等。

7.预测

预测是指利用从历史数据集中自动推导出的对给定数据的推广描述，预测未知的数据值或变化趋势。例如根据客户的年龄、性别和收入来预测他的大概支出。常用的预测技术包括线性和多项式同归、神经网络和决策树预测等。

8.可视化

可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。例如，把数据库中多维的数据变成多种图形，这对于揭示数据中的状况、内在本质以及规律性起到很强的作用。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈