首页 理论教育 知识发现的主要方法

知识发现的主要方法

时间:2022-03-04 理论教育 版权反馈
【摘要】:知识发现方法主要由人工智能、机器学习这两个领域中的相关方法发展而来。信息论方法是利用信息论的原理建立决策树。BACON发现系统完成了物理学中大量定律的重新发现。该系统所发现的公式比BACON系统发现的公式更宽些。在数据挖掘过程中,通过采用合适的知识表示方法将专家知识建模与组织,可以指导数据挖掘系统的运作。

6.3.4 知识发现的主要方法

知识发现方法主要由人工智能、机器学习这两个领域中的相关方法发展而来。它将信息论方法、统计分析方法、模糊数学方法、知识处理方法相融合,形成了由归纳学习方法、仿生物技术方法、公式发现方法、统计分析方法、模糊数学方法以及基于知识的挖掘这六大类方法所构成的方法体系。

1.归纳学习方法

归纳学习方法依据事物的特征,执行归纳推理,产生描述一类数据对象的普遍特征的规则。归纳学习方法是目前重点研究的方向,研究成果较多。从所采用的技术上看,又可细分为两类:信息论方法和集合论方法,每类方法又包含多个具体实现方法。

(1)信息论方法。信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,故一般文献中称它为决策树方法。该类方法的实用效果好,影响较大。其中较有特色的实现方法有:

①ID3方法:ID3方法是利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,再由每个分支的数据子集重复建立树的下层结点和分支的过程,这样,就建立了决策树。ID3方法在国际上影响很大。继ID3方法以后,又陆续开发了ID4、IDS、C4.5等方法。

②IBLE方法:该方法利用信息论中的信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,将该结点中指定字段取值的权值之和与两个阈值比较,建立左、中、右三个分支,在各分支子集中重复建树结点和分支,最终形成决策规则树。IBLE方法比ID3方法在识别率上提高了10%。

(2)集合论方法。集合论方法是开展研究较早的方法。近年来,由于粗集理论的发展使集合论方法得到了迅速的发展。这类方法包括:覆盖正例排斥反例的方法(如AQ系列方法)、概念树方法和粗集方法。

①覆盖正例排斥反例方法。它利用覆盖所有正例、排斥所有反例的思想来寻找规则。比较典型的是AQ系列方法。AQ系列的核心算法是在正例集中任选一个种子,与反例集中的元素逐个比较,相容则舍去,相斥则保留。按此思想循环所有正例种子,最终将得到正例集的规则。

②概念树方法。将数据库中的属性字段按归类方式合并后所建立起来的层次结构称为概念树。如“城市”概念树的最下层是具体市名或县名(如长沙、南京等),它的直接上层是省名(湖南、江苏等),省名的直接上层是国家行政区(华南、华东等),再上层是国名。利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字段的概念树提升,将得到高度概括的知识基表,再将它转换成规则。

③粗集方法。在数据库中将行元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。

2.仿生物技术方法

仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,我们将它们归并为仿生物技术类。

(1)神经网络方法。它模拟了人脑神经元结构,以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型。

①前馈式网络。以感知机、BP反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。

②反馈式网络。它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。

自组织网络。它以ART模型、Kohonen模型为代表,可用于聚类。

神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代计算或者是累加计算)。

(2)遗传算法。这是模拟生物进化过程的算法。它由三个基本算子组成:

①繁殖(选择)。从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。

②交叉(重组)。选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体。

③变异(突变)。对某些个体的某些基因进行变异(1变0,0变1)。

这种遗传算法起到了筛选、产生优良后代的作用。这些后代需要满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法已在优化计算和分类机器学习方面显示了显著的效果。

3.公式发现方法

在工程和科学数据库(由实验数据组成)中对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。

(1)物理定律发现系统BACON

BACON发现系统完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算(加、减、乘、除等)形成组合数据项,若它的值为常数时,我们就得到了组合数据项等于常数的公式。

(2)经验公式发现系统FDD

基本思想是若对两个数据项交替取初等函数后与另一数据项的线性组合为直线,就找到了数据项(变量)的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更宽些。

4.统计分析方法

利用统计学原理对数据库中的数据进行分析,主要分析方法如下:

①常用统计:求大量数据中的最大值、最小值、总和、平均值等。

②相关分析:求相关系数,度量变量间的相关程度。

③回归分析:求回归方程(线性或非线性)来表示变量间的数量关系。

④差异分析:从样本统计量的值得出差异,确定总体参数之间是否存在差异(假设检验)。

⑤聚类分析:直接比较样本中各样本之间的距离,将距离较近的归为一类,而将距离较远的分在不同类中。

⑥判别分析:建立一个或多个判别函数,并确定一个判别标准。对未知对象利用判别函数将它划归某一个类别。

5.模糊数学方法

利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

6.基于知识的挖掘方法

目前,数据挖掘中开始引入了本体、知识抽取和知识组织等知识处理技术等,实现基于知识的挖掘。

(1)利用领域本体知识。数据挖掘所面临的对象是海量的数据,这些数据具有非常复杂的属性和关系,需要花费较长的处理时间探索并发现其中的规律知识。因此,应根据问题需要引入相关的领域知识,用于合理选择相关属性,进行多抽象层次、不同知识层面的语义挖掘,减少数据处理量,降低处理复杂属性关系时的难度,提高挖掘质量。本体作为领域知识的一种先进的表示方法,可帮助机器理解概念,消除数据的歧义性,实现概念的规范化和泛化,辅助挖掘进程从不同层次获取隐含的关联知识。

(2)利用用户知识。有效的数据挖掘过程需要让用户真正参与到挖掘过程中,将用户兴趣知识、背景知识、需求模型融入到系统中,通过用户与系统之间的反复交互约束、聚焦数据挖掘进程方向,并可以保证所发现知识的有效性和利用价值。

(3)利用专家知识。专家知识是执行专种任务的决策规则和技能,是专家在长期的生产实践中积累起来的财富。作为领域知识与具体问题解决方案相结合的产物,专家知识是系统执行各种推理、评价、判断的基础。在数据挖掘过程中,通过采用合适的知识表示方法将专家知识建模与组织,可以指导数据挖掘系统的运作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈