首页 理论教育 分类组织法

分类组织法

时间:2022-03-04 理论教育 版权反馈
【摘要】:分类组织法是指依据客观世界的各种物质运动形式、运动规律及相互关系等将知识分门别类地加以归纳和聚集。分类组织法通常是针对知识元素进行的,即将性质相同的或有密切关联的知识元素划分到同一知识集合中,而知识关联则体现在类与类别之间的关系上。将人或事物对象作为分类标准的组织方法,即将与某人或某物相关的内容集合在一起。目前人们已经提出大量的聚类算法。

3.3.2 分类组织法[16-20]

1.分类组织法的基本原理

分类组织法是指依据客观世界的各种物质运动形式、运动规律及相互关系等将知识分门别类地加以归纳和聚集。它的基本原理是“物以类聚”,即考察事物的各个属性,将属性相同或相近的事物集中在一起,将属性不同的事物区别开来。分类组织法通常是针对知识元素进行的,即将性质相同的或有密切关联的知识元素划分到同一知识集合中,而知识关联则体现在类与类别之间的关系上。

分类组织法可分为定向分类和非定向分类两种:

(1)定向分类

定向分类是指在预先设置的分类标准的指导下对知识元素进行归类的过程。

常用的分类标准有以下几种:

①按学科分类

这是在文献分类中最常用的一种知识分类方法。它的基本原理是:以学科分类作为区分知识集合的标准,将相同学科的知识集合在一起,以类目(具有相同属性知识的集合性概念)表征知识元素,以类目的等级体系表征知识关联。

②按主题概念分类

以知识客体的主题概念作为分类知识的标准,将相同或相近主题概念的知识聚集在一起,用主题词表征知识元素,用参照系统(主题词之间的关系)表征知识关联。

③按人或对象分类

将人或事物对象作为分类标准的组织方法,即将与某人或某物相关的内容集合在一起。例如:马列主义、毛泽东思想、邓小平理论、鲁迅著作等。

④按用途分类

以知识本身的用途或效用为标准来分类知识,将符合同一应用需求的内容集合在一起。

⑤按时空分类

知识具有一定的时空特性。按知识的时空分类就是以知识产生的时间和空间为标准来组织。例如按年、月、日分类,或者按国家、地区分类等。在知识创新的研究中,如果正确使用知识的时空分类方法,将会产生显著效果,甚至可能取得意想不到的创造性成果,这是因为知识的时空分类不仅仅是一种“归类”,更重要的是一种“整合”。在知识创新研究中,可采用如下四种知识时空分类方法[21]:

●将时空相近的知识整合在一起。不仅可以实现知识的归类,还可以了解某一学科的发展现状以及进行某一学科研究成果的横向比较研究。

●将时间上相近、空间跨度较大的知识整合在一起。这可以实现某阶段不同知识成果间的交叉渗透,有利于新知识的产生。知识空间的跨度越大,其知识元素的差异就越大,各知识元素间的优势互补就越明显,其价值也就越大。

●将时间跨度较大、空间上相近的知识整合在一起。这可以看出某一学科、某一领域的发展脉络,预测其发展趋势,也可以找出某一事物发展的主导因素和其中的关键问题。

●将时间跨度和空间跨度都较大的知识整合在一起,可以极大地发挥各知识单元间的“杂交”优势,可以使一些老的学科焕发青春,又促进新学科的产生。许多新兴的交叉学科的诞生,就是通过这一途径实现的。

(2)非定向分类[22]

非定向分类通常也被称为聚类,是指在分类标准未知的情况下,将知识元素按其内容和相互关联程度聚合成不同的类(或簇)。聚类问题可一般性地描述为:待聚类知识空间X=x1,x2,x3,…,xn,每个xi表示一个知识元素,由一组特征数据组成的m维向量xi={xi1,xi2,xi3,…,xim}表示,X的聚类即是X的一个划分A1,A2,…,At,且满足A1∪A2∪…∪At=X并且Ai∩Aj=ō。每个Ai就是一个知识元素的类(或簇)。聚类的基本标准是使划分的类具有“较高的族内相似性和较低的簇间相似性”。

目前人们已经提出大量的聚类算法。根据算法的基本思想,可以将聚类算法分为划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等几大类。

①划分法

给定一个有n个元素的知识集合,划分法将对其构造k个分组,每一个分组代表一个聚类,并且k≤n个。同时这k个分组满足下列条件:每一个分组至少包含一个元素;每一个元素属于且仅属于一个分组。某些使用模糊划分技术的算法不要求每一个元素属于且仅属于一个分组,一个元素可能会被分到多个组里。对于给定的k,该算法首先给出一个初始的分组方法,以后通过反复迭代来改变分组,使得每一次改进之后的分组方案都比前一次好。分组时要求同一分组中的元素尽可能地相关或“接近”,不同分组中的元素尽可能地不相关或“远离”。基于划分的聚类分析算法有:k-均值算法(k-means算法)、k-中心点算法(k-medoids算法)、CLARANS算法等。

②层次法

这种方法对给定的知识集合进行层次的分解,直到满足某种条件为止。具体又可分为“自底向上”和“自顶向下”两种方法。“自底向上”的方法又称为凝聚的方法,初始时,每一个元素都组成一个单独的组,在以后的迭代过程中,再把那些相互邻近的组合并成一个组,直到所有的元素组成一个组或者满足某个条件为止。“自顶向下”的方法又称为分裂的方法,初始时,所有的元素组成一个组,在以后的迭代过程中,再把一个组分裂成几个更小的组,直到每个元素都在单独的一个组中或者满足某个条件为止。层次法的代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。

③基于密度的方法

基于密度的方法能够克服基于距离的算法只能发现球状聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。基于密度的方法的代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

④基于网格的方法

这种方法首先将知识空间划分成有限个单元的网格结构,所有的处理都是在这个网格结构上进行。这种方法的一个突出优点就是,处理速度很快,通常与待处理的知识元素的个数无关,而与单元格的数目有关。STING算法是基于网格方法的一个代表算法。Wave-Clnster算法、CLIQUE算法是既基于网格的,又基于密度的。

⑤基于模型的方法

基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。选用的模型可以是数据点在空间中的密度分布函数。基于模型的方法使用了一个潜在的假设,即目标数据集是由一系列的概率分布所决定的。

一些聚类算法综合了多种聚类方法的思想,对这些算法,很难把它们归到上述类型中的某一类。在实际应用,可以根据需要选择合适的聚类算法,必要时可综合使用多种聚类技术,以便达到更好的聚类效果[23]

分类和聚类是一个过程的两个方面:聚类的结果可用于分类,分类的结果又产生了聚类。在没有先验的知识分类标准时,先用聚类方法对知识进行分类,再对生成的类进行特征抽取或利用生成的类对其他知识进行分类。

2.网络资源的分类组织法应用

从网络技术发展的初期至今,人们就网络信息资源分类问题提出多项解决方案。比如,在早期的索引擎中,人们利用标引器浏览整个网页,计算每个词在网页中出现的频率,将这些词按频率从大到小的顺序排列,并用出现频率最高的词标引网页;随后,为了提高查全率,人们借鉴字索引的基本思想,仅将网页中起语法作用的公用词滤去,把剩下的所有词都作为索引项;随着统计和空间向量等技术在网络信息检索领域的应用,网络信息资源分类技术朝多极化方向发展:Apte用决策树技术来获取分类器,Yang采用了一种基于余弦距离计算的邻近算法进行分类,Lewis构造了一个线性分类器,Cohen设计了一种建立在权值更新基础上休眠专家算法。这些分类技术在提高网络信息资源分类质量方面确实起到很大的作用。但与此同时,网络信息数量的剧增又给网络信息分类提出更高的要求,人们期待着更为高效、智能的知识分类方案。

(1)基于机器归纳学习的网页分类方法

机器归纳学习是人工智能领域的先进技术,它能在具体实施的过程中,通过向实例学习,不断提高其自身解决问题的能力。机器归纳学习需要训练集作为自己学习的依据,如何选择训练集是学习的关键。在网络信息资源分类中应用机器归纳学习,其训练集有两种设置方法:①人们根据一些基本的分类规则,人为地设置训练集;②学习机制自动选择训练集。在第一种方法中,人的主观因素起了很大的作用,而且学习机制缺乏自我更新训练集的能力,在一定的程度上影响了学习的效果。在第二种方法中,学习机制根据网络“原信息”,自动选择训练集,并能在工作中不断更新训练集,提高分类的质量,具有很高的智能性。

REPGER带有优秀训练集的相关词库分类规则,是一种新的基于机器归纳学习的在线网络信息分类学习算法。REPGER有三个特点:①它带有一个具有很强预测能力的词库;②它采用了新的机制以选择好的训练例子;③它能动态学习,以确定更新训练集的合适阈值。

REPGER算法的相关定义:

PoolR——与已知类相关的网页的特征集;

PoolN——与已知类非相关的网页的特征集;

αk——新网页X中第k个特征所在的已分类网页的标准权值;

wk——新网页X中第k个特征的标准特征权值。

一些变量的初始化:

从分类主题中抽取n个特征组成一个该主题的特征向量,记作Q={q1,q2,…,qn},并给每个特征赋初值1/n,且有PoolR←PoolR∪Q,PoolN←φ。当学习器捕获到待分网页时,按照以下步骤进行学习:

①设X为从新网页中抽取的特征集,计算X中每个特征的αk值,令每个新特征的权值wk=1/|PoolR|(|PoolR|表示PoolR中向量的个数)。

②对于新网页中任何一个特征Xk,如果Xk∈(X∩PoolR),且∑(αkwk)=scorex≥φ,那么这个网页就被归到特征Xk描述的类中。

③如果该网页的特征集进一步满足公式

img5

那么该网页能被作为新的例子收到训练集中去。

④如果网页在②或wk=wkexp(-2η(score x-yx)αk)更新X中的特征权值,这里表示学习率。③中已被分类,那么可以得到该网页的目标价值yx,并且可用公式;

⑤更新PoolR和PoolN,并对其重新标准化。

⑥若某类中的网页数量超过了预期值,可以调用临界值学习算法,适当加以限制。

临界值学习算法如下:

①根据相关词库实现分类

REPGER慎重地选择合适的特征对分类网页作相关性预测。受A.Blum“非限定分布模型”思想的启发,该算法不用事先指定所有的特征集。因为非相关网页中的特征通常不具备很高的预测能力。而对某类的主题描述或相关文档中的特征却有很强的预测能力。根据观察学习,我们可以得到一个相关词库,该词库中的词所代表的特征均来自该类的主题描述或先前被分到该类的网页,这个词库被用来预测新网页的相关性,以便将其正确分类。

②选择优秀的训练例子

机器归纳学习对训练集具有很强的依赖性,优秀的训练例子的选取关系到网页分类的质量。在REPGER中,训练集的例子除初始例子是根据客观世界中的事物描述来确定的外,其余的都是在分类的过程中学习得到的。也就是说,对于一个待分类的网页,不仅要根据对它的预测相关度来确定其所属类别,还要判断它是否有被作为新的训练例子的价值。假如有一个刚被分类的网页,不仅含有许多PoolR中所具有的特征值,还另外有许多新特征(这些特征描述该类事物更具有代表性),那么它就具备更好描述该类事物的能力,从而可以帮助系统学习到更多关于该类网页的新特征。这个新例子将会激发权重分配组件更新PoolR中每个特征的权值,以提高分类器对新网页分类的准确性。为了选择好的训练例子,我们也有一些相应的规则,即当新网页的特征满足公式

img6

则它就能被作为新的训练例子。该公式是为了在分类的初始阶段为学习机制选取少量优秀的训练例子,所以参数β不宜太小。

③临界值的动态学习

如前所述,临界值是用来控制某类网页的数量,以使网页的分类尽可能优化。在适应性网页分类的时候,分类之前我们并不知道分类器的最优临界值是多少。即使在某一特殊时刻我们能估计出这个临界值,但不能担保这个临界值适用于每一次分类。对于这个问题的最佳解决方案是加强动态学习,为每次分类确定一个最优临界值。

分类器在分类的时候,它已经掌握了与已知类相关的网页的特征集PoolR和已被分类的网页集。所以,可以首先找出PoolR中权值最大和最小的两个特征,并取这两个值的中间值为临界值。因为每对一个网页分类后,PoolR中特征的权值都会发生改变,所以每次的临界值都是动态的。

这种带有优秀训练集的相关词库分类规则,将训练集的静态知识和分类学习机制的启发式知识结合起来,利用扩展激发原理对新的网络信息进行分类,是一种动静结合的分类模式。

(2)XML文档的自动聚类方法[24]

XML(Extensible Markup Language,可扩展标记语言)是近几年新发展起来的基于Internet的元数据置标语言。自发布之日起,XML就以其良好的可扩展性受到业界的普遍欢迎和支持,逐渐成为Web上的通用语言,在数据交换、Web服务、内容管理、Web集成等方面得到了重要应用。

由于XML文档是一种结构化的文本,与一般的非结构化文档有着很大差别,其语义可以通过文档结构得以描述,因此主要是通过对XML文档结构的分析比较进行聚类。

划分聚类法通过一个评估函数将文档集水平地分割为若干个类。对于给定的XML文档集D={d1,d2,…,dn},划分聚类法的具体步骤如下:

①确定要生成的类的数目k;

②按照某种原则(可随机)生成k个聚类中心作为聚类的初始中心点S={s1,s2,…,sn};

③对XML文档集中的每个XML文档di,依次计算它与各个中心点sj的相似度sim(di,sj),并选取具有最大的相似度的中心点argmaxsim(di,sj),将di归入以其为聚类中心的类Cj,从而得到D的一个聚类C={c1,c2,…,ck};

④重新计算每个类的中心点;

⑤重复执行步骤③、④,直至类中心点不再改变,得到稳定的聚类结果。

划分聚类法的运行速度较快,但必须事先确定k的取值和初始中心点,而且初始中心点的选择对最终的聚类结果有较大影响。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈