首页 百科知识 物料分类及编码规则

物料分类及编码规则

时间:2022-02-27 百科知识 版权反馈
【摘要】:2.2.3 国内研究现状国内自动分类研究起步较晚,始于20世纪80年代初期。中国计算机学会曾于2003年3月举办了首届“中文网页自动分类竞赛”,提供了统一的学习集和测试集,搭建了一个展示自动分类研究成果的舞台[87]。国内的清华大学、北京大学、中科院等科研机构已经在该领域取得了较好的成绩,对于促进中文文本分类研究具有一定的意义。国内较有代表性的自动分类研究参见表2-4。
国内研究现状_文本自动标引与自动分类研究

2.2.3 国内研究现状

国内自动分类研究起步较晚,始于20世纪80年代初期。1981年,侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况[86]。我国自动分类的研究大体上正在经历从可行性探讨到辅助分类再到自动分类系统的发展阶段。自动分类研究主要集中在复旦大学、中科院计算所、北京大学、清华大学等。

在统计方法方面,主要的研究内容有:

(1)对分类方法的改进研究和实现。如:引入关键词汇表,并结合未登录词技术进行中文文本分类;根据学习集和分类器的性能将样本空间划分为一些区域,根据区域不同选择最擅长的分类器;将受限学习和不受限学习相结合,进行文本分类;根据网页文本的特征,将网页结构信息和网页文本信息进行单独处理,用于网页分类;处理K近邻方法中样本分布的多峰值问题等。

(2)关于特征单位的研究。大量的研究结果基于词特征,也有许多是基于N-gram特征。

(3)有关特征权重的计算研究。主要采用传统的TF-IDF权重;采用聚类方法,对N-gram特征进行降维;根据文本与特征之间的对偶关系,采用迭代方法计算特征的权重等。

(4)数据集和评价。中国计算机学会曾于2003年3月举办了首届“中文网页自动分类竞赛”,提供了统一的学习集和测试集,搭建了一个展示自动分类研究成果的舞台[87]。国内的清华大学、北京大学、中科院等科研机构已经在该领域取得了较好的成绩,对于促进中文文本分类研究具有一定的意义。

基于知识库的规则分类系统研究主要有:

(1)基于知识库。侯汉清等进行了基于《中图法》的专家知识库系统构建研究[88]。在确定基本信息标引源的基础上,对中文网页主题标引采用基于词频统计加权的方法,通过与分类号主题词对应库主题词串的词面相似度计算,来完成中文网页的自动分类标引。这是以标引经验库来完成自动分类的方法,该方法降低了分类难度,取得了一些成绩,不过由于类目体系(《中图法》)的复杂以及缺少相关数学论证,实际使用过程中有待进一步完善。

(2)基于知识工程。李渝勤采用用户直接为每个类目确定分类规则方法,生成类别模板从而进行分类[89]。这种方法的关键是规则分类器,规则分类器的工作原理是:依据类别模板来统计相关测试样本中满足条件的规则条数,以及规则出现的次数信息,同时利用规则在测试文本结构中的位置信息,来衡量测试样本所属的类别。该方法其缺点是由于完全采用人工方法建立分类规则,工作量较大,不易推广。

(3)自动规则方法。主要有如采用WHISK规则学习算法[90],实现了自主学习的规则集增量完善机制。基于粗糙集理论的分类规则生成算法[91],以粗糙集理论作为理论依据,通过将文本关键词的权值进行离散化或布尔变量处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表。然后通过属性约简和规则化简的办法,提取出文本的分类规则,进而进行规则匹配,完成自动分类。该方法解决了一些传统统计方法存在的不足,如高维、计算量大、不同语种分类等。

(4)基于加权模糊推理网络的分类方法[92]。该方法融合了模糊逻辑能够较完整地表达领域规则和先验知识以及神经网络自适应环境的优点,根据模糊推理规则的量化表示形式和微分方程数值解的动力学思想,推导出网络的一种新学习算法。该算法以文本特征谓词的真度作为分类依据,体现了模糊分类的思想。

(5)本体论方法[93]。把传统的基于关键词的分类提高到基于知识的分类,利用本体论知识库获取语言结构,同时利用领域知识对文本进行全面的判断、推理,得到文本的意义表示,最后据此进行分类等。

国内较有代表性的自动分类研究(包括相关系统)参见表2-4。

表2-4 国内较有代表性的自动分类研究(包括相关系统)

img14

(续表)

img15

综上所述,以上对于自动分类的研究只是大量分类研究中的一部分。如何采用计算机技术来自动或半自动完成文献的组织加工,从而提高效率和质量,进而建立有序的学科信息门户,已经变得非常重要而且很是迫切了。自动分类作为可行的、能较好进行海量信息组织的方法之一,值得我们进一步对此进行研究。探索出一种既高效且准确率较高的分类方法和分类系统,是有其特定意义的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈