首页 理论教育 《中图法》知识库的应用

《中图法》知识库的应用

时间:2022-02-27 理论教育 版权反馈
【摘要】:7.4 《中图法》知识库的应用知识库以《中图法》为框架,以人工标引经验为基础,通过分类检索语言、主题检索语言、自然语言之间的兼容转换原理,建立分类号-主题词串-关键词串之间的对应关系,包含了丰富的词汇、大量的同义关系以及词串与类号的对应关系,能够广泛地应用于中文文献信息的自动标引、自动分类(归类),甚至概念检索上。
中图法》知识库的应用_情报检索语言的兼容转换

7.4 《中图法》知识库的应用

知识库以《中图法》为框架,以人工标引经验为基础,通过分类检索语言、主题检索语言、自然语言之间的兼容转换原理,建立分类号-主题词串-关键词串之间的对应关系,包含了丰富的词汇、大量的同义关系以及词串与类号的对应关系,能够广泛地应用于中文文献信息的自动标引、自动分类(归类),甚至概念检索上。

(1)利用抽词词典和停用词表进行分词,并借助于同义词表进行主题规范,实现中文信息的主题自动标引。选择文献标引源,如题名、文摘、作者关键词、正文、参考文献等,利用抽词词典和停用词表采用最大正向匹配算法进行分词,统计词频、词数、位置权重进行排序输出标引词串,再结合同义词表进行主题规范,给出正式主题词。

(2)借助分类号-关键词串对应表、同义词表,以及地名表、时代表、文献类型表实现中文文献信息的自动分类。具体技术流程参见图7-3。自动分类是一种词串定类和概念定类,是一种基于实例的自动分类方法。首先,它是词串定类,而不是单词定类,提高了分类的正确性。其次,它是概念定类,在标引词串与分类知识库中词串进行匹配时,先进行字面相似度的计算,对于未能给出类号的记录再利用同义词表和义类词典进行语义相似度的计算,从而在兼顾正确性和速度的前提下,给出最佳的《中图法》主类号。如采用KNN方法,也可给出两个或多个类号。第三,它是一种基于实例(即标引经验)的分类方法,分类知识库中的每一条记录都是一个标引实例,与其相匹配则可确定其分类结果。第四,采用地名表、时代表、文献类型表对标引词串中的地名、时代、文献类型等分面归类,以改进《中图法》类目体系在自动分类上的弊端。

img188

图7-3 自动标引和自动分类系统设计流程[7]

(3)在自动标引和自动分类结果的基础上,并结合同义词表,实现中文文献信息的概念检索和多途径检索。从标引的角度看,本系统给出的主题标引结果包括了关键词串和主题词串两个部分,这使得用户一方面可以从关键词和主题词两个途径进行检索,另一方面能够实现词串检索而不仅仅是单个词的检索;此外还可以结合同义词表增加检索入口以及利用义类词典实现概念检索,从而提高检索的效率。从分类的角度看,分类结果包括了主类号以及地名、时代、文献类型等各个组面的复分号,用户可以从主题、地名、时代、文献类型等多个途径进行文献信息的分类检索。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈