首页 理论教育 的发展与比较研究

的发展与比较研究

时间:2022-02-09 理论教育 版权反馈
【摘要】:都是以通用的传统文献分类法为基础,构建一个知识库或数据库,实现信息的自动归类。都借鉴了自动聚类的文档相似度算法,计算待标信息与类目信息的相似度,从而完成赋号标引。但与Scorpion系统相比,我们的系统充分利用了现有的人工智力劳动成果——人工标引数据。

OCLC目前对Scorpion进行完善,在网上提供了Seorpion1.0版本供用户试用。该系统采用更易用、更可靠的Pears数据库引擎取代了原有的SMART加权系统;对Scorpion的数据库进行了改进,使得其分类数据库不再局限于DDC,而是可以根据用户的需求自己决定是使用DDC、LCC或者其他的分类体系或者词表,只要能够提供一个覆盖一定主题范围、相互明确区分的概念集合就可以了。这些改进使得Scorpion系统的易用性、可移植性大大增强,也更便于用户定制使用。

1.知识库是《中图法》知识库的主体

随着情报检索语言向分类主题一体化方法发展和分类语言、主题语言、自然语言兼容互换工作的展开,《中图法》经过多年的实践已经建立起与其他分类法、词表之间的兼容互换对应关系,发展成为一种可以有效组织信息的工具,即知识组织系统(Knowledge Organization)《中图法》知识库以《中图法》类目体系为主干,包含若干个词表和词典,其中抽词词典、停用词表、同义词表、义类词典是主题标引知识库,分类号一关键词串对应表为主分类知识库,地名表、时代表、文献类型表等为辅助分类知识库。

(1)《中图法》类目索引、《中国分类主题词表》(以下简称《中分表》)中的分类号一主题词对应表。

(2)人工规范标引数据,包含《中图法》分类号和《汉表》正式叙词,如上海图书馆《中文社科报刊篇名数据库》、北京图书馆《中文图书检索系统》。

(3)人工标引数据,包含《中图法》分类号和散标的自由词(或称关键词),如重庆维普《中文科技期刊数据库》的采集,构建一个以分类号与关键词(串)对应为主,包含分类号与类名词、分类号与主题词(串)对应的原始库,统计类频、词串频次、类号一词串同现频次,通过支持度、置信度两个兴趣度参数删除错误记录,采用dice测度计算分类号与词串的关联度,从而确定分类号与词串的最佳匹配,形成分类知识库(见图3-2)。

图3-2 基于《中图法》知识库的自动标引和自动分类系统处理流程

图3-2反映了本系统的知识库构造过程和自动标引、自动分类处理流程。

从图3-2反映的基于《中图法》知识库的自动标引和自动分类系统的流程看,首先对待处理文档进行预处理,用停用词表和抽词词典进行分词,根据绝对频次、词长、位置进行加权,取前6—8个词作为标引词,然后借助于同义词表和义类词典进行主题规范,得出正式标引词,完成自动标引;将抽词标引结果与分类知识库中的词串进行字面相似度和语义相似度计算,通过计算给出此词汇相似度最大的词串,再找出对应的分类号,完成赋号分类标引。

2.自动分类和自动标引系统与Scorpion在原理和方法上的相同之处

(1)都是基于分类语言、主题语言之间的兼容互换原理,通过待标文本特征词串与类目特征的相似度计算赋予分类号,以实现分类主题一体化。

(2)都是以通用的传统文献分类法(DDC、CLC)为基础,构建一个知识库或数据库,实现信息的自动归类。

(3)都借鉴了自动聚类的文档相似度算法,计算待标信息与类目信息的相似度,从而完成赋号标引。但与Scorpion系统相比,我们的系统充分利用了现有的人工智力劳动成果——人工标引数据。

3.中文信息的分类、标引上体现的优势

(1)Scorpion仅仅是基于DDC的类目体系,它的分类知识库——杜威数据库中类目概念的表示完全来自类目本身(类目、类级、注释和索引等)及DDC与LCSH的对应,是分类号与索引词、主题词(串)的对应;《中图法》知识库中分类号对应的特征词不仅来源于类目本身及其与《汉语主题词表》的对应,更多的来自标引员的标引记录(包含分类号与主题词串,分类号与关键词串的对应)。可以这样说,前者是基于DDC固有类目体系的,后者则是基于《中图法》标引实例、标引员的标引经验。这样的改进,一方面增加了知识库的规模,不仅包含了分类法的固有类目,还增加了类表未现成给出的大量组配类目,展现了分类法的可扩展性;另一方面,分类号与关键词串的对应(不仅仅是主题词的对应)提高了标引的一致性和分类的匹配率,毕竟正式主题词是有限的。

(2)Scorpion的主题标引是在分类基础上完成的,标引词是分类号在杜威数据库中的对应词串,不是直接来自于标引文本,因此往往不能最专指地反映文本主题:而我们的系统采用关键词串标引和主题规范相结合的主题标引方法,标引词直接来自文本,能够较专指地反映文本主题。

当然,Scorpion对于我们构建知识库,进行主题识别和自动分类有着一定的借鉴意义。首先,Scorpion的成功坚定了我们在网络环境下,采用传统文献分类法对信息资源进行自动化加工组织的信心,破除业界存在的有关自动标引和自动分类近期无法实现的悲观情绪;其次,Scorpion在构建杜威数据库时充分考虑了类目的等级关系,并证明包含等级信息的数据库优于不含等级关系信息的数据库,而我们目前所完成的分类知识库缺乏这种类目等级上的推理,没有充分考虑上下位类对于类目信息表达的影响和作用,这对于我们构建合理并具备一定推理功能的知识库有很好的借鉴作用;第三,标引和检索本来就是互逆的过程,在方法上有诸多相似之处,Scorpion明智地利用了这一点,其自动归类的机理采用了搜索引擎的检索原理,这种创新有助于我们改进分类算法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈