首页 理论教育 叙词表自动构建原则

叙词表自动构建原则

时间:2022-02-27 理论教育 版权反馈
【摘要】:就是说,出现频率较高的词应为叙词表的主要候选词。所以,自动构建的叙词表具有良好的文献保证。因此叙词表之间的互操作也愈加迫切,从而要求构建叙词表时更要注重规范化和标准化。易用性原则易用性原则是针对自动构建的叙词表的使用环境和使用对象特征提出的。自动构建叙词表的目的之一在于有效组织领域内的网络信息资源,提高网站检索效率,实现概念检索。
叙词表自动构建原则_自然语言叙词表自动构建研究

4.2 叙词表自动构建原则

兰开斯特(Lancaster)曾总结了编制词表时要遵循的两个最基本原则:文献保障和用户保障原则[11]。之后有学者提出的科学性、实用性、易用性、兼容性、系统性等原则均在此基础上衍生得出。针对网络应用环境和网络信息检索用户的特点,在自动构建领域叙词表时主要遵循文献保障原则、用户保障原则、规范化原则和易用性原则。

(1)文献保障原则

英国图书馆学家休姆Hulme,E.W.于1911年提出文献保障原则(Literary Warrant),当时主要指分类法必须有文献保障,即分类法的类目必须根据文献情况设立,有文献必须有类目,也不能没有文献而空设类目,另外类目的细分程度受文献的特点和数量支配。后来兰卡斯特(Lancaster,F.W.)对文献保障原则的定义是:“若已知关于某一主题的文献存在,则表述这个主题的术语就是有根据的,如果已知没有文献存在,则该术语是无根据的,不应保留”[4]。简单来讲,文献保障原则指仅当一个词频繁地出现在对于检索来说是有益的、重要的文献中时,词表才予以收集。就是说,出现频率较高的词应为叙词表的主要候选词。另外,在同义词或近义词之间通常选用出频率最高的词作为词表正式词。如上文所述,本文探讨自动构建叙词表,主要应用于网络信息资源组织和检索。在决定词表收词范围时,首先从相关领域网站下载网页,经过文本转换后导入文本库中,再通过各种途径收集领域语词和概念并制成关键词词典,然后通过该词典对文本库进行切词,同时统计词频,以文本库总词频为主要依据选词收词。所以,自动构建的叙词表具有良好的文献保证。

(2)用户保障原则

用户保障原则是指只有当情报机构的用户对某词感兴趣时,该词才应被收入词表。也就是说,向情报机构的潜在用户收集那些代表其特定主题兴趣的词汇收入到词表中。以往传统叙词表编制时,常通过向潜在用户进行访问或通过调查表进行书面调查来选取反映本专业兴趣的词汇。这种方法收集词汇效率很低,而且不易实施,不适用于网络环境中的词表构建。在网络环境下,利用计算机程序从领域网络检索系统的用户检索日志中自动提取检索策略中的词汇并统计词频,是词表收词的一个重要途径,但是需要相应网站的合作,并需要长时间的积累才能实现。对于尚未使用检索系统的领域网站,自动构建的叙词表可通过该方法不断补充新词,使得词表具有良好的用户保障。

(3)规范化原则

编制叙词表需要参考和遵循国际和国内主要叙词表编制标准,保障词表编制的科学性和词表的可靠性、通用性和使用质量,为兼容互换提供必要条件。自动构建领域叙词表时主要参考的标准有国际标准ISO 2788:1986(单语种叙词表编辑和修订指南),中国标准GB 13190-91(汉语叙词表编制规则),ANSI/NISO Z39.19-2005《单语种叙词表的编制、格式与管理指南》。这些标准对叙词表收词选词、词间关系种类和界定、参照系统、词表体系结构、存储和显示等方面都有详细描述。网络信息的增长使用户对互联网信息资源检索的需求不断增加,网络信息检索系统也越来越多地应用了叙词表,以支持用户不同层次的检索需求。因此叙词表之间的互操作也愈加迫切,从而要求构建叙词表时更要注重规范化和标准化。

(4)易用性原则

易用性原则是针对自动构建的叙词表的使用环境和使用对象特征提出的。叙词表的开发应该以其使用的信息环境的性质和需求为依据,所以构建词表之前首先要对词表使用环境和用户特征进行深入的调查和研究,才能保障词表的应用效果[12]。自动构建叙词表的目的之一在于有效组织领域内的网络信息资源,提高网站检索效率,实现概念检索。不同于传统信息检索系统,网络词表应用环境和用户存在以下特征:

①词表的使用者由以前专业的信息检索专家转变为来自不同阶层,具有不同教育背景的普通老百姓,很多几乎没有检索经验;

②网络信息更新迅速,导致新术语、新概念层出不穷,使得领域词汇更新频繁;

③网络环境中信息均以电子格式存储和流通,对词表的容量不再需要刻意压缩,从而追求概念表达的精确性,保障检准率。

针对以上特点,自动构建叙词表时要遵守易用性原则,主要体现在以下几个方面:

①词表收词以实用为标准,收录领域内新词和经常使用的相关领域词汇,保障词表的时效性;同时收录综合性词表中的本领域词汇,保障词表的通用性和兼容性;收词以本领域专业用词为主,兼顾相关业务领域,有一定的收词深度。

②不刻意追求复杂繁琐的词间关系。如把实例关系和分面关系计入等级关系,更符合大众用户的习惯。

③增加自然语言入口,增强词表自然语言与人工语言的结合与统一,便于用户网上查询。

④以电子形式存储词表到数据库中,更易于实现与检索系统的接口交互。

⑤词表要易于维护和更新,能反映最新的领域知识体系框架。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈