首页 百科知识 本文研究的主要内容及意义

本文研究的主要内容及意义

时间:2022-02-27 百科知识 版权反馈
【摘要】:该词表在本领域的自然语料库基础上构建,保留了自然语言成分,并能实现对自然语言词汇的有效控制,又称作自然语言叙词表。自动构建的自然语言叙词表能够克服现有叙词表应用在网络信息检索系统中所遇到的困难。
本文研究的主要内容及意义_自然语言叙词表自动构建研究

1.3 本文研究的主要内容及意义

要实现对网络信息的有效组织,达到概念检索和智能检索,必须采用情报检索语言的基本原理——词汇控制,把检索语言和自然语言二者结合起来,探索新一代的知识组织工具。实际上,以张琪玉、侯汉清等为代表的学者早就主张情报检索语言发展的趋势是走人工语言和自然语言相结合的道路[5][6]。自然语言和人工语言在检索效率方面具有天然的互补性,自然语言词表扬弃二者的优缺点,并使二者有机结合,是一种新型情报检索语言。根据张琪玉教授的定义,“自然语言词表”指有自然语言成分的各种词表,或者说是自然语言应用于情报检索所需的各种词表[5]

因此,针对目前词表编制和应用中存在的问题,本文旨在研究如何实现自动构建适用于网络信息组织和检索用领域叙词表。“自动构建”叙词表是指主要通过模式匹配、同现分析和聚类分析等自然语言处理技术自动识别词汇之间的等级、等同和相关关系。该词表在本领域的自然语料库基础上构建,保留了自然语言成分,并能实现对自然语言词汇的有效控制,又称作自然语言叙词表。

在国内仍以纯手工或机器辅助编制词表的现状下,自动构建领域叙词表技术在信息检索领域具有重要意义:

(1)编表速度快,费用低,时效性强。以前,叙词表完全靠手工编制,虽能够精确把握词间关系,结构复杂可靠,但是需要投入大量具有特殊要求的专业人员,成本高,构建速度慢,不易维护,而且无法克服知识获取瓶颈,即对标引员或领域专家具有创建叙词表的认知要求,因此词表编制是一项知识密集型劳动,工作量大,历时长。网络时代信息增长迅速,更新快,新词不断涌现,单纯靠手工编制词表是不现实的,这是叙词表在网络时代得不到推广使用的重要原因之一。自动构建叙词表,采用统计方法和自然语言处理技术,主要通过知识挖掘理论和方法识别潜在于语料库中的词汇语义关系,减轻编表人员的智力负担,基本保证词表质量,也能及时收录专业领域内的新概念和术语,用于词表更新。它弥补了手工编制词表的不足,具有良好的发展前景。

(2)词汇直接来源于本领域文本语料库,能客观真实地反映该领域的知识框架,提高专业领域信息检索的效率。自动构建的自然语言叙词表能够克服现有叙词表应用在网络信息检索系统中所遇到的困难。其收词一般直接来源于领域自然语言语料库,更能代表本领域的知识框架,概念更专指,能有效克服“嵌入迷失问题”(词表过大导致用户迷失了方向)和“艺术博物馆现象”(用户花了很多时间却没有找到任何有用信息)[3]。所以用自动生成叙词表的方法,有针对性地构建专业领域叙词表,是改进信息检索效果的有效途径。另外自动构建叙词表对于新兴领域尤其适用。

(3)符合网络环境中普通大众的检索习惯。随着网络的普及,信息载体逐渐从纸质文献向网页转移,人们逐渐习惯于上网搜索自己所需的知识。检索者从专门的信息服务人员转变为最终的信息需求者,信息使用者已经不再是以前图书馆中专门帮助用户查找信息的人员,而转变为来自不同行业、具有不同教育背景的普通老百姓,甚至有些人没有任何检索经验,他们更倾向于用自然语言表达检索需求,这要求情报检索语言必须提供自然语言接口,具有自然语言与人工语言之间的自动转换功能。自动构建的自然语言叙词表遵循了文献保障原则和用户保障原则,能够把用户的自然语言检索词汇自动转换为受控语言进行匹配和检索,或向用户推荐检索词汇,减轻用户的智力负担。

(4)可用于自动标引、检索词提示与检索式扩展。自动生成的叙词表存储在数据库中,将之嵌入到信息检索系统,易于实现自动标引,对网络信息进行组织管理。对于网络用户来说,他们不熟悉词表收词范围和使用规则,给检索造成一定困难。较为理想的办法是,当用户输入表达检索需求的自然语言词汇时,检索系统能够提示与之对应的合适主题词供用户选择使用或直接转换成主题词进行检索查询。把自动构建的叙词表嵌入网络检索工具中或者作为检索系统的一个可调用接口,为用户检索策略的构造提供提示和导航,这样就提高了网络检索效率,真正体现了词表在网络检索中的应用价值。

本书内容安排如下:第1章分析目前网络信息检索存在的问题以及传统叙词表应用遇到的困难,提出本文的研究内容及研究意义;第2章概述当前叙词表在网络环境中的应用现状,简述纯人工编表、机器辅助编表和自动构建叙词表三种方式及其特点,介绍了国外优秀的词表管理软件;第3章介绍目前国内外叙词表编制技术研究进展,并分析了中文叙词表自动构建的可行性;第4章探讨叙词表自动构建的基础理论,包括理论依据、构建原则、研究方法和相关技术的介绍;第5章以构建财税领域词表为例,主要讲述自然语言叙词表自动构建方案,包括词表模式、收词选词、词间关系自动识别、词表存储和更新维护等阶段所采用的方法和技术;第6章着重研究基于词聚类的等级关系识别方法;第7章介绍自然语言叙词表自动构建系统总体设计思路及流程,描述试验用数据,并对经过以上步骤构建的财税词表进行总体测评;第8章研究自然语言叙词表的使用,重点论述如何利用自动构建的财税自然语言叙词表实现自动标引,通过自动标引结果与人工标引结果之间的对比,对自动标引性能进行测评;最后,本书对中文自然语言叙词表自动构建方法的性能进行总结,并就其不足之处提出进一步改进的建议。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈