首页 百科知识 自动标引的必要性

自动标引的必要性

时间:2022-02-27 百科知识 版权反馈
【摘要】:8.1.1 自动标引的必要性标引起源于文献工作,是指根据文献的特征,赋予某种检索标识的过程。为了解决手工标引的低效率问题,研究用计算机来代替人工进行自动标引是非常必要的。自动标引就是利用一套算法去模仿人的标引过程,自动生成信息检索所必需的索引和倒排档[2]。因而,在信息飞速发展的时代,自动标引必然要代替手工标引成为信息检索的研究课题。
自动标引的必要性_自然语言叙词表自动构建研究

8.1.1 自动标引的必要性

标引起源于文献工作,是指根据文献的特征,赋予某种检索标识的过程。标引的目的是为快速、准确地检索所需文献提供方便。因而,在检索系统中标引质量的优劣直接影响到检索的效率。传统的标引工作主要靠专业标引员的智力劳动,根据标引规则来对文献完成主题标引的过程,也称为手工标引。手工标引需要在主题分析的基础上进行,并需经过标识转换,是一种复杂的智力劳动。一个规范的手工标引步骤主要包括如下方面:

(1)查重:查核所处理的文献是否为已进行过标引的复本,以便区别情况分别处理;

(2)主题分析:标引员通过浏览全文,依据文献篇名、文摘、参考文献等,对文献的内容特征进行分析,确定需要揭示的主题概念;

(3)主题概念转换:将主题分析得到的以自然语言方式表达的主题概念用主题词表加以转换;

(4)确定标识:在将主题概念转换成相应主题词的情况下,一般应进一步根据文献主题情况和检索系统特点对标引词进行处理,包括对标引词分组、确定主题标识;

(5)审核:在结束文献标引前,必须对每种文献的标引结果进行审核,以减少标引误差,保证文献标引的质量。

可以说,手工标引在文献检索的历史上起过重要的作用,然而随着信息技术的发展、互联网的应用普及,手工标引的局限性日渐显露出来:

(1)手工标引效率较低:而网络信息呈指数级增长,单靠标引员投入大量复杂的智力劳动,往往事倍而功半,也使得完全用手工标引来处理海量的网络信息变得不现实。

(2)手工标引的一致性较差:所谓一致性是指标引员对同一主题内容文献标引的一致程度,它可以是指不同标引员之间标引的一致性,也可以指同一标引员在不同时间标引同一主题文献时赋予标识的一致性。由于标引人员的知识背景、表达习惯不可能完全一致,造成了手工标引结果的不一致性。据统计,两位有经验的标引员依据同一叙词表标引同一篇文献,在最后的标引结果中只有30%的标引词完全相同。即使同一标引员在不同的时间对同一篇文献进行标引的结果也不会完全一致。标引的不一致性直接影响到检索效率。

为了解决手工标引的低效率问题,研究用计算机来代替人工进行自动标引是非常必要的。自动标引就是利用一套算法去模仿人的标引过程,自动生成信息检索所必需的索引和倒排档[2]。首先,自动标引可以在很短的时间里快速完成大量待标引的文献;其次,自动标引可以很好地解决手工标引结果不一致的问题,只要程序设计不变,无论何时对同一篇文献总能标引出相同的主题词。因而,在信息飞速发展的时代,自动标引必然要代替手工标引成为信息检索的研究课题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈