首页 百科知识 自动标引方法概述

自动标引方法概述

时间:2022-02-27 百科知识 版权反馈
【摘要】:8.1.2 自动标引方法概述[3]1957年,美国IBM公司的Luhn,H.P.发表论文,首次将计算机技术引入文献标引领域,开创了以自动标引为特征的现代标引方法[4]。之后各位学者对计算机自动标引技术进行深入研究和探讨,出现多种自动标引方法和试验系统。统计标引方法根据Zipf“省力法则”,依据词汇在文献中的分布特征和规律来选择标引词,是最早使用的一种自动标引方法。
自动标引方法概述_自然语言叙词表自动构建研究

8.1.2 自动标引方法概述[3]

1957年,美国IBM公司的Luhn,H.P.发表论文,首次将计算机技术引入文献标引领域,开创了以自动标引为特征的现代标引方法[4]。之后各位学者对计算机自动标引技术进行深入研究和探讨,出现多种自动标引方法和试验系统。主要有以下几种:统计标引法、概率分析法、句法分析法、语义分析方法和人工智能方法。概率分析法主要依据相关概率,决策概率和出现概率,目前还处于理论阶段,具体的标引工具尚未出现;句法分析法和语义分析方法深入文本的句法结构和语义结构,受制于语言学的发展,目前还很难得到推广和使用;人工智能从标引员思维的角度模拟标引员的标引过程,比其他标引方法更有希望获得理想的标引效果,代表了自动标引发展的方向,但相比其他方法更为复杂和不易实现。统计标引方法因其简单易用,符合人类语言应用特征,又常与其他方法结合使用,技术较为成熟,应用最为广泛。

统计标引方法根据Zipf“省力法则”,依据词汇在文献中的分布特征和规律来选择标引词,是最早使用的一种自动标引方法。将一篇较长的文章(约500字以上)中出现的每个词汇按其文献频次自高到低的顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,频次最高的是1级,其次是2级,3级…,如果用f表示词在文献中出现的频次,用r表示词的等级序号,则满足f*r=c(c为一个常数)。通过对这些词语的统计,求出其中的高频词、中频词和低频词,并使用中等频率的词语作为标识文献的主题词。除此以外,还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值,使得最终的加权统计结果更符合实际情况和体现文章的主题[5]。根据统计处理对象和方法的不同,主要包括词频统计标引法、加权统计标引法、N-gram法等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈