叙词表自动构建研究方法和技术

时间：2022-02-27 百科知识版权反馈

【摘要】：在自动构建叙词表时，需要采用实验方法对所构建的叙词表进行自动标引实验，并与人工专家标引结果进行比较，以探讨自动构建的叙词表的性能，并进一步证明构建方法的可行性。另外，本文对适用于网络环境中新型词表模式进行了探索，可以说自动构建叙词表本身也是一种实验。自然语言处理技术在叙词表自动构建过程中的应用主要是在以下几个方面：①在收词和选词阶段的自动标引中应用了汉语分词技术。

叙词表自动构建研究方法和技术_自然语言叙词表自动构建研究

4．3　叙词表自动构建研究方法和技术

（1）文献计量学方法

文献计量学方法^［1］以几个经典的文献统计规律为中心，利用这些规律的基本思想去认识、总结文献情报流的现象和规律，从而为图书馆学和情报学的研究提供一种定量工具和途径。文献计量学方法以文献的内在、外观及相关的各种特征作为量度，具有较深刻的描述性能、高度的概括性能、准确的评价性能和良好的预测性能，主要用于鉴定与评价核心期刊，馆藏分析，研究出版社出版专著的情况，词表的编制和文献标引等方面。自动构建叙词表则主要应用了齐普夫词频统计定律。

根据齐氏定律，文章中词汇出现的频率提供了一种决定有效词的好办法。在收词和选词阶段，为了使得所构建的叙词表具有良好的文献保障，往往利用通过各种途径收集的词汇列表对领域文献库进行抽词标引实验，研究词汇在文献库中的词频分布特征，排除没有检索意义的高频词和低频词，确定符合需要的词频参数值，把适当词频区间的词作为叙词表入选词。入选词往往具有较高的分辨力，即识别和反映文章内容的能力，是叙词表收词的优选对象。

除了收词阶段的标引实验，叙词表在构建完成后需要对其进行自动标引实践，以不断修改完善和促使其进入实用阶段。自动标引也在运用齐普夫词频分布规律，如确定词汇权值时，就是给每个词汇分配一个与其在文献中出现频率直接相符的权值，这种方法在文献集合中同样适用。一个文献词表通常服从齐普夫分布，如果统计每个有效词在多篇文献中出现的频率，再按频率的递减顺序排列这些词汇，就能得到齐普夫的双曲线图形。如果有N篇文献，一个词汇在一次检索中涉及其中n篇文献，则可以规定该词的权重为log（N/n）＋1，权值代表了词汇的重要性。

（2）实验方法

实验方法^［4］是一种高度控制的方法，目的在于表明一个或多个自变量与一个或多个因变量之间的因果关系。实验方法中的控制，是指对可能影响到实验的任何环境或外部因素、实验人员等的控制。实验方法综合利用了分析与综合方法、归纳与演绎方法、类比方法、抽象方法等。在图书馆学情报学领域，常用于评价和比较各种检索语言，检查语言对检索系统的适应性研究，标引和检索效率研究，新型检索语言的设计和传统语言的改造等方面。

图书馆学情报学历史上利用实验方法尤为著名的例子是克兰菲尔德实验。英国克兰菲尔德航空学院图书馆馆长在20世纪50年代末期到60年代中期，进行了两次评价索引语言和标引系统的实验，第一次实验比较了国际十进分类法、字顺标题目录、分面分类表和有组配功能的单元词系统共四种索引语言的效率，结果发现四种标引系统的效率几乎是相等的，只是单元词索引效果最好，而分面分类法最差。第二次实验旨在考察规范语言和自然语言在检全率和检准率上的差别，结果发现从文献抽出的自然语言词的系统，在消除其同义词和将字形有变化的词进行混合的情况下，所得结果较其他索引语言更为优越，但用自然语言表达复杂概念的标引系统，效果最差；同时还进一步证明了检全率和检准率的互逆关系。克兰菲尔德实验的意义不仅在于所得出的结论，也在于把实验方法正式引入图书馆学情报学领域。

在自动构建叙词表时，需要采用实验方法对所构建的叙词表进行自动标引实验，并与人工专家标引结果进行比较，以探讨自动构建的叙词表的性能，并进一步证明构建方法的可行性。另外，本文对适用于网络环境中新型词表模式进行了探索，可以说自动构建叙词表本身也是一种实验。

（3）自然语言处理技术

自然语言处理技术被用于对自然语言进行处理，包括自然语言处理技术和自然语言处理资源，目的是让计算机“理解”自然语言的内容。信息检索是自然语言处理一个重要的应用领域，信息检索中常用的自然语言处理技术包括去除停用词、取词根、词性标注、词义消歧、句法分析、命名实体识别、指代消解等。常用的自然语言处理资源主要指机器可读词典，包括Word Net和How Net等词典［13］。

自然语言处理技术在叙词表自动构建过程中的应用主要是在以下几个方面：①在收词和选词阶段的自动标引中应用了汉语分词技术。分词是汉语信息检索需要解决的首要问题，去除文献中的停用词即无检索意义的词汇，能够提高分词效率。在众多汉语分词算法中，基于分词词典的正向最大匹配方法和逆向最大匹配方法应用较为成熟，其中分词词典的性能在一定程度上决定了分词的效果。②在计算关联概念空间中词语之间相似度时利用向量空间模型中向量相似度计算方法，把两词的相似性定义为它们相邻的上下文模式的重叠程度，通过计算两个词的上下文词汇所形成的向量之间夹角余弦值来计算两词之间的相似度。③在识别词间等级关系时采用了层次聚类算法，把表达相似主题的词汇聚集在一起，以便进一步识别词汇之间的等级关系。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈