首页 百科知识 英语语法技术流程(一)

英语语法技术流程(一)

时间:2022-02-27 百科知识 版权反馈
【摘要】:技术流程如图6-1所示。图6-1 GKEY方法的技术流程停用词表的建立:停用词包括两种:一种是具有正确的分词边界,但缺乏检索意义的停用词,比如“我们”、“一种”、“非常”和“关键”等。与汉语分词系统相比,停用词表的维护比未登录词处理要简单得多,而且很容易达到一个稳定的状态。
技术流程_情报检索语言的兼容转换

6.2 技术流程

在借鉴现有基于N-gram频率统计方法的基础上,我们提出一种新的N-gram权重计算方法和关键词抽取方法(简称“GKEY”方法)。该算法在不采用分词系统和数据集的情况下,通过简单的操作便可以有效地获取单篇文献的关键词。基本假设:词汇的重要性与其长度和在文献中的出现频率呈正相关,关键词在该文献中至少会出现两次。技术流程如图6-1所示。

img156

图6-1 GKEY方法的技术流程

(1)停用词表的建立:停用词包括两种:一种是具有正确的分词边界,但缺乏检索意义的停用词,比如“我们”、“一种”、“非常”和“关键”等。另一种是分词不正确、语义不完整或者不明确,但又在汉语文献中频繁出现的字符串,比如“是一种”、“主要是”、“不可能”、“带来了”和“充分的”。与汉语分词系统相比,停用词表的维护比未登录词处理要简单得多,而且很容易达到一个稳定的状态。

(2)文本预处理:预处理是将文本中的一些特殊符号,如“※”,“……”,“§”等和HTML等标记清除。本实验根据GB2312-80和语料库提取了800多个特殊符号。

(3)句子的划分。汉语中,标点符号如“?”,“!”和“。”等是划分句子的重要标识。句子是词的序列组合,句子绝对不会造成词的歧义切分。因此,为了减少生成N-gram的时间和避免生成过多的错误切分字符串,预处理之后的文本必须再切分成符合一定规则的句子。

(4)N-gram生成:中文关键词的长度是不定的,它们可能是一个单个的词,如“打扫”和“卫生”,也可能是词组(如“打扫卫生”)或者特殊名词(如“联合国维和部队”)。理论上讲,一篇文献所有的子字符串,即所有N-gram都可能是候选关键词,以使标引粒度从纯粹的N-gram转化为词和词组,提高应用系统的检索性能。为了抽取出任意长度的关键词,文献中各个句子可能生成的子字符串都需要被提取出来。为了抽取出文献中的英文关键词,每个英文单词都被看做是一个汉字。

(5)GF/GL计算和关键词筛选算法是整个方法的核心内容。用于计算字符串在文献中的内容重要性和正式关键词的筛选,详见第三和第四部分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈