首页 理论教育 关键词筛选算法

关键词筛选算法

时间:2022-02-27 理论教育 版权反馈
【摘要】:k在关键词筛选算法中用于控制文献的标引深度和标引专指度。例如,k=4,那么进行关键词筛选时,字符串只与其长度相差不超过四个汉字字符的父串进行比较。3月6日,上海大世界吉尼斯总部将大世界吉尼斯之最的证书寄到了杨玉琴的家中。世界最长的百米剪纸画西安退休女工已完成。近日该作品获上海大世界吉尼斯总部认证。
关键词筛选算法_情报检索语言的兼容转换

6.4 关键词筛选算法

关键词筛选算法:

输入:一篇文献的所有N-gram

输出:文献的关键词

(1):输入文献的N-gram,建立列表Gramlist;

(2):计算Gramlist中所有字符串的GF/GL权重值;

(3):删除Gramlist中GF/GL值等于零的字符串/*删除出现频率为1的字符串*/;

(4):定义参数K/*定义父串最大长度和子串最小长度*/;

(5):For Gramlist中的每个字符串S。

For S的在Gramlist中的每个子串SS(LENs-K≤LENss<LENs)/*删除GF/GL值小于S的子串/*

img161

for S在Gramlist中的每个父串PS(LENs<LENss≤LENs+K)/*删除GF/GL值小于S的父串*/

img162

(6):删除Gramlist做删除标记的字行串

(7):删除Gramlist中的停用词

(8):输出Gramlist中的剩余字符串,作为该文献的关键词。

其中,K表示字符串和父串(或者子串)相比较时,它们之间长度差异的最大值。k在关键词筛选算法中用于控制文献的标引深度和标引专指度。k值越大,标引专指度越高,而标引深度就越低。例如,k=4,那么进行关键词筛选时,字符串只与其长度相差不超过四个汉字字符的父串(或者子串)进行比较。如果k值较小,字符串就只与其较短的父串和较长的子串进行比较,在标引结果中广义词、狭义词和相关词(指字面上相似的词)可能同时存在。例如:某篇关于中文搜索引擎的文献,自动抽取出的关键词可能为“搜索引擎”、“中文搜索引擎”和“中文搜索”。关键词抽取结果样例见表6-1,其中*表示不完整词汇,!表示停用词。

表6-1 关键词抽取结果样例

img163

续表6-1

img164

下以是一篇CWT中的文本为例,进一步说明该方法的应用效果。

民俗文化——剪纸博物馆[1]:剪纸博物馆。去其他博物馆。作品欣赏。著名民间剪纸艺术家杨玉琴,自幼酷爱剪纸,是陕西民间剪纸协会的会员,其剪纸作品多次获奖并被各国友人收藏。从1994年6月份起,杨玉琴老人用了整整三年半的时间,精心剪成了1 000幅精美的大型剪纸作品。作品所表现的内容包罗万象,人物、典故、历史、传说、民间故事、花鸟虫鱼等无所不有。人物剪纸中远有传说中的轩辕帝,近有伟人毛泽东,历朝历代的帝王将相在她的剪纸上全都惟妙惟肖,“三国演义”、“水浒传”“红楼梦”“西游记”等名著中的人物、典故更是表现得生动逼真。剪纸中的花鸟鱼虫千变万化,十二生肖、百蝶图、百凤图、盘龙卧虎等跃然纸上,惹人喜爱。去年韩国文化电视台北京分社来到西安采风时,专程采访了杨玉琴。3月6日,上海大世界吉尼斯总部将大世界吉尼斯之最的证书寄到了杨玉琴的家中。这卷长160米、宽1.10米的组合剪纸成了中国民间剪纸艺术中极其珍贵的一部分。澳门日报。世界最长的百米剪纸画西安退休女工已完成。据新华社西安20日电,一幅世界最长逾百米组合剪纸画,由陕西省西安市六旬老人杨玉琴历时三年六个月创作完成。近日该作品获上海大世界吉尼斯总部认证。这幅剪纸作品由以前幅单件作品组合而成,长150米,宽1.1米。剪纸选题广泛既有中华历史人物,民间故事传说、社会生活面画,西北风土人情,也有饶富情趣的花鸟虫鱼,具有较高的艺术收藏价值。

关键词抽取结果:剪纸、民间剪纸、民间剪纸艺术、杨玉琴、博物馆、西安、上海大世界吉尼斯总部、剪纸博物馆、花鸟虫鱼、组合剪纸、民间故事

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈