首页 百科知识 标引源权重研究综述

标引源权重研究综述

时间:2022-02-27 百科知识 版权反馈
【摘要】:5.1 标引源权重研究综述在提取能反映文本主题内容的概念词串时,不同标引源对文本的主题表达能力是有区别的。对标引源的位置因素作为权重结合词频进行的全文标引就是通常所说的位置加权标引法。可以看出以上对标引源的位置权重处理大多是基于经验,缺乏统计学基础,如何得出一科学的权重方案,是一项很有研究意义的课题。本章研究成果主要体现在文献[7]文,与该研究相关的后续研究包括赵妍、侯汉清等人的工作。
标引源权重研究综述_文本自动标引与自动分类研究

5.1 标引源权重研究综述

在提取能反映文本主题内容的概念词串时,不同标引源对文本的主题表达能力是有区别的。对标引源的位置因素作为权重结合词频进行的全文标引就是通常所说的位置加权标引法。

早在20世纪50年代,美国的巴森代尔(Baxendale,P.E.)在做自动标引研究时,就曾利用三种方法从文章中选词和词串:①删除功能词;②从论题句中选择内容词;③从正文的介词短语中选词。在第二种方法中,巴森代尔认为,论题句是“段落的支撑点”,“在对一组由200段组成的试验样品进行调查后发现,论题句作为段落首句出现的占85%,以段落末句形式出现的占7%”[1]。张琪玉教授认为,“针对文献整体的检准率的角度看,文献题名中的词最有用,其次为文献中的小标题或章节名或文献的摘要,最后为文献正文中的词”[2]。1999年成颖、史九林撰文,说明了社会科学文献的题名与内容的平均符合率为84%,自然科学的符合率为89.3%[3]

2000年,赵云志对基于统计分析的自动标引进行了改进,并且设置标题、文摘、各章节小标题、首尾节(段)和其他部分的权重:3、2.5、2、1.5、1[4]。2001年,薛鹏军在经济信息智能搜索引擎研究中对网页标题、超文本标记、正文首段文摘关键词、段落首句和网页其余正文设计的权重方案为:5、3、3、2、1[5]。此外,由欧盟资助、欧洲的十所院校合作开展的DESIRE系统(欧洲研究与教育信息服务系统)中,对HTML格式文本设定了权重方案,即:普通文本∶Title和Headings项∶Metadata项=1∶2∶4[6]

可以看出以上对标引源的位置权重处理大多是基于经验,缺乏统计学基础,如何得出一科学的权重方案,是一项很有研究意义的课题。为此进行了一定规模的数据抽样调查,以期得到适合于主题挖掘的权重方案,为后续工作打下基础。本章研究成果主要体现在文献[7]文,与该研究相关的后续研究包括赵妍、侯汉清等人的工作(参见文献[8])。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈