首页 百科知识 自动标引流程

自动标引流程

时间:2022-02-27 百科知识 版权反馈
【摘要】:8.2.1 自动标引流程目前网络搜索引擎普遍采用关键词全文检索技术,这种方法实行简单的字面匹配,不考虑标引权重问题,返回检索结果鱼龙混杂,噪声大,检准率低,使检索人员处在信息海洋中却难以获取所需信息。自动构建的财税词表应用到财税网页标引时,要采用内核主题词作为标引用词,属于自动赋词标引。自动赋词标引流程图见图8-1:图8-1 自动标引流程图[6]把待标引财税网页经过预处理转换为TXT文本。
自动标引流程_自然语言叙词表自动构建研究

8.2.1 自动标引流程

目前网络搜索引擎普遍采用关键词全文检索技术,这种方法实行简单的字面匹配,不考虑标引权重问题,返回检索结果鱼龙混杂,噪声大,检准率低,使检索人员处在信息海洋中却难以获取所需信息。自动构建的财税词表应用到财税网页标引时,要采用内核主题词作为标引用词,属于自动赋词标引。

利用词表标引能减少标引员与检索者之间的理解分歧,减轻检索者的负担。检索者无需考虑和掌握相关词汇和复杂的词族关系网,便能进行扩检和缩检,实现概念检索。词表的使用,使检索系统更加智能化、使用更简单,从而提高检索效率,是改进网络信息检索效率的有效途径。

本系统在已自动构建的财税词典基础上,对财税网页文本进行自动标引,对财税网站进行组织,便于用户从主题角度进行语词检索和浏览检索。具体做法是:基于财税词表从财税网页文本中按正向最大匹配算法抽取内核主题词和入口词,通过入口词表把入口词转换为对应的内核主题词,再经过加权统计完成自动赋词标引过程。自动赋词标引流程图见图8-1:

img88

图8-1 自动标引流程图[6]

(1)把待标引财税网页经过预处理转换为TXT文本。预处理过程包括去除HTML标记,由半角到全角转换等。

(2)过滤停用词。采用南京农业大学信息检索实验室长期积累下的经济类停用词词典对文本文件进行简单分割,过滤掉没有检索意义的标点符号及通用词等,以提高抽词效率。

(3)利用财税词典从文本中抽取标引词,得到关键词集合。

(4)根据标引词权值加权方案进行权值计算和排序。

(5)根据财税词典,把入口词转换为内核主题词,完成赋词标引过程。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈