首页 百科知识 系统模块简介

系统模块简介

时间:2022-02-27 百科知识 版权反馈
【摘要】:8.1.2 系统模块简介●文本获取模块。此模块包括自动标引和自动分类两个模块。其中,概念词串提取是对前一步的分词结果进行抽词,按照标引源权重方案进行关键词的加权词频统计,按照权值从高到低的顺序给出关键词提取结果,并将排在前六位的关键词作为能反映文本主题的概念词串,在提取时,还进行了地名词的提取,将地名词作为分类辅助用信息,从而提高自动分类的精度。
系统模块简介_文本自动标引与自动分类研究

8.1.2 系统模块简介

●文本获取模块。该模块包括远程页面获取和本地文本获取两部分,主要功能是从因特网或者本地获取待挖掘的文本,其中从因特网获取Web页面是通过Robot程序自动获取远程Web页面,程序的关键部分是利用HTTP协议获取远程文本。

img97

图8-1 中文文本自动标引和分类系统结构图

●文本信息处理模块。该模块包括预处理和分词两部分。预处理是处理html、doc、rtf等格式的文本,将这些格式的文本转换为txt格式的文本,在处理HTML文本时,保留了主题表达能力强的标引源,如〈b〉、〈title〉等。分词部分是采用反向最大匹配法进行分词,在此之前,利用停用词词典进行了停用词的过滤。

●标引和分类模块。此模块包括自动标引和自动分类两个模块。其中,概念词串提取是对前一步的分词结果进行抽词,按照标引源权重方案进行关键词的加权词频统计,按照权值从高到低的顺序给出关键词提取结果,并将排在前六位的关键词作为能反映文本主题的概念词串,在提取时,还进行了地名词的提取,将地名词作为分类辅助用信息,从而提高自动分类的精度。自动分类是采用基于语义相似度的算法或者字面匹配结合语义相似度的方法,将已经抽取的能够反映文本主题的关键词串与分类知识库中的主题词串进行匹配,给予对应的最佳的分类号。标引源权重方案的选择请详见本书第5章,基于语义相似度的算法请详见本书第7章。

●挖掘结果处理模块。该模块主要是用来对自动分类的结果进行人工的确认和修改,并将挖掘结果导入数据库或者保存至文本文件。保存的字段有远程页面的URL、挖掘后的概念词串、对应的主题词串和对应的分类号。

●数据库维护模块。数据库维护模块的功能主要是对系统中所用到的多种词典或词表进行增、删、改等操作。数据库包括分词词典、停用词词典、分类知识库、义类词典等,其中分词词典维护中引入未登录词挖掘模块进行分词词典的定期更新。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈