首页 百科知识 系统总体结构

系统总体结构

时间:2022-02-26 百科知识 版权反馈
【摘要】:专家评审是由多位专家共同参与为自动提取出的新术语和新关系评分的过程,只要评定的结果达到指定的标准,就可以确认完成叙词本体的更新。
系统总体结构_多语种叙词本体

10.1 系统总体结构

前几章探讨了叙词本体演化过程所涉及的关键技术和方法。依据这些方法和技术,可以建立叙词本体演化系统。

系统要实时检测网络数据的变化,下载指定资源,抽取所需信息,最后更新本体库,实现叙词表的自动更新。整个运行过程如图10-1所示,资源下载器下载指定数据源的资源信息,由分词器提取词汇,再通过概念获取器将收集的词与本体库中的词汇进行比较,提取新词,并分析概念,通过关系抽取器分析关系,最后由专家进行专家评审,并以评审结果更新本题库。

img114

图10-1 叙词本体总体过程

由系统运行过程可以分析出系统主要包括专家评审、信息抽取和查询三个模块。如图10-2所示,信息抽取模块又分为数据检测子系统、概念获取子系统和关系抽取子系统三个子系统。对各模块的简要说明如下:

查询模块:查询模块实现的功能包括根据概念范畴查询叙词,并同时展示与叙词有联系的所有其他的叙词,这里的有联系则是指叙词的用、代、属、分、参、族几种关系;也可以根据输入的叙词找到叙词的概念范畴,并显示与该叙词有关的其他的叙词。

信息抽取模块:这是本系统的核心模块,包括数据检测子系统、概念获取子系统和关系抽取子系统。数据检测子系统是用来检测网络上词汇的变化,利用爬虫技术抓取指定信息源的网络资源,为新词分析和关系分析作准备。概念获取子系统首先要对抓取到的网络信息资源进行处理,抽取出文献主题属性,并进行中文分词,筛选出其中不存在于本体库中的词作为新术语,交由专家评审模块进行专家评审。其中主要提取文献的主题属性,包括标题、关键词、摘要以及学科分类导航,而不同的特征,所代表的文献主题的权重也不一样。因此需要根据不同的特征确定不同的频度。因为标题最能够表达文献的主题,因此占最大的权重,其次是关键词,再则摘要。对于关系提取比术语提取更为复杂。按照叙词之间的不同关系,我们分别采用模板方法和关联规则的方法予以处理。对于用、代、属、分、族五种关系,我们采用模板方法。对于参这种关系,我们采用关联规则方法处理。同样,提取出来的关系达到一定的频度,才能作为候选关系交由专家进行评审。

专家评审模块:专家评审模块使人加入到这个人机协作系统中,主要为专家评定提供友好的平台,统计专家评审的结果,并确定将新叙词以及其关系添加到叙词本体中去,从而完成叙词本体演化的全过程。专家评审是由多位专家共同参与为自动提取出的新术语和新关系评分的过程,只要评定的结果达到指定的标准,就可以确认完成叙词本体的更新。

img115

图10-2 叙词本体总体结构图

由系统的功能及运行过程,可以分析出系统的支持数据以及数据流情况,如图10-3所示。信息抽取模块中的数据检测子系统抓取指定网络信息源的网络资源,概念获取子系统处理该资源,抽取出文献主题属性,将之保存至数据库,并依据中文分词文档实现中文分词,关系抽取模块利用关系模板文档识别术语关系,与数据库进行交互。专家评审模块完成数据库中术语与关系的评审,以评审结果更新本体库。

img116

图10-3 叙词本体数据流图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈