首页 理论教育 领域本体半自动构建系统的设计与实现

领域本体半自动构建系统的设计与实现

时间:2022-02-27 理论教育 版权反馈
【摘要】:该模块有两个参数:图5-15 领域本体半自动构建系统等级关系模块界面图1最小类词数:该参数可以调整聚类的粒度,是对传统层次聚类算法的调整。
领域本体半自动构建系统的设计与实现_领域本体的半自动构建及检索研究

5.5 领域本体半自动构建系统的设计与实现

为了验证本文提出的领域本体半自动构建方案的可行性和有效性,本文采用Java语言开发了一个领域本体半自动构建实验系统,包括从候选概念获取到最后本体形式化生成的整个流程。所采用的开发环境是Windows 2000,开发工具为JBuilder 2005,JDK版本为1.4,使用的语义Web开发工具为Jena 2.3。

5.5.1 总体设计

领域本体半自动构建实验系统共分为以下五个模块:

(1)候选概念获取模块,主要作用是从农学语料文本中抽取候选概念(关键词);

(2)领域概念筛选模块,主要作用是对抽取的候选概念根据一定的算法进行筛选,选取出最能代表农学领域的概念;

(3)等级关系构建模块,主要作用是对筛选后的农学概念进行等级关系的获取,采用以改进的层次聚类算法为主,模式识别算法为辅的获取方法;

(4)领域关系构建模块,主要作用是在获取了等级关系的概念进行领域关系的发现和识别;

(5)本体形式化模块,主要作用是对已经获取了等级关系和领域关系的农学概念进行本体形式化批处理,使之直接输出OWL语言描述的OWL本体文件。

整个实验系统的构成见图5-11。

img70

图5-11 领域本体半自动构建系统模块图

5.5.2 模块功能

为了清晰的刻画领域本体半自动构建系统的工作流程,本节将对该实验系统的界面和使用流程做简单介绍,系统主界面如图5-12。

img71

图5-12 领域本体半自动构建系统主界面

1 候选概念获取模块

候选概念获取模块的主要功能是从农学语料文本中获取其中的关键词。该模块可以自由选择要处理的某篇文本,经过N-Gram处理以及规则过滤按钮处理后,得到处理结果显示在结果显示区,同时也可以进行文本多篇的批处理方式。

img72

图5-13 领域本体候选概念获取界面图

2 领域概念筛选模块

领域概念筛选模块主要是为了从领域文本中抽取的候选概念根据文献保障原则,将候选概念作为抽词词典对农史领域的文本进行主题标引,选取最能代表文本主题概念的领域概念。

在领域概念筛选模块中,引入了如下参数:

(1)权重分配 该参数用来调整文本不同的位置选取的权重。众所周知,每篇文本中,题名最能代表文本的主题,文摘次之,全文更次之。为了更好地对农史文本进行主题描述,需要对文本选取的权重进行合理分配,本文设置权重参数供用户随机调整题名、文摘和全文的选取权重。

(2)标引的深度 该参数用来控制每篇文本标引词的个数。在文本标引中,标引的关键词的排序按照与主题相关的程度进行排序,排序在前的最能代表文本的语义主题。标引的深度用来调整每篇文本保留的关键词的个数。

img73

图5-14 领域本体半自动构建本体概念筛选模块界面图

3 等级关系构建模块

等级关系构建模块的作用是把相同含义的概念聚集在一个类下。所依据的原理是:如果两个概念的含义相似,那么两个概念就有相似的上下文环境。因此,如果统计出与每个概念一起出现的其他概念以及与这些概念的相关程度之后,该模块能够把含义相似的概念聚集起来,并且对聚类的结果进行可视化的处理,将聚类的结果显示为一棵树形的结果,聚类的每个概念为树的叶子。

如下图所示,在本文开发的领域本体半自动构建系统的等级关系模块中,用户只要选择了要聚类的文本(需要事先统计好概念对相似度),系统就可以自动将相似的概念归在一起。该模块有两个参数:

img74

图5-15 领域本体半自动构建系统等级关系模块界面图1

(1)最小类词数:该参数可以调整聚类的粒度,是对传统层次聚类算法的调整。在传统的聚类算法中,聚类的结果是二元的,也就是每两个词就归入一个类,这样过于细致。最小类词数可以根据算法,人为规定,调整聚类的粒度。

(2)最小内聚度:该参数用来调整聚类松散度。聚类的标准是类内高内聚、类间低耦合。为了可以随时调整聚类的效果,设置了该参数根据实际情况来进行随时调整,使得聚类有更大的灵活性。

在选择了概念对相关度表之后,系统可以根据改进的层次聚类算法对结果进行聚类输出。为了对聚类结果进行人工审核,在图5-16中,将聚类结果进行树状显示,可以根据专业人员的判断,选中叶子节点,点击右键可以对树状的叶子节点进行添加、删除、重命名、合并、整理等操作,以便调整聚类结果的逻辑性和正确性。

img75

图5-16 领域本体半自动构建系统等级关系模块界面图2

4 领域关系构建模块

领域关系构建模块的作用是从农学语料中抽取主谓宾模式并标注出主语和宾语的语义类,需要手工剔除其中生成的噪音数据。以单个词处理流程为例,输入待处理谓词,系统会查询《同义词词林》获取相同含义的同义词谓词,继而在语料库中筛选出含有这些动词的语料,按下“句法提取”按钮,即可获取提取结果(图5 -17)。

img76

图5-17 领域本体半自动构建系统领域关系构建模块界面图

img77

图5-18 领域本体半自动构建系统领域关系提取结果放大图

5 本体形式化模块

领域本体半自动构建系统可以对概念关系按照既定的规则采取批处理方式自动化的生成形式化的本体,提高了本体生成的效率。如图5-16按下按钮“生成本体文件”即可生成OWL语言描述的形式化本体(当然也可以根据需要生成RDF语言描述的)。

下面是生成的OWL语言本体的部分样例:

img78

img79

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈