首页 理论教育 知识元语义模型_数字化信息服务研

知识元语义模型_数字化信息服务研

时间:2022-06-25 理论教育 版权反馈
【摘要】:知识元语义模型_数字化信息服务研知识元语义模型温有奎1,2 焦玉英1[摘 要]本文基于Brooks文献中的知识结点及Swanson文献间的隐性关联概念,提出了一种基于知识元本体结构和语义关联的知识地图的实现模型。文中给出了文献单元的知识元挖掘算法,知识元内部本体结构,知识元之间的语义关联的映射。最后利用Wiki和protégé技术实现了基于知识元的语义地图。首先采用统计试验,以便发现创新点与知识元的统计规律。

知识元语义模型_数字化信息服务研

知识元语义模型

温有奎1,2 焦玉英1(1)

(1武汉大学信息资源研究中心武汉4300722西安电子科技大学经济管理学院西安710071)

[摘 要]本文基于Brooks文献中的知识结点及Swanson文献间的隐性关联概念,提出了一种基于知识元本体结构和语义关联的知识地图的实现模型。文中给出了文献单元的知识元挖掘算法,知识元内部本体结构,知识元之间的语义关联的映射。最后利用Wiki和protégé技术实现了基于知识元的语义地图。试验结果令人鼓舞。

[关键词]科学情报 知识元 语义地图(www.guayunfan.com)

Semantic Model of Knowledge Unit

Wen Youkui1,2Jiao Yuying1

(1 Center for Studies of Information Resource of Wuhan University,Wuhan 430072;2 School of Economy and Management of Xidian University,Xi'an,710071)

[Abstract]Based on two conceptions of knowledge unit in literature proposed by Brooks and tacit relation among literature proposed by Swanson,the model of knowledge maps based on knowledge unit ontology structure and semantic association is proposed in this article.And the arithmetical of mining knowledge unit from literature unit,internal structure in knowledge unit ontology,and the mapping technology of semantic association between knowledge unit are discussed.Finally,a semantic map based on knowledge unit is developed with the technology of Wiki and protégé.The experimental results raise the hopes and encourage for us work continuously.

[Keywords]Science Information Knowledge Unit Knowledge Map

1 引 言

马费成教授提出[1]科学情报的离散分布性、有序性、相关性构成了情报学中具有奠基性的定律,使情报学形成了自己的学科范式。而“知识地图”更是科学情报的相关性在实现更深层次的知识组织方面的代表。

1975年英国著名情报学家Brooks教授[2][3]提出了“知识地图”概念,即对文献记录知识的逻辑内容进行分析,找到人们思考与创造的相互影响及联系的结点,然后像地图一样把它们直观地标示出来,以展示知识的有机结构,为用户提供纯情报。1985年美国芝加哥大学Don R.Swanson[4][5]教授在一个偶然的机会,发现雷诺氏病与食用鱼油间存在着隐含的逻辑关联,1988年发现偏头痛和镁缺乏有关。这两个发现后来被临床所证实。Swanson教授的发现揭示了事实上文献间隐性关联数量可能远多于显性相互引用的关联数量,并且这种隐性关联的发现比信息本身的增长更有意义。进而证实两篇医学文献放在一起会揭示出一个问题的答案,而这个答案是在单独一篇文献中得不到的。

Brooks发现了文献中知识结点,曾采用索引的方法获得成功的“知识地图”。Swanson发现了文献间的隐性关联,创立了基于文献的发现。Swanson的方法是基于文献中的知识片的隐含关联的推理,但他们开发的软件Arrismith却停留在文献层次上,还未深入到知识元,因此在操作上具有很大的碰巧性,其人工判断的工作量非常大。

本文基于Brooks文献中的知识结点及Swanson文献间的隐性关联方法,提出一种基于知识元本体的语义关联知识地图的实现模型。文中给出了文献单元的知识元挖掘算法,知识元内部本体结构,知识元之间的语义关联的映射。最后利用Wiki和Protégé技术实现了基于知识元的语义地图。

2 知识创造结点的文献单元特征

2.1 科技期刊论文创造点的引导词统计特性

如何从文献中最有效地提炼出有意义的、简洁的知识,这是一个挑战性的难题。科技论文的“创造性”被认为是论文的灵魂,为此我们以“创新点”为突破口寻找文本知识元发现算法。首先采用统计试验,以便发现创新点与知识元的统计规律。

我们以中国《电子学报》期刊论文为试验对象,分析了400篇论文中作者描述文章创新点的各种特征词出现的频率特性。统计结果表明绝大多数论文的创新点主要是由“提出”这样的特征词引导出,占了统计结果的71.8%;其次较多出现的特征词分别是“给出”、“设计”、“研究”、“介绍”等,大约分别占3.8%、3.6%、3.6%和3.2%。统计结果还表明论文给出引导创新点特征词的大约占98.4%,但有些文章并没有明显的创新点引导词,这类文章大约占1.6%。我们用图1给出引导创新点的特征词分布的直方图(其值是对原值取对数lgN的结果)。

图1 引导创新点词的特征词分布的直方图

同时对400篇《电子学报》期刊论文中作者标出的关键词及作者提出的创新点词在正文中的句群分布做了统计分析。[6]设N为统计文献数,N=400,M为某篇论文的全文句子数,D为某关键词在M中所占有的句群数。令D=0,表示D/M=0;D= 1,表示D/M>=0.3;D=2表示关键词=创新点词。令E为D=0、D=1、D=2所对应的论文篇数。关键词和创新点词句群分布的统计结果如表1所示。表1显示出三个惊人的数据,一、关键词不为文献中词的统计文献数量概率高达0.3;二、关键词的句群数统计文献数量概率在0.4;三、表达创新点的关键词的统计文献数量概率为0.19。

表1 关键词与创新点词句群分布

2.2 科技期刊论文创造性的本体结构

一篇完整的科技论文写作格式由六大部分组成,我们用图2给出它的本体结构图。创造性分布在论文的整个结构中,表现出创造性结点的逻辑关系。由于写作要求每个结点表现出独特的功能和相互联系,表现出对创造性结点的突出、陈述、引证、实现和申明。建立创造性结点的本体结构,是实现科技论文知识地图挖掘的关键。

图2 论文本体结构图

3 知识元本体模型

3.1 知识元本体结构

马费成教授指出,我们迄今还不能按知识结构自身的有序规划来组织情报,建立情报系统,而是创造另一标引和检索体系,按情报载体的外部特征或情报本身的内容特征来标引和组织情报系统。[7]知识检索系统不是通过标引来组织数据和文献,而是通过知识元的连接组织知识。[8]因此建立知识元的本体结构是实现知识地图的关键。我们把知识元本体结构描述为如下四元组:

其中,k表示知识元本体结构,c表示某个领域概念,p,m分别是概念c上的一组属性和方法,r则是建立在c上的与其他概念有联系的一组关系。

为进一步明确知识元本体结构的内部结构和关系,将式(1)分解为式(2)和式(3):

其中,式(2)是对领域概念c自身的描述,体现为对属性集p和方法集m的定义和描述;式(3)则是概念c与领域中其他概念之间的一组特定的领域关系r的描述,例如并列、隶属(度)、关联(度)、蕴涵、双向蕴涵、继承关系等。

根据以上对知识元本体结构的描述,若知识元本体由n个本体元素组成,即,概念集C={c1,c2,…,cn}和建立在c上的关系集R={r1,r2,…,rn}将共同组成一个有向图

其中,X为图的点集,E为边集,X的值域为概念集C,E的值域为关系集R。不难看出,

知识元本体通过概念之间的关系集R构成了相对完善的知识元内容体系和网络化结构。

3.2 知识元本体映射

知识元本体构建定义了知识元的组织骨架模型。为了实现知识地图还需要利用知识元本体映射技术,将模型知识元与不同的独立本体元素进行映射,建立知识元与本体元素间的联系,实现基于知识元本体映射的知识地图。我们对知识元本体映射定义如下:

定义1:知识元本体映射:

设S为某领域知识元的数据源,如果知识元本体结构k=<c,p,m,r>,使得有序对<k,S>在该领域内有意义,则称该有序对构成知识元S到k的知识元本体映射ζ,记做ζ<k,S>。

从知识元本体映射的定义可以看出,有序对<k,S>,即本体类的实例的创建是否合理,需要领域专家根据自身所拥有的领域知识、经验、智慧等做出综合评判。因此,为了正确实施知识元本体映射,领域专家可借助知识元本体映射向导,以交互操作的方式创建出有序对<k,S>,即本体类的实例。这一理论为我们下面创建基于Wiki平台的知识元创新模型建立了理论基础。

3.3 知识元关联发现

进一步分析基于本体的知识组织模型,可得到一个重要特性:知识关联发现。

定义2:本体蕴涵

令任意的两个知识元本体结构k1=<c1,p1,m1,r1>,k2=<c2,p2,m2,r2>,其中k1∈k,k2∈k,如果有c2∈∪(c1),其中∪(c1)是概念c1的关联概念集合,则称k1本体蕴涵k2,记做k1→k2,概念c1的关联概念集合∪(c1)是指以结点k1为原点,进行有向图搜索,所能到达的所有结点的集合。因此,本体蕴涵实质是在知识本体网状有向图中,如果有c2∈∪(c1),则结点k1和节点k2之间至少存在一条通路。本体蕴涵是知识元本体k的一个重要特性。

定义3:知识元关联发现

设S和T分别为领域知识元的数据源,k1和k2为知识元本体结构,即k1∈k,k2∈k,若ζ1<k1,S>,ζ2<k2,T>,且k1→k2,则称知识元T构成到知识元S的一个知识元关联发现。

4 知识元语义地图

本文的知识元抽取和知识地图试验选自我们搭建的一个“专家Wiki知识库的交流平台”(见图3)。文本内容取自我们创建的“语义检索”窗口,红色字(图3中灰色字)为平台的语义处理结果。

图3 一个Wiki“语义检索”讨论窗口

4.1 知识元对象抽取算法

知识元对象的抽取算法是从文本单元中分离出知识元对象结构(C,P,M)和关系结构(C,R)的过程,算法简述如下: while

S是文本的句子集合,

C是KUO中的概念集合,P是内部属性集合,

M是KUO中方法集合,R是关系集合,G是映射集合,

X是KUO的结点集合,E是KUO的关系集合,KUOM是知识映射。

创建知识单元本体(Generate-Knowledge-Unit Ontology(KUO))

KUO(C,P,M,R)where C=Φ,P=Φ,M=Φ,R=Φ

4.2 知识元对象属性获取

通过句子的特征提取和分析,我们将有效句分解为两部分,即对象名和对象数值。对对象名中的动词进行处理,由对象名中获取对象属性的信息,从而达到了将一个有效句子分解成三元组(O,P,A)的目的,实现了软件自动获得一条知识元。如图4所示。

图4 知识元的三元组(O,P,A)获取

4.3 知识元对象语义地图实现

我们所使用本体建模工具Protégé 3.3版本,开发过程有如下三个步骤:

(1)定义类和子类

在Protégé主页面上出现的OWL Classes(OWL类)、Properties(属性)、Forms(表单)、Individuals(个体)、Metedata(元类)这几个标签中,选择OWL Classes进行类编辑。在Asserted Hierarchy(添加层)中选择所有类的超类OWL:Thing。点击Asserted Hierarchy旁边的Create subclass或者在OWL:Thing点击右键选择Create subclass,会出现Protégé自动定义名为Class_1的类。选中CLASS EDITOR(类编辑器)的Name项,输入“对象值”来替换自动定义的名字。然后再分别建立“对象名称”、“领域名称”这两个子类(这两个子类是兄弟关系sibling relationship);然后再分别在两个子类中继续添加要加入的子类(subclass)。

(2)建立属性

在“对象名称”中,“国内”、“国外”等属于同一类中不同个体,它们互相具有排他性(OWL:DisjointWith),这类对象要定义为互相排斥的属性。在选中“对象名称”的状态下,点击右下角的Disjoints的第三个按钮,在出现的Add sibling to disjoints(将互为兄弟结点的类设为排他)对话框中,选择Mutually between all siblings。结果如图5所示。

图5 互相排斥的属性

(3)获得语义网地图模型

最后选择菜单中的Project下的Configure,在Configure file中的Tab Widgets选择Jambalaya Tab(在前面打勾),于是我们就可以在Jambalaya标签中看到我们所建立的语义网模型了。利用Protégé工具实现的关于“语义检索”的本体语言OWL(Web Ontology Language)表示的语义网地图如图6所示。

尽管我们在MediaWiki平台技术基础上扩展了Semantic Mediawiki软件插件,使得MediaWiki有了语义功能,但是它的语义功能还是比较低。我们用Protégé 3.3工具对Wiki平台做了语义地图扩展,实现了知识元本体语义知识地图。

图6 用Protégé 3.3工具所得出的语义图

从语义地图中我们通过“本体”发现了焦玉英教授和王珊教授从两个不同的领域研究语义检索,即信息检索领域和数据库领域都在探索知识检索问题。如图7所示由此推理出本体(ontology)成为知识表示的基础工具,语义成为人类和机器理解知识的核心。

图7 语义检索知识地图

5 小结与展望

我们基于Brooks文献中的知识结点及Swanson文献间的隐性关联方法,提出一种基于知识元本体的语义关联知识地图的实现模型。文中研究了文献单元的知识元挖掘算法,知识元内部本体结构,知识元之间的语义关联的映射实现。从语义检索知识地图中我们发现了焦玉英教授和王珊教授从两个不同的领域研究语义检索,即信息检索领域和数据库领域,又发现“本体”是两个研究方法共同使用的工具。由此推理出本体(ontology)成为语义检索的基础工具,语义成为人类和机器理解知识的核心。我们利用语义网工具建立了知识元语义本体知识地图模型,但这只是工作的开始,真正的动态化实现还有很多工作要做。

参考文献

[1][7]马费成.论情报学的基本原理及理论体系构建[J].情报学报,2007,26(1):3-13

[2]B.C.Brookes.The Fundamental Problem of Information Science[J].In V.Horsnell,Informatics 2: Proceedings of a Conference Held by the Aslib Coordinate Indexing Group,March 25 1974

[3]B.C.Brookes.The Foundation of Information Science,part III,Quantitative Aspects:Objective Maps and Subjective Landscapes[J].Journal of Information Science,1980,2(6):269-275

[4]D.R.Swanson.Fish Oil,Rayland's Syndrome,and Undiscovered Public Knowledge[J].Perspectives in Biology and Medicine,1986,30(1):7-18

[5]Z.Chen.Let Documents Talk to Each Other:A Computer Mod for Connection of Short Documents[J].Journal of Documentation,1993,49(1):44-54

[6]温有奎,温浩.关键词与创新点词句群分布分析[J].情报学报,2007,26(1):50-55

[8]Yiyu Yao,et al.Knowledge Retrieval(KR)[J].2007 IEEE/WIC/ACM International Conference on Web Intelligence

【注释】

(1)温有奎(1951—),男,武汉大学信息管理学院博士研究生,主要研究方向:语义挖掘,知识检索;焦玉英(1942—),女,武汉大学信息管理学院教授,博士研究生导师,主要研究方向:信息检索与现代咨询。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈