首页 理论教育 概念网络检索

概念网络检索

时间:2022-03-04 理论教育 版权反馈
【摘要】:概念网络检索包括语义概念和语义关联的检索。利用本体概念之间的语义关系,可执行概念网络的逻辑匹配与检索,可以为用户提供概念和语义结构知识。基于此,可以采用基于概念网络的匹配方法检索本体概念库中的语义结构。关系相关度Sr表示两个概念图中的概念所传达的内涵信息的相似程度,即概念内容的相似性。在对概念相关度和关系相关度的计算完成后,就需要将两者进一步组合,形成统一的相关度S。

5.3.2 概念网络检索

概念网络检索包括语义概念和语义关联的检索。它建立在资源组织的层级体系、属性体系和语义体系的基础上。语义层级关系主要包括各种知识对象类之间的等级关系、概念之间的层级关系。层级关系反映了事物之间的本质关联,利用层级关系组织的知识结构具有继承性质,可以执行语义继承推理,实现自上而下和自下而上的语义推理检索。利用本体概念之间的层级关系和语义相关等关系可以执行语义联想检索,实现不同深度的语义概念检索。利用本体概念之间的语义关系,可执行概念网络的逻辑匹配与检索,可以为用户提供概念和语义结构知识。

本体知识结构可以组织为概念网络,其中的类、实例和属性值可以看作是概念网络中的结点,概念之间的各种关联可以看作是概念网络中的弧。例如对于下面一段知识内容“Windows2000是一个操作系统软件,它是微软公司的产品,微软公司是一个软件公司”,可以定义“操作系统”和“软件公司”为本体中的类,“Windows2000”是“操作系统”类的实例,“微软公司”是“软件公司”类的实例。“is-product-of”是“操作系统”类中的一个属性,表示其出品公司,“Windows2000”的属性值为“微软公司”。如果用概念网络的形式表示则为:

[Windows2000]——(is-instance-of)——[操作系统]

[Windows2000]——(is-product-of)——[微软公司]

[微软公司]——(is-instance-of)——[软件公司]

其中,[Windows2000]、[操作系统]、[微软公司]和[软件公司]都是概念网络中的结点,而(is-instance-of)和(is-productof)为概念网络中的弧。

基于此,可以采用基于概念网络的匹配方法检索本体概念库中的语义结构。这种匹配检索方法的基本原理是:将用户查询式表示为概念网络的形式,对概念库执行搜索匹配,若一个用户查询的概念网络被完全包含在概念知识库的某概念子图中,则认为该子图和用户查询完全相关;若两个概念网络间有交集,则两者部分相关;若两个概念网络没有任何重叠部分,则两者完全不相关。由此可见对两个概念网络的逻辑比较是这种匹配方法的关键。

对概念网络的逻辑比较过程可分为两步:寻找两个概念网络间的交集和计算与评价两个概念网络间的相关度。用概念图表概念网络,其逻辑比较算法如下:

(1)寻找两个概念图间的交集。假设Gc为两个原始概念图G1和G2的交集,则Gc中应包含以下两类元素:

●同时在G1和G2中存在的所有概念结点;

●同时在G1和G2中存在,且关于同一个概念结点的关系弧。

图5-7是一个交集的示例。其中A,B,…代表[Windows2000]和[操作系统]之类的概念结点,各点间的弧代表如(is-instance-of)和(is-product-of)之类的关系。

如图5-7所示,在A,B,C,D,E几个概念结点中,只有A,B和C同时属于G1和G2。尽管G1中A,B,C间的关系包括弧(A,B),(A,C)和(B,C),但是只有两条弧(A,B),(A,C)同时属于G2(粗线),因此G1和G2的交集Gc中只能包含A,B,C三个公共结点和(A,B),(A,C)两条公共弧。另外,对于Gc中的两个公共概念间的弧,必须在G1和G2中具有相同的关系名和方向。

img31

图5-7 G1和G2的交集示例图

(2)计算与评价两个概念图间的相关度。基于交集Gc来评价G1和G2间的相关度S,S的值介于0和1之间,S=0时表示两者没有任何相关性,S=1时表示两者语义完全相等。相关度评价的基本过程是:首先分别对概念的相关度和关系的相关度进行计算,然后再将两者组合,形成统一的整体相关度值。

概念相关度Sc表示两个概念图所描述的概念和行为的相似程度(类似于主题比较)。Sc的值可以应用如下公式通过Dice系数来计算:

img32

其中,n(Di)表示图Gi中的概念项的数目,n(Di∩Dj)表示Gi和Gj中公共概念项的数目。Sc的值介于0和1之间,0表示两个图没有任何公共概念,1表示两个图包含相同的概念结点集合。

关系相关度Sr表示两个概念图中的概念所传达的内涵信息的相似程度,即概念内容的相似性。可以通过修改Dice系数的计算公式来测算Sr:

img33

其中m(Gc)是Gc中关系弧的数目,mGc(Gi)表示原始图Gi中作为Gc的直接邻居的弧的数目。所谓Gc的直接邻居,是指在至少有一个端点属于Gc中的概念的弧。

图5-8显示了对Sr的测算示例。结点A,B,C是G1和G2的公共概念结点且都属于Gc。粗线表示两个图中的公共弧。用(√)作标记的弧即为Gc的直接邻居。

在实际应用中,G的子图H的mH(G)的值可以用如下公式计算:

mH(G)=∑c∈HdegGC-m(H)

其中degGC表示图G中概念结点c的连接度,即G中与c相连接的关系弧的数目。m(H)表示图H中关系弧的总数。

在对概念相关度和关系相关度的计算完成后,就需要将两者进一步组合,形成统一的相关度S。首先S应该和概念相关度和关系相关度成比例关系,满足以下公式:

S=Sc×Sr

需要注意到关系相关度的重要性相对于概念相关度来说较低,因为它的存在取决于公共概念结点的存在,即使两图中的公共概念间没有任何公共关系存在,两个概念间也还是具有一定程度的相关性。这样即使Sr=0,S也不应该为0值,因此利用下面公式将上式进行修正:

img34

图5-8 Sr的测量示例图

S=Sc×(a+b×Sr)

在这个计算式中,当没有关系相关性存在(Sr=0)时,整体相关度就完全取决于概念相关度(Sc×a)。系数a的值取决于图G1和G2的结构(即取决于Gc中的元素在G1和G2中的连接度),其计算方法如公式:

img35

其中n(Gc)表示Gc中概念结点的总数,mGc(G1)+mGc(G2)表示G1和G2中与Gc的概念相连接的关系弧的数目。

系数a实质上反映了只包含在概念结点中的信息内容占概念图中全体信息内容的百分比,它是Gc中作为概念的知识元素的数目和所有知识元素的总数(包括概念结点和关系弧)的比例关系。

系数b的值也取决于概念图的结构,可以通过下面的方法来确定b的值:当两个概念图中的公共概念所传达的内涵信息完全一致(即Sr=1)时,整体相关度也应该达到它的最大值,即S=Sc,因而有a+b×Sr=1,即b=1-a。

系统根据整体相关度S的值来选择与用户查询要求匹配的事实数据结果集,如果用户查询的概念网络和事实数据的概念网络同时具有几个相交的子图,则将对每一个子图分别进行相关度评价,并保留其中的最大值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈