首页 理论教育 分类法自动映射系统的总体设计

分类法自动映射系统的总体设计

时间:2022-02-27 理论教育 版权反馈
【摘要】:两类目自动映射模块该模块CLC和DDC类目的映射关系分别采用索引词、类目词、主题词计算来确定,他们的计算过程和映射规则大体上相同:把类目对应的词切分为语义单位,计算词的语义相似度,使两条类目中的各概念因素配对,再根据配对的概念因素相似值,采用一定的加权方法计算出类目的相似度,最后利用映射规则建立类目映射关系。
分类法自动映射系统的总体设计_受控词表的互操作研究

3.3 分类法自动映射系统的总体设计

3.3.1 分类法自动映射系统模块

根据自动映射系统的原理,自动映射系统模块分为:类目对应数据生成、两类目自动映射、自动映射批处理、地理复分处理、映射系统维护等模块。如图3-2所示。

img22

图3-2 类目自动映射系统模块结构图

(1)类目对应数据生成模块

该模块主要是建立分类类目与索引词(含类名词)、主题词的对应数据表。自动映射系统中,选用了CLC4和DDC21的财政金融类作为试验类目,在建立类目与词对应数据表之前,对CLC类目名称进行了完善,使之完整化,把DDC类目翻译成中文,根据在类目的作用添加标记,类目索引词是根据类目中的标记自动抽取。另外,还翻译了DDC类目对应的LCSH标题词。

(2)两类目自动映射模块

该模块CLC和DDC类目的映射关系分别采用索引词、类目词、主题词计算来确定,他们的计算过程和映射规则大体上相同:把类目对应的词切分为语义单位,计算词的语义相似度,使两条类目中的各概念因素配对,再根据配对的概念因素相似值,采用一定的加权方法计算出类目的相似度,最后利用映射规则建立类目映射关系。

(3)自动映射批处理模块

在自动映射批处理模块中,为了减少计算量,确定映射范围是必须的,因为,用CLC的财政金融类目与DDC宗教方面的类目来计算类目相似度是没有多大意义的。自动映射批处理就是处理一定范围内的CLC类目与一定范围内的DDC类目的自动映射,实际上是处理多对多的类目映射,该模块也能处理一对多和一对一的类目映射。

(4)地理复分处理模块

CLC的列类具有特殊性,特别是社会科学方面的类目,一般顺序为“0理论”、“1世界”、“2中国”、“3/7各国”,而DDC基本上按主题列类,能适用地理复分的类目用注释标明。该模块通过建立CLC与DDC的地区表对应表以及对适用地理复分类目进行标记,实现了CLC中地区概念与DDC中地区概念的映射。

(5)数据维护模块

该系统可以动态的建立类目之间的映射关系,但必须定期地进行数据的维护,特别是语义词典的维护。另外两部分类法的部分类目修改后,其对应的词也应该作必要的修改,以便系统动态地计算出变更类目的映射关系。

3.3.2 分类法自动映射系统的数据流程

根据类目对应的主题词汇来计算类目相似度,利用语义距离的方法来计算词汇相似度之前必须对词汇进行语义切分,但CLC类目和DDC类目一般都有多个对应主题词汇,这些DDC类目对应的主题词汇如何才能在CLC类目对应的主题词找到相似值最大的词呢?可以先计算出每两个词汇之间的相似值,构建出词汇相似值矩阵,然后依次从矩阵中抽出最大相似值对应词汇,从而得到两条类目对应词之间的最佳配对,即得到了整体的各部分之间的相似值,根据部分(词汇)之间的相似值反过来又可以计算出类目之间的相似值,但是,类目对应词汇并不完全来源于类名和注释,还有上位类和下位类,所以在建立类目之间映射关系时不单单要考虑类目之间的相似值,还应该考虑相等词之间词的类型。另外,类目对应词汇也有多有少,类目对应的主题词汇特别是索引词在数量上存在的差额也直接影响到类目映射关系的建立。

总之,要完成类目之间的自动映射需要进行四个过程:①类目对应词汇的词语义切分,②构建相似词汇矩阵,③计算类目总相似度,④根据映射关系规则建立映射关系四个过程。其数据流程图如图3-3所示。

img23

图3-3 类目自动映射过程流程图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈