首页 百科知识 转换模型和算法

转换模型和算法

时间:2022-02-27 百科知识 版权反馈
【摘要】:分类表的兼容转换是一项重要而又具有很大难度的工作。SA与SB的转换模型定义如下:其中,M1,M2,M3和M4分别代表四个不同的转换级别,其优先次序为M1>M2=M3>M4;δ称作“转换级别系数”,用于使不同级别的语义相似度值具有可比性。为了控制转换的准确性,一个对比类别尽可能只与一个基准类别建立转换关系。在这种情况下,两个类别的相似度值等于1,对照级别为M1。
转换模型和算法_情报检索语言的兼容转换

3.4 转换模型和算法

分类表的兼容转换同样具有方向性。也就说,两个分类表A和B,A向B转换与B向A转换是两次完全不同的操作。在A向B的转换中,A是主体,B是参照系统。为了描述方便,A和B分别称作“对比体系”和“基准体系”,A和B中的类别分别称作“对比类别”和“基准类别”,A和B中的分类代码分别称作“对比代码”和“基准代码”。采用线分类法的分类表,其等级体系结构可表示为一棵倒挂的树,每个结点代表一个类别,结点之间的路径距离,可以反映类别之间的语义关联程度,比如下位类与其上位类的距离最短,二者的语义关联程度也就最高[5]

分类表的兼容转换是一项重要而又具有很大难度的工作。汉语、英语和德语等语言都普遍存在字面相似度原理,即大多数字面相似的词(字符串),特别是专业术语,往往表达相同(或者相近)的语义。本章主要探讨一种基于字面相似度的分类表兼容转换方法。分类表中的类名一般采用比较简洁的文字描述。特别是一些下位类,常常省略与其上位类相同的文字部分,从而导致类名的语义模糊程度增加。如果直接根据类名的字面相似度来判断类别语义相似度,准确性会受到较大影响。

根据Resnik理论、分类表中类名的文字描述特点和重心后移规律匹配法,本文提出一种类别转换模型(String Similarity Based Conversion Model,简称“SSC”模型)。为了提高类别转换的准确率,需要充分利用重构后的类名来计算类别之间的语义相似度。所谓重构类名,是指将每个类别的类名与其上位类的类名进行合并,以使重构后的类名能够更加完整地描述类别的语义内容。从理论上讲,为了确保重构类名的语义完整性,可采用多级重构的方式,即重构类名=类名+上位类+上上位类……以此类推。作者认为,绝大多数一级重构类名基本上能够完整地表达该类别的语义内容。因此,大多数应用情况下,采用一级重构类名基本上可以满足要求。表3-1以《国土基础信息数据分类与代码》[6]为例,进一步阐述重构类名的方法。

表3-1 GB/T13923—92中的部分类别

img50

续表 3-1

img51

假设A和B分别表示对比体系和基准体系,SA和SB分别表示一个对比类别和一个基准类别,NA和NB分别表示SA和SB的类名,UA和UB分别表示SA和SB的重构类名。SA与SB的转换模型定义如下:

img52

其中,M1,M2,M3和M4分别代表四个不同的转换级别,其优先次序为M1>M2=M3>M4;δ(<0≤δ≤1)称作“转换级别系数”,用于使不同级别的语义相似度值具有可比性。δ值可以控制类别转换关系的准确性和数量。δ值越大,类别转换关系的准确性越高,但是转换关系数量会减少;反之亦然。因此,可以根据实际应用的不同要求,调整δ值的大小。实验表明,δ为0.1时可以获得比较满意的转换结果。

基于SSC模型的分类表转换算法包括以下基本步骤:①依次将每个对比类别与所有基准类别之间建立候选类别转换关系;②应用SSC模型计算候选转换关系的语义相似度;③根据筛选规则选择类别转换关系;④输出最终转换结果,即类别转换关系表。为了控制转换的准确性,一个对比类别尽可能只与一个基准类别建立转换关系。具体转换算法如下:

输入:对比体系A(类别SA1,SA2,S6,…,SAi…SAm

基准体系B(类别SB1,SB2,SB3,…,SBj…SBn

输出:类别转换关系表(表T)

T=Φ

img53

For i=1to m

 SA=SAi

 For j=1to n

  Q=Φ

  SB=SBj

  将SA和SB构成的转换关系加入到表Q中

  计算SA和SB的M1、M2、M3、M4值

Sim(SA,SB)=max(M1,M2,M3,M4)

 j=j+1

End for

  将表Q中符合条件“Sim(SA,SB)=max(Sim(SA,))

  and Sim(SA,SB)>θand转换级别最大”的记录添加到表

  T中

  i=i+1

 End for

 Return表T

 以GB/T 13923—92和《1∶500 1∶1 000 1∶2 000地形图要素分类与代码》[7]为例的部分转换结果如表3-2所示。

表3-2 分类表转换结果样例

img54

续表 3-2

img55

类别转换关系的相似度计算可以概括为以下几种情况:

(1)对比类名和基准类名相同,而且其上位类类名也相同。例如,表3-2中第1~7条记录。在这种情况下,两个类别的相似度值等于1,对照级别为M1。

(2)对比类名和基准类名相同,但是其上位类类名不相同。例如,表3-2中第29条记录,NA=“GPS点”,NB=“GPS点”,UA=“GPS点测量控制点”,UB=“GPS点其他控制点”。

img56

其中,Sim(SA,SB1,Sim(SA,SB2和Sim(SA,SB3都不符合SSC算法中的筛选标准,所以Sim(SA,SB)的值应等于Sim(SA,SB4的值,即0.80,对照级别为M4。

(3)对比类名和基准类名不相同,但是其上位类类名相同。例如,表3-2中第8条记录,NA=“土堆上的三角点”,NB=“三角点”,UA=“土堆上的三角点平面控制点”,UB=“三角点平面控制点”。

img57

Sim(SA,SB2,Sim(SA,SB3和Sim(SA,SB4都不符合SSC算法中的筛选标准,所以Sim(SA,SB)应等于Sim(SA,SB1的值,即0.62,对照级别为M1。

(4)对比类名和基准类名不相同,而且其上位类类名也不相同。例如,表3-2中第21条记录,NA=“不埋石图根点”,NB=“埋石图根点”,UA=“不埋石图根点平面控制点”,UB=“埋石图根点其他基础控制点”。Sim(SA,SB)的值为0.70,对照级别为M4。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈