首页 百科知识 分类法之间人工映射方法

分类法之间人工映射方法

时间:2022-02-27 百科知识 版权反馈
【摘要】:人工映射工具CLC类目与DDC类目的人工映射,就是基于对映射类目所表达概念的主观判断,对可以建立映射关系的两条类目,人工建立映射关系。
分类法之间人工映射方法_受控词表的互操作研究

3.2 分类法之间人工映射方法

3.2.1 CLC和DDC人工转换中的技术规定和实例

目前国内外所进行的分类法互操作项目,类目之间的映射,绝大多数由人工智力完成,虽然在某些分类法映射项目中采用了计算机辅助,但类目之间的映射关系判断还是依赖于人的智力和经验。在CLC与DDC的映射系统中,为了验证自动映射系统的有效性和正确性,自行设计了计算机辅助的人工映射工具。

(1)映射资源

在映射前,需要统一语种,在本次试验采用中文为统一工作语言,DDC类目数据选用了DDC21版的332财政经济学、336公共财政、368保险类等方面的电子数据,DDC类目对应的主题词来自DDC视窗版中分类法类目所对应的LCSH标题词和部分索引款目。CLC类目取自CLC4版F8财政金融方面的数据,以及《中分表》中对应的主题词。DDC与CLC类目通过一定的预处理后,生成纯文本格式,最后分别读入映射工具中的树列表框中。主题词数据用数据表管理,并和类目数据建立链接。

(2)映射方法与过程

采用人工来实现两部分类法类目的映射,可以是单向映射,也可以是双向映射。在CLC和DDC的人工映射中,采用单向映射,考虑到DDC为世界上应用十分广泛的分类法,类目较详细,而CLC目前只是中国的准国家标准分类法,主要在大陆地区应用,CLC与DDC的映射实质上国家分类法与国际通用分类法之间的映射。参照有关人工映射项目的映射方法(如RENARDUS项目),故规定:在CLC与DDC映射中,映射方向从CLC到DDC的单向映射,具体来说就是先按顺序选取某一CLC类目为映射对象,而多条DDC类目为被映射的对象。映射时,首先确定CLC类目所表达的概念含义(类目注释和类目对应的主题词可以帮助理解类目所表达的含义),然后找与此概念相关的DDC类目,如果DDC类目与CLC类目所表达的概念存在相似性,并且这种相似性达到了可以建立五种映射关系中的某一种,则建立映射关系,生成一条映射记录。如果这条CLC类目与DDC的其他类目也可以建立映射关系,则应该重新再生成一条记录。总之,一条CLC类目可与多条DDC类目进行比较,确立映射关系。这样CLC类目与DDC类目之间的映射可能是一对一的映射,也可能是一对多的映射。

(3)映射关系定义和规则以及样例

两类目所表达的概念外延和内涵的判断必须借助该类目的上下位类、注释、所对应的主题词。其中类目的上下位类起决定性的作用,因为在体系分类中,除了大类名外,其他类名在字面上大多数情况下不能直接表达事物概念,其含义都要受上下位类的限定,例如:

332.4/货币 (交换媒介的综论性著作入此。货币和银行业务的综论性著作入332.1,货币以外的其他交换媒介入332.5)

332.401/理论 (例:流通与流速理论,汇兑均衡理论,收入与现金平衡理论,数量学说,供求理论)

“332.401/理论”是指货币的理论,该类目含义由“332.4/货币”来限定。

另外类目的注释除了解释类目的含义外,有的类目还对类目的范围作限定,并且还参见一些相等的类目。所以在人工建立CLC类目与DDC建立映射关系时,其基本的规则就是首先根据需映射类目在分类法中的位置、注释来确定类目的概念外延和内涵,再人工判断两类目在概念上的重叠度。在实际操作过程中,一般映射类目的上位类能帮助确定类目的范围,其下位类能确定类目所表达概念的内涵,其注释能消除类目的一些模糊含义。下面是CLC与DDC人工映射中定义的类目映射关系,其中CLC类目为映射类目,DDC类目为被映射类目。

在人工映射系统中,根据CLC与DDC类目所表达概念在内涵和外延上的重合程度,可在CLC类目与DDC类目之间建立“相等或基本相等”“大部分重叠”“包含”“包含于”“小部分重叠”等五种类目映射关系。

①类目相等或基本相等映射关系,能建立这种映射关系的CLC和DDC类目一般来说其类目表达的概念在内涵和外延上是相等的或基本相等。判断标准是:他们各自对应的直接上位类基本上相同,其下位类类目所表达概念的总和基本上一致,另外其注释相差不大。

②包含关系,映射类目不但表达了被映射类目的所有概念,同时也包含了被映射类目中没有表达的概念,映射类目是被映射类目的上位类目,被映射类目所表达的概念只是映射类目的部分概念。例如:“F830.3/金融组织、银行”与“332.11/中央银行(特定中央银行入此)”的映射关系就是包含关系。

③包含于关系,被映射类目不但表达了映射类目的所有概念,同时也包含了映射类目中没有表达的概念。映射类目是被映射类目的下位类目,映射类目所表达的概念只是被映射类目的部分概念。例如:“F830.4/银行业务”与“332.1/银行与银行业务”之间的映射关系就是包含于关系。

④类目大部分重叠的关系,是指两类目有共同的相关主题,映射类目表达的概念与被映射类目表达的概念大部分相同。类目的这种映射关系很难准确把握,因为两条映射类目的共同主题很难量化。

⑤小部分重叠的类目映射关系,映射类目表达的概念与被映射类目表达的概念小部分相同。

(4)人工映射工具

CLC类目与DDC类目的人工映射,就是基于对映射类目所表达概念的主观判断,对可以建立映射关系的两条类目,人工建立映射关系。为了能清楚理解每条类目的概念含义,在映射工具中除了采用树状结构显示类目的上、下位类外,对于存在类目注释的类目也留有专门的区域对应显示,类目所表达的概念分解为对应的词汇来表达,从两条类目之间共同拥有概念相近的词汇,往往更容易判断出映射类目在概念上的重叠度,帮助映射者完成类目之间的映射。

为了方便类目的人工映射,自行采用DELPHI开发工具和数据库技术设计开发了人工映射工具,映射工具中每条映射类目还对应了索引词和主题词,关于索引词和主题词的抽取在以后的章节中详细叙述。人工智力映射界面如下图3-1所示:

img21

图3-1 DDC与CLC分类法人工智力映射辅助工具

映射工具中各部分说明:

①DDC和CLC的类目树状目录结构,在建立映射关系时,可根据类目上下位类判断该类目的概念。

②类目显示框,该框中分别显示了在树状目录结构中点击的分类法类目,并用“/”隔开分类号和类目。

③主题词列表框,两框中分别显示了该分类法类目所对应的索引词和主题词,其中左边框中为DDC类目对应的索引词和主题词,右边框中为CLC对应的主题词。

④类目注释框,框中分别为DDC类目和CLC类目所对应的类目注释,帮助理解类目的含义。

⑤对应关系选择框,该框列举了类目的六种对应关系,根据类目上下位类目、对应主题词、注释确定类目相近程度后,可以打开选择框,确定类目的映射关系。

⑥确认按钮,确定类目的映射关系后,就可以把建立映射关系后的分类法类目存入数据表中,并在⑦中显示出来。

⑦数据表格,连接到类目对应关系数据表,用来显示映射好的类目关系数据,并可以在该数据表格中直接修改、删、增加记录。

类目映射关系采用二维数据表格式保存,即一种对应关系为数据表中的一条记录。数据表的字段为DDC分类号,DDC类目名,CLC分类号,CLC类目名,对应关系类型,相关主题词。

3.2.2 人工映射的难点分析

人工映射中类目关系由人工判断生成,对人员素质有较高的要求,映射人员必须对待映射的分类法非常熟悉、对类目所涉及的学科领域知识有较全面的了解。由于两部分类法上的差异性,以及人工映射本身的不足,映射具体表现为:映射关系难以确定,依赖于个人的主观判断,类目映射关系维护更新困难等等。

(1)映射关系难以确定

CLC与DDC都是先组式的分类法,一般来说,类目所表达的概念越简单,进行类目对应就越简单。但是两部分类法类目的先组程度没有统一标准,类目所表达的概念复杂程度是不一样的,对于一些特别复杂而又包含非常丰富概念的类目,人工就很难判断出这些类目的相似程度,也就很难确立两类目的映射关系。另外由于两部分类法在体系结构上,以及类目的划分标准上存在差异性,同一主题概念在两部分类法中划分成不同名称的类目,并且这些类目在表达概念的能力上也不同,但这些类目在概念上却是相关的,如果进行类目之间映射,其对应关系必然存在多样性,映射的方式也存在多样性,可能一对一的映射方式,也可能是一对多的映射方式,这无疑是增加了人工映射工作的难度和复杂度

(2)依赖于个人的主观判断

分类法的人工映射,类目之间的对应转换依赖于人的主观判断。由于知识背景不同,对类目的理解上也可能不一样,类目之间映射关系的建立也可能因人而异,难以客观、公正。另外,两类目在概念上相符合的程度,即类目之间的相似度或交叠程度很难量化。

(3)类目映射关系维护更新困难

人工映射的分类法,类目之间的映射关系维护更新困难。DDC是国际通用的分类法,其更新频率非常快,DDC的网络版每月都有可供下载的部分类目更新数据,而CLC采用的是每隔几年进行大修的更新机制,两者更新频率的不一致,静态的类目映射关系如果靠人工修改,工作十分繁琐而且量大,维护更新的成本也将非常大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈