首页 百科知识 分类法自动映射系统的构建

分类法自动映射系统的构建

时间:2022-02-27 百科知识 版权反馈
【摘要】:3.4 分类法自动映射系统的构建3.4.1 类目对应词汇的抽取与处理分类法类目概念可以通过对应的词汇来表达①直接从类名、注释、下位类名、上位类名抽词表达类目概念概念可以用不同的语词和不同的情报检索标识来表示,受控词表包括分类法,不论使用的是语词还是号码,都是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,都是建立在概念逻辑的基础上,所以类目表达的概念用词也同样能表达。
分类法自动映射系统的构建_受控词表的互操作研究

3.4 分类法自动映射系统的构建

3.4.1 类目对应词汇的抽取与处理

(1)分类法类目概念可以通过对应的词汇来表达

①直接从类名、注释、下位类名、上位类名抽词表达类目概念

概念可以用不同的语词和不同的情报检索标识来表示,受控词表包括分类法,不论使用的是语词还是号码,都是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,都是建立在概念逻辑的基础上,所以类目表达的概念用词也同样能表达。

类目名称本身就是分类法的“语词”,表达了事物概念的内涵和外延。在体系分类法中类目可以表达一种事物,或几种事物或一种事物的一个方面或几种事物的同一方面,而这些都可以用语词或语词组配来表达。

一般体系分类法对类目的名称进行了一定的规范化,要求类目名称用词确切,能确切地反映类目的实际内容范围,分类法的类目名称一般采用比较通行的科学名词,而不采用俗称、旧称以及不通用的简称、译名作类目名称,也就是说类目名称中的词或词组是经过规范化和具有科学含义的词。当类目名称不能确切表达类目的实际内容范围时,必须使用注释。简洁也是类目名称用词的基本要求,其词一般较为概括精练,切忌冗长,由于下位类的概念都受到上位类所限定,而下位类名中重复的上位类部分一般予以省略。

综上所述,类目所表达的概念一般是由类目名称(简称类名)、注释、上位类、下位类来界定,而类名、注释、上位类类名、下位类类名基本上都是由一些词或词组构成,所以从类名、注释、上位类、下位类中直接抽词来表示类目概念是可行的。

②用主题词或主题词组配表达类目概念

体系分类法的类目表达的概念外延与内涵可以用主题词或主题词的组配形式来表达,在很多的分类主题一体化成果中都得到了很好的证实。很多的学者和情报学专家对分类法类目可以用主题法中主题词或词串来表达作了充分的论证:分类法的类目与主题法中的主题词其实质是相同的,都是代表一组相同主题文献的类集,是文献所论述事物(即主题概念)的字面形式。分类法中的类目与主题法中的主题词都是检索标识,根据检索标识间的概念对应,使表达同一主题概念的两种检索标识相互联系(等同)起来,便可以实现相互转换等等。

(2)体系分类法类目、注释的类型

建立类目与索引词或主题词之间的对应是类目自动映射的首要步骤,等级体系分类法一般通过类目和注释来表达各种复杂的概念。类目对应索引词和类名词从类目以及类目注释中抽取。

根据类目容纳的范围可以分为单一类目和类组,根据类目包含的主题因素分为简单类目和复合类目。单一类目只容纳一个主题、事物或学科,一般直接用单个词或词组表示;类组指包含并列几个主题、事物或学科,一般用并列的词、词组或短语表示,类组可以分解成表达独立概念的词来表达;简单类目一般只包含一个主题因素,通常用词的形式表达;复合类目由若干主题因素组合而成,通常以词组和短语的形式表示。

类目注释按其性质大体分为范围注释和方法注释,范围注释包括类目定义注释、区别注释、交替类目注释、类名同义词注释、类名外文注释等类型,方法注释包括了仿分注释、组配法细分注释、互见方法注释等类型。

3.4.2 类目对应索引词的生成规则

类目对应的索引词由类名词、类目注释词、类目下位词、类目上位词组成。类目对应的主题词则是对类目显露或隐含的主题概念进行标引的结果,其形式是与类目对应的叙词或标题词,往往取自于叙词表或标题表。

直接从类目中抽取对应的索引词的基本原则是:抽取的索引词表达的概念应该与类目表达的概念等价。类目名称最能表达类目所表达的概念,直接从类名中抽取表达该类目概念含义的是实词,类名中的虚词一般不予考虑,另外,CLC类目译名应尽量的向CLC靠拢;抽取类目的注释词时,并不是注释中所有的实词都在抽取范围,只有那些对类名其补充作用的词,如在类名中重复了的词不再抽取;类目的直接上下位类中抽取词汇原则与类名词抽取原则相同。在系统中为了让计算机识别类目对应词汇所属类型,对类名词不加任何标记,但对注释词加注“()”,下位词加注“【】”,上位词加注“《》”标记。

索引词的抽取除了按基本原则进行抽取外,在具体的抽取索引词的过程中还须考虑到DDC和CLC这两部分类法类目上存在的差异性。为了便于实际操作,对类目对应的索引词抽取进行了规则化。

(1)类名词的抽取

在类名词抽取之前,首先必须使类名独立完整,一般用上位词加以修饰。然后,据体系分类法类目的类型,对类名词的抽取定义具体的抽取规则。

①对于单一类目或简单类目,类目只包含一个主题或概念,并且类名一般用词或词组表达,抽取类目对应的类名词时一般可以直接采用类名。例如:

CLC类目:F810.41/财政收入

类名词为:财政收入

DDC类目:332.1223/国家银行

类名词为:国家银行

②对于类组,类名中包含两个或两个以上的并列主题或概念,抽取的类名词时应该充分体现类目所包含的概念内容,抽取多个并列的词作类目对应的类名词,例如:

CLC类目:F812.5/国家公债、债券、外债

类名词为:国家公债、国家债券、国家外债

DDC类目:336.276/遗产、继承、赠与税

类名词为:遗产税、继承税、赠与税

③对于由多个主题因素组成的复合类目,抽取类名词时不得随意减少或增加类目的主题因素,用词组表示的复合类目一般直接选用该词组做类名词,用短语表示的复合类目,一般从该短语中抽取词汇做类名词,当词组和从短语中抽取的词不能完全表达复合类名的所有主题因素时,可根据类目表达的概念进行组配。例如:

CLC类目:F810.455/行政管理支出

类名词为:行政管理—财政支出

DDC类目:332.152/为货币稳定和支付平衡的

类名词为:货币稳定—国际银行业务支付平衡—国际银行业务

④在体系分类法中还有的类目本身不含有实质性的内容,只是为了统率有关的下位类而编列的“其他”类目,在抽取类目对应的类名词时,可直接用该类目的上位类的类名中或类目注释中抽取类名词。例如:

DDC类目:336.27/其他税

类名词为:税收

⑤对于部分特殊类目的类名,可以添加同义词,或根据实际情况,可能需要对部分索引词进行必要的修改,例如:

DDC类目:332.1224/州和省的银行

类名词:地方银行

抽取的类名词本应该是“州银行”和“省银行”,但为了使之与CLC的类目所表达的相一致,抽词时采用同义词“地方银行”。

CLC类目:“F831/世界金融 世界银行

类名词:世界金融 国际银行

该类目不单单包括了“世界银行”,其概念含义应该是概括了有关国际性银行各方面内容,所以在抽取索引词时,应该用“国际银行”代替“世界银行”。

⑥对于CLC类目体系中有关中国和世界各国的各相关主题类目在类目抽词规则中不作规定,并在本章后面部分详细说明。

(2)类目注释词的抽取

类目注释词的规则是抽取对类目概念起补充作用的词。范围注释的主要作用是说明某个或某些类目的内容范围,或者说明某几个类目之间的联系或区别,有的范围注释对类目表达的概念起补充作用,而方法注释一般只是说明某个或某些类目的细分方法,或与分类排架有关的问题等,所以,抽取类目注释词时只选择部分范围注释作为抽词对象,不选择方法注释和参见注释。根据范围注释的类型,定义了类目注释词的具体抽取规则。

①对于指明本类目包括的内容注释,注释中包括的内容为类目注释词的抽词对象。例如:

DDC类目:332.63221/估价(包括股息支付,价格收益率。价格见332.63222)

类目注释词:股息支付,价格收益率

②对于指出类名同义词的注释,类名的同义词用作类目的注释词。例如:

CLC类目:F832.33/商业银行(专业银行)

类目注释词:商业银行 专业银行

③对于一系列类似事物的属此属彼的注释,如果指明类似事物属此,则应该把表达该事务的词抽取为类目注释词。例如:

CLC类目:F840.32/保险管理(保险经营学、保险企业管理等入此)

类目注释词:保险经营学、保险企业管理

但是,对于下面一条DDC类目,类目中的注释只说明了属彼的情况,不能抽取为该类目的注释词。

DDC类目:332.415/稳定措施(货币政策入332.46,财政政策入336.3。参见339.5经济稳定政策的综论性著作)

④对于范围注释中的类目定义注释、相关类目注释、交替类目注释等一般不予抽取。例如:

DDC类目:332.4043/辅币(内在价值小于其名义价值的货币……)

该类目注释只是对类目含义作通俗的解释和定义,不能抽取类目注释词。

在CLC和DDC两部分类法中,CLC的类目的注释比较少,而DDC的类目注释多而且非常详尽,有的类目注释中包括了各种范围注释和方法注释。在抽取类目注释词时,应该根据规则仔细辨别。

(3)下位词的抽取

类目下位词,一般是直接从该类目的直接下位类的类名中抽取,类名中抽词与类名词抽取规则相同。鉴于CLC和DDC下位类目的具体情况,有两种特殊的情况需要进行特殊的处理。

①跳级抽词处理,CLC中的有些类目按地区划分,按世界、中国、各国来列类,这些类目的上位类在抽取类目对应的下位类主题词时,就不一定抽取地区性类目,即不按世界、中国、各国的类目类名抽词,需要做跳级抽词处理,从理论、世界等类目的下位类中抽取下位词。例如:

CLC类目:类目所包含的主题概念,如果在直接下位类中没有表达主题概念的下位词,可以从更下一级的类目中抽取下位词。例如:“F82/货币”该类目的下位词不是“货币理论”,“世界货币”,“中国货币”,“各国货币”,而进行了跳级抽词,即“F82/货币”的下位词就是“货币理论”“货币价值”“货币政策”“货币管理”“货币制度”“货币史”“……”。

②上下位类重复的类名词处理,有些类目的类名中包括了它的直接下位类目的类名词,则该词不能作为该类目的下位词,而应该归于类名词。例如以下的DDC类目:

332.632/证券,不动产,商品

332.6322/股票

332.6323/公债

332.6324/不动产

“不动产”不用作“332.632/证券,不动产,商品”类目的下位词,而作为该类目的类名词。另外,如果直接下位类目中含了两个或两个以上的主题,抽取下位词时,应该对该类目多个主题都进行抽取。例如:DDC类目“332.4/货币”有一条直接下位类目“332.404/货币的形式与单位”,抽取“332.4/货币”下位词后,下位词中应该包含有“货币形式”、“货币单位”两个主题。

CLC和DDC这两部分类法由于类目的细分程度不同,直接影响了类目对应的下位词汇抽取,例如在CLC类目“F810.43/非税收收入”类目没有再细分,没有下位类目,而相同概念的DDC类目:“336.1/非税收收入”类目下面还细分了“336.11-336.15/商业收入”,“336.11/来自租金和特许权的”,“336.12/来自公共土地的”,“336.15/来自储蓄、投资、借贷的336.16/行政收入”,“336.17/奖券收入”,“336.18/政府间与政府内部的收入”等七个直接下位类。如果对两类目抽取类目对应的下位词,则两类目所对应的词肯定存在差额。这对类目映射关系的建立是有一定影响的。

(4)上位词的抽取

在体系分类法中,除大类的类名外,类目的含义基本上都受到上位类目的限定,所以在类目对应的索引词中应该包含有从上位类类名抽取的主题词汇。这不仅有利于类目的概念完整表达,也有利于揭示类目的包含或包含于映射关系。CLC和DDC的类目细分程度不同,必然存在很多的类目没有相等和基本相等的对应类目,但却可以与某些类目建立包含或包含于的映射关系,在类目的索引词中加入直接的上位词有利于计算机自动处理包含或包含于映射关系。索引词中的上位词的抽取一般严格从该类目的直接上位类目的类名中抽取,但是,DDC的类目非常详尽,等级较深,直接上位类中抽取的词还无法与CLC类目建立映射关系,在这种情况下,可以考虑从该类目的间接邻近的上位类类名中抽取上位词,例如“332.1223/国家银行”有七层,而CLC的类目一般只有5~6层,对于等级层次较深的类目。在抽取索引词时,除了抽取类目的直接上位类名词外,还可以从间接上位类目中抽取类名词作为该类目的上位词。例如“332.1223/国家银行”的直接上位词是“股份有限银行”,在CLC中没有细分到“股份有限银行”,这时可以抽取类目的间接上位类目“332.12/商业银行”的类名词“商业银行”为该类目的上位词。

在系统中,利用计算机进行自动抽取类目索引词,首先对类目名称和类目注释按抽词规则对需要抽取的类名词进行标引,然后逐条对类目进行词汇抽取。完成每条类目的类名词和注释词的抽取后,再根据每条类目所对应的类号确定类目的直接上位类目和直接下位类目,并获取相应的类目下位词和类目上位词。

3.4.3 类目对应主题词生成

建立分类法类目与主题词的对应关系,目前CLC和DDC已经存在与主题词的对应数据,《中分表》中CLC的类目已经与《汉语主题词表》中主题词建立了对应关系,杜威分类法视窗版中DDC类目已经和LCSH之间建立了对应关系。为了方便类目相似度的计算以及映射关系的建立,首先应该统一语言,把DDC类目对应的LCSH标题词翻译成汉语。DDC的一些索引款目与标题词没有含义上的重叠,并且也是类目所包含的概念时,这些索引款目也可以作为主题词收录。例如:

DDC类目:332.32/储蓄和借贷协会

类目对应的LCSH词:银行信贷员 储蓄与借贷协会

而类目对应的索引词:建筑与借贷协会 家庭借贷协会

储蓄与借贷协会 储蓄银行 借贷业 抵押银行等等

两个LCSH词不能完全表达类目表达的概念,类目对应的索引款目词除去LCSH中重复的词,索引词中的“储蓄银行 借贷业 抵押银行”应该加入到类目对应的主题词中。为方便类目对应的索引词和主题词的对应处理,系统中开发了类目对应词生成工具如图3-4所示。该工具使DDC和CLC类目与索引词和主题词建立对应关系,并以数据表的格式存储。首先选择分类法,在数状列表框中选择类目,根据选择类目的类号,计算机自动匹配到事先标引好的类目,并将索引词汇读入到列表框中,()、【】、《》分别为注释词、下为词和上位词标记。同时,在标记选择框中根据类号列出了类目对应的主题词供选择确认。

img24

图3-4 类目对应索引词和主题词的处理工具

3.4.4 分类法自动映射计算过程

(1)自动映射计算过程中的语词相似度计算方法

类目相似度计算最终转换为语词相似度计算,语词相似度计算的效果直接影响类目相似度值,从而影响类目映射关系的建立。目前词汇相似度主要的计算方法有四种类型:基于字面相似度计算、基于语素的相似度计算、基于语义体系的相似度计算、基于语料统计的相似度计算。

字面相似度计算主要依据字面成族原理和字面相似性原理,即汉语中绝大多数同义词、近义词等都含有相同的字这一特点,计算词与词之间的关联程度8。基于字面相似度算法具有实现简单,自动化程度高等特点。

基于词素相似度同义词计算,即在汉语词汇相似度计算的基本单位采用词素,而不是字面相似度计算中的字。所谓的语素是指表达基本概念的、独立的、一般从字面上不可再分割的语词单位,大量的词汇就是由少量的词素构成的。2001年朱毅华在论文《智能搜索引擎中的同义词识别算法研究》将词素引入同义词识别算法9

基于语义体系的同义词计算,主要是通过计算各词汇语义编码间的相似度来确定词汇同义性。目前在同义词识别应用较多的语义体系有《同义词词林》、《wordnet》、《知网》等等。1995年Agirre &Rigau就利用Wordnet计算词语的语义相似度,并在研究过程中考虑到了概念层次树的深度,概念层次树的区域密度等等10。2001年章成志采用了《同义词词林》这一语义体系来计算词汇之间的相似度,实现同义词挖掘11。2002年刘群、李素建发表了《基于知网的词汇相似度计算》12一文,详细地阐述了《知网》中描述语言的语法,并提出利用《知网》进行词汇语义相似度计算的算法,最后还通过试验验证算法的有效性。

另一种词语相似度的计算方法是采用大规模的语料统计来实现。例如,利用词语的相关性来计算词语的相似度。事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中该词在上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。

本系统采用基于语义体系的词汇相似度算法,利用《同义词词林》的语义体系中的词语义距离来计算类目对应词汇之间的相似度。《同义词词林》所收的词语除词外,还有部分词素、词组及成语、俗语等,《词林》共收录了七万词,把词分类大、中、小类三级,并以词的义项作为收词单位13

(2)类目对应词的语义切分

主题词汇的切分是类目自动映射的第一步,主要是利用语义词典对类目对应的索引词或主题词进行最大匹配法(MM法)的语义切分。一个索引词或主题词多数情况下切分成2-4个语义编码,并利用数组存储每个语义编码,每个独立的索引词或主题词切分后形成的多个语义编码,称为一个语义编码集,语义编码集中的单个语义编码用“/”隔开。

对类目对应的索引词汇进行切分,还需要对切分索引词的类型加注标记,类名词切分后加标记L,注释词加Z标记,下位词加X,上位词加SH,以便以后统计相等词类别。本系统中的语义词典是根据《同义词林》体系构建,共收集了67195个词,并一一对应好相应的语义编码,系统借用该语义词典,并对语义词典部分修改。

例如CLC类目,F8/财政、金融,其对应的索引词为:财政金融、【国家财政】、【货币】、【银行】、【保险】、《经济》;利用语义词典进行语义切分后得到对应的语义单元分别是:L+财政/金融、X+国家/财政、X+货币、X+银行、X+保险、SH+经济;每个语义编码集所对应的单个语义编码分别是:Da010139/Dj050101、Di020101/Da010139、Dj050101、Dm040122、Ed500201、Dj010101。

(3)构建类目对应词(概念因素)相似度矩阵

把类目对应的索引词或主题词利用语义词典切分成语义单元后,每个语义单元都有相应的语义编码,通过对每个语义单元所对应的编码计算出两个语义单元之间的相似度。

一条类目对应了多词,只计算两词之间的相似度,并不能计算出两条类目之间的相似度,只有计算出两条类目所对应的所有词之间的相似度,才有可能计算类目之间的相似度。例如计算C1 和C2的相似度,其中C1存有N个对应词,存在N个语义单元,C2有M个对应词汇,存在M个语义单元,C1对应的每个语义单元分别与C2对应每个语义单元进行相似度计算,便可以得到一个M*N维的语词相似度矩阵,矩阵中的每个值都是C1对应的一个词与C2对应的一个词之间的语义相似值。

建立类目对应词汇相似值矩阵的基本的算法描述如下:

fore:=1to clcwordscount do 一条DDC类目对应的索引词

forh:=1to ddcwordscount do 一条CLC类目对应的索引词

begin

simivalue[e,h]:=simifund(clcwords[e],ddcwords[h]);

计算出相似值并利用CLC和DDC对应词的相似值

End;

例如:CLC类目:“F820.2/货币制度”和DDC有关货币方面的类目:“332.401/理论”,这两条类目对应索引词之间的相似矩阵如下图所示,图中第一行(从第二列开始)为CLC类目对应的索引词,第一列(从第二行开始)为DDC类目对应的索引词,每格中的百分数就是该格所在列第一行的一个CLC索引词与该格所在行第一列的某个DDC索引词的相似度,如“主币”与“货币流通理论”的语义相似度为43.0100%。

img25

图3-5 F820.2/货币制度类目与332.401/理论类目对应索引词的语词相似矩阵

(4)确定两类目中各概念因素的对应并计算两类目的相似度

CLC和DDC的每条类目表达某一整体概念,而类目所对应的每个索引词或主题词就是表达整体概念中的概念因素。一般来说,两个存在于不同类目的词汇的相似值越大,两个类目之间存在相似度越大的概念因素;两个映射类目中存在完全相等的词汇,表示两类目之间存在完全相等的概念因素。利用类目的概念因素相似性来计算类目整体概念上的相似性,首先就是要确定概念因素的对应性问题。建立CLC类目对应词汇和DDC类目对应词汇的相似度矩阵,其实质上是计算出了CLC类目的每个概念因素与DDC类目的每个概念因素的相似程度。在语词相似矩阵中,CLC类目中的某个概念因素能在DDC类目对应的概念因素中找到相似值最大的对应部分,就可以确定这两个概念因素的对应关系,其相似值就是两类目对应概念因素的相似值。具体而言,在一个M×N的语词相似矩阵中根据相似值最大值所在行和列来确定两个概念因素的对应,并在词汇相似矩阵中消除已经对应好的概念因素。然后在N-1行,M-1列矩阵继续根据相似值最大来确定概念因素的对应,如此循环,直到Mix(M,N)个对应后才结束。

//根据矩阵中最大值确定类目概念因素的对应算法

forg:=1to min(col,row)-1do  //进行Mix(col,row)次循环

begin

maxv:=firstvalue;  //取矩阵中第一个值

fori:=1to col do/

forj:=1to row do

begin

findmaxsimivalue();//在矩阵中找出最大相似值,并记录其对应词汇

End;

Clearword();  //消除对应好的对应词汇和所已经其有关的相似值

End;

完成类目各个概念因素(词汇)的对应后,根据各概念因素的相似值可以计算出类目这个整体概念的相似度。计算类目的相似度,需要进行必要的加权,认为相似值越大的概念因素对整体概念的相似影响越大,相似值越小的概念因素对整体概念相似影响相对就小,对应的概念因素越多,类目的整体概念就越相似。所以加权时应该考虑到概念因素相似值的大小,以及对应概念因素的数量。前面描述到了对应概念因素是按相似值大小找出的,相似值最大的概念因素排列位置越前面,对类目整体相似的贡献度也越大,所以在确定加权系数时需要考虑到对应概念因素的个数,还应该“重心前移”,排在最前面的概念因素的相似值其权值应该最大。

具体的加权原则如下:首先确定对应的概念因素的个数,如果概念因素的个数为7,则第一个概念因素的相似值为7,第二个概念因素的相似值权值为6,依次减1,最后的概念因素相似值为1。如图3-6所示各配对概念因素的相似值。

img26

图3-6 “F832.2/货币制度”和“332.401/理论”各配对概念因素的相似值

根据规定的加权原则,类目的相似值计算公式可以定义为:

classsim=1*7+0.584*6+0.58*5+0.508%*4+0.402%*3+0.3645*2+0.05/7+6+5+4+3+2+1

加权后计算出类目相似值为:62.0577%。

由于类目表达概念上的差异,类目分解成词汇后必然存在数量上的差异。在根据矩阵中最大值完成词汇(概念因素)的对应后,有时两类目还存在|M-N|个没有对应部分词汇(概念因素),在计算类目总的相似度时,应该对这些没有配对的词汇进行分类统计,因为没有配对的概念因素直接影响类目之间实际相似值,也影响类目之间映射关系的确定。

(5)建立类目映射关系的规则

①根据索引词建立类目映射关系的规则

利用类目对应的索引词来自动建立类目的映射关系时,并不完全取决于类目之间的相似值,对应概念因素(索引词)在类目中的类型,映射类目所对应词数量上的差额对类目映射关系的确定都有很大的影响,所以需要由三个影响因素来确定类目映射关系规则。

·建立相等关系的类目,映射类目之间的相似度大于阈值;如果存在相等同级词,类目之间的阈值可以适当地下调,相等同级词是指存在类名词相等、类名词与注释词,下位词与下位词相等等情况;另外类目对应词数量差额不能超过一定的阈值。

·建立包含关系的类目,在拟建立映射关系的两类目中,映射类目是被映射类目的上位类。建立包含关系的规则:类目相似值不小于一定阈值,并且存在上位词与下位词相等,例如下位词与类名词相等、类名词与上位词相等、注释词与上位词相等、下位词与上位词相等。

·建立包含于关系的类目,与建立包含关系的类目正好相反,能建立包含于关系的两类目应该满足:类目的相似值不小于一定的阈值,并且存在下列情况之一:上位词与类名词相等、上位词与注释词相等,类名词与下位词相等,注释词与下位词相等。

·建立大部分重叠关系的类目,与能建立“相等或基本相等”关系的类目的相似度阈值相同,但不满足建立相等关系的另外两个条件,即没有相等的同级词或者超过类目对应词差额阈值。

·建立小部分重叠关系的类目,能建立这种关系的类目表示类目所表达概念的内涵只有一小部分是基本相同。系统中规定建立小部分重叠的两条类目,类目相似值小于一定的阈值,并且不存在能建立“包含”关系,“包含于”关系,没有相等的索引词等情况。

在完成类目的相似度计算后,并统计出两条类目索引词中相似度为100%词对和两条类目对应索引词的数量差额后,根据类目映射关系规则便可以根据以上确立的类目映射规则建立类目之间的映射关系。

例如“F832.2/货币制度”和“332.401/理论”这两条类目建立的映射关系如图3-7。

img27

图3-7 类目F832.2/货币制度和332.401/理论的映射关系

②根据类名词与主题词的组合来确定类目映射关系的规则

利用类目对应类名词与主题词的组合来计算CLC类目与DDC类目的相似值的过程与利用类目对应索引词计算类目相似度值的过程相同,但是通过主题词计算后再建立类目之间的映射关系就简单多了,由于主题词没有表明词的类型,即类目对应的主题词不能标明来自类目名称,类目注释还是下位类目等等,确定类目映射关系规则是就不必考虑“相等词词类别”这一项了。类目之间的映射关系直接由类目相似度值,以及类目对应词的差额来确定。通过类目对应的主题词来确定类目映射关系的类目映射规则定义如下:

·建立相等关系,类目之间的相似值不小于阈值,并且CLC类目与DDC类目对应的主题词与数量差不能超过一定的值。

·建立大部分重叠关系,类目之间的相似度小于建立相等或基本相等关系的阈值,但达到了建立大部分重叠关系的阈值,并且CLC类目与DDC类目对应的词数量差额应该在一定范围之内。或者,类目的相似度达到了建立相等关系的阈值,但CLC类目与DDC类目对应的词差额超过了建立相等关系的词差额。

·建立小部分重叠关系,类目之间的相似度小于建立大部分关系重叠的阈值,但达到了建立小部分重叠关系的阈值,并且CLC类目与DDC类目对应的主题词数量差额不能超过一定的范围。或者,类目的相似度达了建立大部分重叠关系的阈值,但CLC类目与DDC类目对应的主题词数量差额超过了范围。

3.4.5 CLC和DDC自动映射批处理

CLC类目与DDC类目的自动映射批处理,是对某一专业或专题内连续多条的CLC类目以及DDC类目进行自动映射,即选定范围内两种类目一一进行相似度计算,并根据类目映射规则建立映射关系。

CLC类目与DDC类目自动映射批处理的过程如下:在确定的CLC类目范围内,依次选取每一条CLC类目与确定范围内的每条DDC类目进行相似度计算。CLC和DDC类目都有对应的词,每条类目对应的词汇构成了一条类目向量,一条CLC类目与多条DDC类目的相似度计算自然就是一向量与多向量之间的相似度计算,可以构建类目向量矩阵,一条CLC向量与多条DDC向量的相似度的计算,最终转换为一条CLC类目向量与每一条DDC类目向量之间的计算。然后根据类目映射规则,对满足相似度阈值CLC类目和DDC类目建立映射关系。再对选定范围内的下一条CLC类目进行相同一对多的自动映射,如此循环,直到选定范围内的每条CLC类目与选定范围内的每条DDC类目完成类目相似度计算和映射关系的判定。概括来说,自动映射的批处理,把选定范围内的多条CLC类目与选定范围内的多条DDC类目的相似度计算转换成一条CLC类目与多条DDC类目相似度计算,最终转换为单条CLC类目与单条DDC类目之间的相似度计算。整个计算过程类目相似度计算次数为CLC类目数量与DDC的类目数量的积,例如:选定的CLC类目范围中存在N条类目,DDC类目范围中有M条类目,完成选定范围内的CLC类目与选定范围内的DDC类目的自动映射批处理需要进行N×M次类目相似度计算。图3-8为类目自动映射批处理工具。

img28

图3-8 类目自动映射批处理工具

3.4.6 地区复分类目的处理

(1)CLC类目中关于地区复分类目的处理

CLC主类表有很多类目按地区划分,存在着按中国和各国单独列类的类目,社会科学类目的设置尤为明显。DDC有关具体国家和地区的类目,不在主类表中列出,通常使用地区复分,即一般按其附表2(地区复分表)复分,归于各主题有关历史、地理、人物论述的类目中。要实现CLC与DDC类目之间的自动映射,必须处理好CLC中按地区复分的类目与相关DDC类目的映射。由于类目的映射最终通过类目对应的词来实现相似度的计算,处理好CLC中地区复分类目与DDC类目之间映射的关键,就是要处理好这些类目对应词的生成,本系统中处理这些类目的基本原则是地理概念与类目主题概念分离。以下用F8财政金融类目作为实例分析。

①CLC分类体系中以中国单独列类的各类目对应索引词和主题词

在F8财政金融类目中,以中国单独列类的主题类目有F812、F822、F832、F842类目以及其下位类目。生成这些类目的索引词和主题词时,首先把“中国”这个地理概念从类目中分离出来,然后根据索引词主题词生成规则,生成类目对应索引词和主题词,最后在生成好的类目对应词中加上“[中国]”标识。例:

CLC类目:F812.4(中国)财政收入、支出

索引词:财政收入财政支出(财政赤字)(财政盈余)【税收】【非税收收入】【财政支出】《国家财政》+[中国]

主题词:财政收入财政支出国际收支+[中国]

利用类目对应的索引词或主题词便可以计算与相关DDC类目的相似度。

②CLC类目中“各国”的类目对应的索引词或主题词

在F8财政金融类目中,各国的各主题类目排列为F81至F84的下位类按3/7(各国)细分,下面还有专用复分。表3-3中的数据是“F823/F827各国货币”,各专用复分类目与邻近类目的比较。

表3-3 “F823/F827各国货币”专用复分类目与邻近类目的比较

img29

从表中可以看出:如果先不考虑地区复分,“F823/F827各国货币”的专用复分类目与某些邻近类目基本上是一致的。除“2货币管理和流通”类目外,其他类目在“F821世界货币”的下位类中都能找到相同的类目,另外“2货币管理和流通”在“F820货币理论”中也有基本相似的下位类目“F820.3货币管理”和“F820.4货币流通与信用”。

“F823/F827各国货币”的各专用复分类目如果存在类名基本相同的邻近类目,“F823/F827各国货币”的各专用复分类目的索引词或主题词可借用具有相同类名的邻近类目所对应的索引词或主题词,必要时,可以修改部分索引词或主题词,然后再加上地理复分概念“[各国]”。

例如“F823/F827各国货币”的专用复分类目“5通货膨胀”存在类名相同的邻近类目“F820.5通货膨胀”。例如:

CLC类目:F820.5通货膨胀

索引词为:通货膨胀《货币》

主题词:货币危机 通货膨胀

则类目F823/F827的专用复分类目各国货币通货膨胀

索引词为:通货膨胀《货币》[各国]

主题词:货币危机 通货膨胀[各国]

类目“F823/F827的专用复分类目各国货币通货膨胀”所对应的索引词和主题词采用邻近类目“F820.5通货膨胀”的索引词和主题词并加“[各国]”地理概念复分标记。

同理,对于“F813/817各国财政”、“F833/837各国金融、银行”也可采用“F823/F827各国货币”的类目处理方法,使这些按地区表复分后并按专用复分的类目有完善的索引词和主题词,利用类目对应的索引词和主题词可以计算这些类目与相关DDC类目的相似度,并根据类目映射规则确定类目之间的映射关系。

(2)CLC类目中中国类目和各国类目与DDC类目的映射方法

在CLC中,如果地区复分和专用复分并用时,类目对应词可以借用邻近类名相同类目的对应词,并加上地区复分标记“[中国]”或“[各国]”。类目有了对应的索引词或主题词,就可利用词汇相似计算类目相似度,根据类目映射规则与DDC有关类目建立映射关系。但是,CLC中按中国和各国列类的专用复分类目相对于DDC按主题列类来说,具有特殊性,严格来说,中国或各国的各主题类目在DDC体系中,应该归于DDC各相关主题的历史、地理、人物类目,或者是可以按附表2复分的主题类目。考虑以上特殊性,CLC中中国或各国的各专用复分类目与DDC各主题类目进行相似度计算并建立映射关系时,需要对映射规则进行必要的补充。

在补充映射规则前,需要完成两个前期工作:第一,对两部分类法中的地区表进行对照处理,编制地名类号对照表,建立两者之间的对应关系。表3-4为部分CLC与DDC地区编号对应表。

表3-4 CLC和DDC地区编号对应表

img30

第二,对DDC中各主题类目中可以按附表2复分的类目进行统计并加以标记,在DDC对应的索引词或主题词后加上“[附表2]”以便于CLC体系中有关“各国”和中国的各主题类目与这些类目建立相等类目映射关系时,DDC类目加入地区编号。

①CLC中按中国列类的各主题类目与DDC类目自动映射方法

CLC按中国列类的类目在对应的索引词和主题词后加上“[中国]”标记,该标记不进行词相似计算,只是在与DDC类目建立映射关系时起识别地理概念的作用。如果DDC中存在该主题的“历史、地理、人物”类目,可以与该类目建立相等关系,并在该DDC类目的类号后直接加上附表2中的中国编号“51”。通过类目对应的索引词或主题词计算在DDC中存在相等关系的类目,该类目可按附表2复分,该DDC的类号后也直接加编号“51”。该类目没有注明按附表2复分,则DDC类目的类号插入09后再加编号“51”。

例如,CLC类目“822/中国货币”与DDC类目“32.49/货币和货币政策的历史、地理、人物论述”经过自动映射后,建立了相等关系,但DDC类目并没有展开“中国”这个地理概念,利用CLC 与DDC地区编号对应表中数据展开后结果如图3-9。

img31

图3-9 按地区表复分展开结果

②CLC中按各国和专用复分表列类的类目与DDC类目的自动映射方法

各国类目可以直接与相关主题的DDC中“历史、地理、人物”类目建立相等关系,并按地区国家对应表展开。

CLC中按各国列类的主题类目在不考虑地区复分的前提下,通过索引词或主题词计算,在DDC类目体系中存在相等的类目(该主题的DDC“历史、地理、人物”的类目除外),如果该DDC类目的注明可按附表2复分,则可在DDC类号后直接加上地区或国家编号,并在类名前加该地区或国家名称;如果该DDC类目没有注明可按附表2复分,则需要在该DDC类目的类号后加上“09”后再加上地区或国家编号。

例如:CLC的“F823-F827+.1/各国货币制度”类目与“332.404/货币的形式与单位”经过类目相似度计算后可以建立相等关系,但332.46并没有体现地理概念,当“F823-F827+.1/各国货币制度”按地理概念展开后,“332.404/货币的形式与单位”也需要加入地理概念,但该类目没有要求按附表2复分,所以在类号后加入09,并加上各国的地区编号,例如日本货币制度,CLC类号是F823.131,DDC的类号是332.4040952。

对于CLC中,按中国和各国列类的各主题类目不与其他DDC类目建立“包含”“包含于”“重叠”等关系。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈