首页 百科知识 分类法之间的映射原理

分类法之间的映射原理

时间:2022-02-27 百科知识 版权反馈
【摘要】:CLC和DDC这两部分类法都是综合性体系分类法,都是对知识世界进行描述和归类,以概念逻辑和知识分类为基础。只要CLC类目与DDC类目表达的概念存在相似性,达到了建立映射关系的程度,人工判断映射关系从理论上是可行的,虽然实际操作中存在很多需要克服的难点。CLC类目与DDC类目都是先组式类目,一般用短语,词组等自然语言形式表达,直接对类目进行相似度计算困难较大。
分类法之间的映射原理_受控词表的互操作研究

3.1 分类法之间的映射原理

不同分类法互操作可以通过分类法类目相互映射来实现,类目映射时,不仅仅要考虑到类目的表达形式,如类号,类名等等,更重要的是要考虑类目所表达的概念在外延和内涵上的相符程度。分类法体系中的类目实质是概念标识的集合,两部分类法的相互映射应该从类目所表达的特定概念出发,才能较好地克服两部分类法在语言、类目名称、注释等外在形式上的差异。

等级体系分类法的结构一致性和类目表达概念的相似性是实现相互映射的理论基础。CLC和DDC这两部分类法都是综合性体系分类法,都是对知识世界进行描述和归类,以概念逻辑和知识分类为基础。大类展开形成的类目都表达一定的概念,分类法中的类目是表达文献情报内容概念的基本单位,即CLC和DDC的类目本质都是表达文献主题概念的号码标识,只是标记种类和标记方法有些不同,类目的划分和设置也存在差异。但是,两部分类法描述的学科领域和知识总量基本相同,在类目划分原则相近的情况下,CLC类目与DDC类目表达的概念必然存在很大程度的相似性,即CLC类目和DDC类目表达概念的内涵和外延存在交叠,根据交叠程度可以同样建立CLC类目与DDC类目的映射关系。

实现CLC与DDC映射的两种模式:静态映射和动态映射,静态映射一般也称人工映射或直接映射;动态映射也称自动映射或间接映射。只要CLC类目与DDC类目表达的概念存在相似性,达到了建立映射关系的程度,人工判断映射关系从理论上是可行的,虽然实际操作中存在很多需要克服的难点。

自动映射,一般通过计算类目表达概念的相似度,根据两类目在语义上的交叠程度确立映射关系。CLC类目与DDC类目都是先组式类目,一般用短语,词组等自然语言形式表达,直接对类目进行相似度计算困难较大。但是,先组类目表达的概念可以分解成多个独立的概念或概念因素,并用词表达,以前就有情报语言学专家论证过,是可行的,而词汇之间的语义相似度计算目前也有多种方法可供选择,而且小范围内的词语义相似度计算的准确性在一些试验系统中已经得到了验证,如果把分类法中先组式类目表达的概念用词来表达,通过计算词之间的语义相似度,得到类目相似度,并最后计算出类目之间的映射关系是可行的。概括来说,自动映射就是把等级体系分类法中用自然语言表达的类目分解成词,通过计算词之间的相似度,再确定类目相似度,最后,动态地、自动地建立类目映射关系。

3.1.1 分类法之间自动映射

类目相似度(Class similarity)是指不同类目表达概念的相似程度。类目自动映射建立在类目相似度计算的基础上。如果把分类法中的类目看成是可以分解成部分的整体,那么,整体相似可以建立在部分相似的基础上,复杂的整体分解成部分,通过计算部分之间的相似度得到整体之间的相似度。假设两条类目C1和C2,类目C1,C2是整体,可分解成多个部分,假定C1分解成部分A1,A2,…,An表达,C2分解成部分B1,B2,…,Bm表达,计算C1和C2之间的相似度就可以转换成计算各部分之间的相似度。

类目整体如果用词表示,可以分解成若干个部分,即类目表达的整体概念可以分解成若干独立概念和概念因素,并用词来表示,那么,部分之间相似度计算实际上是词汇之间的相似值计算,词的相似值计算可以通过词汇的语义相似度计算方法来完成。采用什么词来表示类目概念呢?基本原则是:类目分解成若干词后,这些词的语义之和应该与类目的语义相同,即概念因素之和应该等于整体概念。

CLC和DDC类目名称都比较规范化、简洁,能准确地反映类目的实际内容范围。用短语表达的类目按照不损失类目概念的原则从类名中抽取表达概念的词汇;大量的CLC与DDC的类目名称本身就是语词,表达事物概念的内涵和外延;当类目名称不能确切表达类目的实际内容范围时,可用注释来明确,即抽取对应词的范围包括某些注释;另外在CLC和DDC中,每一级别的类目概念含义受上位类目概念及下位类目概念的制约,直接从每一级类目的类名以及该类目的下位类类名以及上位类类名中抽取的词能表达类目概念。

一条类目对应的词由类名词、注释词、下位词、上位词组成。类名词:直接从类目名称中抽取的,能表达类目概念的词;注释词:从类目对应注释中抽取能够对类目概念起补充作用的词;上位词:从类目的直接上位类类目名称中抽取的、对类目概念起限定作用的词;下位词:从类目的直接下位类类目名称中抽取的、能对类目概念外延起界定作用的词。类名词、注释词、下位词、上位词统称为索引词(实际上就是在几个构成因素基础上构建分类法索引款目)。

各种分类主题词表的出版和应用证明了主题词也能表达类目概念。

类目概念分解成词表达,如果类目C1有N个词,C2有M个词,两类目部分概念之间的相似度计算就存在N×M种对应关系。但是,只有在整体中起相同作用的部分互相比较才有效,例如:比较两个人长相是否相似,我们总是比较他们的脸型、轮廓、眼睛、鼻子等相同部分是否相似,而不会拿眼睛去和鼻子做比较。因此,在比较两个整体的相似性时,首先要做的工作是判断哪些部分最相似,采用相似值最大值原则,即相似值最大的部分在两个整体中所起的作用才相同。假定类目C1分解成N个部分,类目C2分解成M个部分,为使最相似的部分之间建立对应的关系,可以通过构建成N×M词相似度矩阵,然后在词相似矩阵中对词与词的相似值进行比较,并且认为相似值最大的两个词在整体中所起的作用才相同,从而确定各部分之间的对应关系。根据整体中各部分对应的相似值,再通过一定加权计算便可以得到整体的相似度,即类目的相似度。

类目之间建立什么样的映射关系,除了取决于两条类目之间的相似度值外,还有两个重要因素影响类目映射关系的建立:一是两类目对应词的差额;二是完全相等词的类别,即是类名词相等,注释词相等,还是上位词相等或者下位词相等。词汇差额影响类目映射关系的建立是因为:类目这个概念整体分解成概念因素后,在概念因素范围一定的情况下,如果类目表达的概念整体在外延和内涵不同,必然会体现在概念因素的数量上,即类目对应词的数量上,例如:类目C1表达的整体概念可以分解成N个概念因素,即类目C1有N个对应词,类目C2表达的整体概念可以分解成M个概念因素,即C2有M个对应词,如果N与M不相等的情况下,词汇差额数为|N-M|,即C1、C2之间存在|N-M|个无法对应的部分概念,这必然影响到两类目映射关系的确定。

类目的映射类型可以是一对一的映射,也有一对多的映射,还有多对多的映射,在类目的自动映射中,不仅仅要处理两类目之间进行相似度计算,更应该处理一条类目与多条类目之间以及多条类目与多条类目之间的相似度计算,并建立映射关系。

计算机情报检索中有很多成熟的数学模型能解决一对多的匹配问题,空间向量模型就是其中之一。该模型是计算机情报检索和文献聚类研究中重要的数学模型。该模型的基本思想是:文献用一定数量的标引词来表示,每篇文献可以构建成一个等长的文献向量,待检索的文献集合构成多向量组成的向量空间,提问式也用相同数量的词表示,形成单条提问向量。这样,情报检索中的文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题1。同样,我们把类目对应的词汇看成类目向量,多条DDC类目向量就可以构成待映射的类目向量集合,映射类目(CLC类目)看成是映射向量,这样类目的一对多映射就可以转换为映射类目向量与被映射的类目向量相似度计算的问题。

假定,某一CLC类目可以由m个词汇来表达:C1=(A11,A12,…,A1m),如果被映射的每条DDC类目也用m个主题词汇(这是最理想的情况)表示,n条DDC类目构成一个向量集合C:C={C1,C2,…,Cn},其中Ci=(Ai1,Ai2,…,Aim)i取2,3…,n+1,则映射类目与被映射类目构成向量矩阵M:

img17

其中矩阵中第一行为CLC类目向量,第二行至第i行为DDC类目向量,A11,A12,…A1m为CLC类目所对应的词汇,A21,A22…A2m至Ai1,Ai2…Aim分别为各CLC类目所对应的词汇。

要使CLC类目与多条DDC类目建立映射关系,只要分别计算向量2,3,…,i与第一向量的相似度,一对多的映射关系直接转换为每两条类目之间的相似度计算,而两条类目之间的相似度计算如上所描述,采用词汇对应构建语词相似矩阵,然后按最大值确立每两个词汇之间的对应,再加权取平均得到具体两类目之间的相似度值,根据各种映射关系的阈值范围,便可以建立CLC类目与多条DDC类目之间的映射关系。

3.1.2 CLC和DDC两部分类法的差异性分析

(1)CLC与DDC在基本大类设置的差异

CLC以马克思列宁主义、毛泽东思想为指导思想,以辩证唯物主义历史唯物主义编制依据,类目的确立及其序列安排,不仅要从科学概念出发,同时要考虑它的思想政治内容2。特别是社会科学各大类,往往与国家及社会制度联系在一起,还涉及观点区分问题。而DDC以盎格鲁萨克逊(Anglo-Saxon)文化、基督教为中心,以实用为原则,并优先考虑美国,其次是西欧3。编制指导思想上的差异必然导致体系结构上的差异,具体体现在CLC和DDC的基本大类等类目的设置上,其对应关系如表3-1。

表3-1 DDC与CLC基本大类比较

img18

(2)具体类目上的差异

CLC和DDC都对类目进行了严格控制,但他们在类目数量类目质量等方面却存在巨大的差异。

①列类、分类的标准不统一

DDC21的类目范围比较广,特别是社会科学方面的类目,尽管CLC的出版年代比DDC晚,但在社会科学方面CLC所包含的类目却并不比DDC多,除了它们共有的一些类目如政治学、法律、经济等外,DDC还设有自己特色类目,如“公共行政”、“社会问题和服务、协会”、“商业、通讯、交通”等。DDC21和CLC4所包含的社会科学类目的范围之所以不同,与中美两国对社会科学的认识不同有关。

另外,CLC的列类一般按“0”原理,“1”中国,“2”世界,“3-7”各国的体系排列类目。而在DDC的主类表中只列举各学科或专业的主题概念,不按照地区和国家进行划分,一律列入复分。

②同主题概念的类目数量上的差异

CLC和DDC经过多次修订后,类目数量较以前版本都有较大的增加,CLC第四版F类大大小小的类目数量,目前约有:1700多条,DDC21版的330-339经济类目数量约1300多条,其中DDC的330-339类目中还不包括“交通运输经济”、“邮电经济”、“贸易经济”等学科内容,而这些内容在CLC类目中就约占534条,另外CLC的F类中,很多四级类目是以世界、中国、各国来列类,存在很多同主题概念的重复类目,在经济类目方面,DDC比CLC更详细具体。

类目数量上的增加一方面是新学科、新技术的发展需要,另一方面也是由于分类标准更细的原因。由于彼此分类体系、划分类目标准、立类规则等不一致,呈现类目划分越细,类目级数越多,类目之间的差异就出现越大的趋势4

③类名相同,但内函存在差异

类目名称与注释是否准确、清晰,关系到类目概念的内涵与外延的界定。CLC“经济”类和DDC“经济”类虽然类名相同,但类目概念的内涵并不一致。

DDC21和CLC4对经济学的分类如下:

img19

两种分类法在经济类下都展开为9个类。每个主题在CLC中先按原理、中国、各国区分,再按主题区分;DDC则直接按主题划分,必要时,再按国家复分。在内容上,两者最大的区别在于:DDC把商业(国内贸易)、交通运输经济和邮电经济从经济大类中抽出,单独作为一个大类,即“380商业、通讯、交通”;而CLC是合为一类的。在DDC中,“产品”被单独抽出,作为一个独立的三级类目;在CLC中,“产品”位列F76商品学之下,是四级类目。类目差异产生的原因是多方面的,例如产业划分标准上的差异等等。

DDC的330类目和CLC的F类目都是采用经济作为类目名称,但根据以上分析,类目所包含的含义和学科范围并不完全相同,所以类目对应转换中类目并不能完全按照类目字面意思来进行,因为,字面上相符的两类目不一定是真正代表着同一概念,不同国家分类表中的类目用词可能存在差异等等。

④所表达的概念相同,但类目名称却不同

对于相同概念的表达可以用不同的语词来表示,不同语种的分类法这方面的差异是显而易见的,这是由文化、语言的多样性所决定的。

3.1.3 类目映射关系分析

分类法类目之间的差异决定了一部分类法的所有类目在另一部分类法中不可能都找到完全相等或完全相似的类目,因为两部分类法中,对于一个相同的主题概念,一部分类法中用一条类目表达,而在另一部分类法中却用两条甚至更多的类目表达,这样类目的概念内涵和外延就存在着或多或少差异,根据类目所表达概念的重叠度或重合度,类目之间的映射存在多种语义对应关系。

在以往的转换系统中,对分类法类目映射关系的划分也不统一。SOSIG(社会科学信息网关)UDC和Biz/ed(网络教育贸易信息网关)DDC间进行的映射,规定类目对应关系为:同义等价关系、上位概念、下位概念三种5。欧洲的Renardus项目中,根据本地分类法类目与DDC类目的概念交叠程度,规定了类目之间五种对应关系:相等、包含、包含于、大部重叠、小部分重叠6。在Iyer 和Giguere(1995)所进行的数学主题分类法MSC和DDC20版的510类的映射研究中,根据专业分类法与通用分类法的类目特征,建议确立类目对应关系为7:完全匹配、专指至通用、通用至专指、不匹配、专业类目与上位类目映射、多对一映射、循环映射等类目关系。

CLC和DDC均是综合性分类法,类目层次深,CLC是我国通用的综合性分类法,DDC是国际通用的分类法,两部分类法在类目设置上和类目的划分标准上存在很多不同,必然导致两部分类法的类目所表达概念的交叠度存在多样性,CLC类目与DDC类目映射过程中,为了能够更详细表现CLC类目与DDC类目的对应关系,类目之间拟建立的映射关系采用Renardus项目中局部分类法与DDC映射中所确立的五种映射关系。为了方便描述,设两种分类法类目分别是A和B,则这两种分类法类目的对应关系为表中的五类型,表中第六种情况表示两条类目无法建立映射关系,其中着色部分表示A、B共有部分概念。

表3-2 DDC类目与CLC类目对应关系一览表

img20

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈