首页 理论教育 集成词库的设计

集成词库的设计

时间:2022-02-27 理论教育 版权反馈
【摘要】:词库词源由现有的词表供给。实现不同词表到《中分表》的互操作,包括分类法与《中图法》,主题词表与《中分表》主题部分以及受控词表与自然语言的互操作三部分。各词表之间的互操作技术是本系统的研究重点,将在后面作详细介绍。目前,DDC已经被翻译成30多种语言,被全球超过135个国家和地区的图书馆采用来组织馆藏文献;并且DDC已与多部类表、词表实现了互操作。
集成词库的设计_受控词表的互操作研究

4.1 集成词库的设计

4.1.1 集成词库构建步骤

集成词库的具体构建过程包括以下几个步骤:

(1)选择语料库,获取实验数据。词库词源由现有的词表供给。选择中外著名的教育叙词表、教育分类表以及综合性词表或分类表中的教育大类。对于有电子版本的词表,通过预处理,规范其格式,将其数据导入数据库利用;对于没有电子版本的词表,采用扫描识别或手工录入的方法来获取数据。

(2)通过不同词表的互操作,完成词库的构建。实现不同词表到《中分表》的互操作,包括分类法与《中图法》,主题词表与《中分表》主题部分以及受控词表与自然语言的互操作三部分。各词表之间的互操作技术是本系统的研究重点,将在后面作详细介绍。

(3)建立词库管理和应用系统,将互操作结果可视化显示。为了用户更好地浏览和利用词库中的词汇数据,实现词库的信息交换和信息再利用,采用基于数据库的单机模式、XML元数据格式及基于本体构建工具等方式对数据进行可视化显示。在词库的基础上设计系统界面,建立词库管理和应用系统,最终用户可以以浏览或查找的方式,通过《中图法》分类号查看与之兼容的分类法信息,或者通过《中分表》主题词查看与之兼容的主题词表的信息,还可以直接通过自然语言查询,系统为其转换到对应或相关的《中分表》分类号或主题词,进而再查看其他对应词表的相关信息。

综上所述,集成词库构建的主要流程如下图所示:

img42

图4-1 教育集成词库的构建流程图

4.1.2 实验数据的分析和获取

目前国内外含教育数据的分类表和主题词表有很多,经过分析比较,选取其中常用的、有代表性的几部分类表和叙词表构建词库。可供选择的词表有《中分表》(教育类)、《中国科学院图书馆图书分类法》(教育类)、《杜威十进分类法》(教育类)、《教育主题词表》、《社会科学检索词表》(教育类)以及从教育大辞典、CNMARC中抽取的教育类关键词或关键词串等数据。

(1)《中分表》

《中分表》是在《中图法》(第三版,含《中国图书资料分类法》)类目与《汉表》主题词对应的基础上,将分类法与主题法、先组式与后组式融为一体的一种新型的受控词表。本系统选取《中分表》作集成词库的核心,首先,《中分表》作为我国最主要的分类主题一体化词表,在国内有着独特的地位,有着最广泛的影响和最众多的用户,现在大多数的图书馆都采用《中分表》来类分、标引图书。第二,《中分表》实际上已经起到在不同程度上兼容各种专业分类表和叙词表的作用。第三,《中分表》本身就属于一种将分类语言和主题语言融为一体的集成词表,它的兼容模式易于扩充和发展,而且适应性广。第四,《中分表》(第二版)电子版刚刚发行,有利于我们直接获取数据。

(2)《中国科学院图书馆图书分类法》

《中国科学院图书馆图书分类法》(简称《科图法》)是我国目前通用的分类法之一。《科图法》自出版以来,受到国内外图书情报界和广大读者的关注。它的特点是科学系统比较强,标记制度单纯简洁,编制体例清楚,结构比较完整,能够类分中外、古今图书,实用性比较好2。所以《科图法》在80、90年代得到广泛应用,主要被中国科学院系统图书馆、高等院校图书馆、厂矿企业图书馆以及科研系统文献情报机构所采用。

随着《中图法》的出版发行及流通使用,很多原来使用《科图法》的图书馆都纷纷改用《中图法》来类分图书,这样就形成了不同的文献藏书组织体系,为图书馆藏书和读者借阅书籍带来很多麻烦。这时就需要有一种转换机制可以实现《科图法》和《中图法》的互操作,使采用不同分类号类分的图书集中收藏,便于读者查询和借阅。所以本文选取《科图法》教育类作为实验数据之一,实现《科图法》到《中图法》的互操作,用户只要掌握《中图法》的分类号,就可以十分迅速、方便地得到相应的《科图法》的分类号。

(3)《杜威十进分类法》(DDC)

DDC是世界上流行最广、影响最大的图书分类法,经过逐步地修订、补充、提高和完善,先后开发和出版了“电子杜威”、“视窗杜威”、印刷版、光盘版和网络版WebDewey,至今已出版到第22版。目前,DDC已经被翻译成30多种语言,被全球超过135个国家和地区的图书馆采用来组织馆藏文献;并且DDC已与多部类表、词表实现了互操作。DDC是全球应用最广的分类法,而《中图法》是我国应用最广的分类法,所以非常有必要实现二者的互操作,从而更好地实现中、英文文献的共享。目前,很多OPAC(图书馆公共查询目录)数据都同时包括DDC分类号和《中图法》分类号,以及DDC中文版的翻译,都为该系统的研制提供了有利条件。所以选取DDC教育类目作为实验数据之一,实现DDC到《中图法》的互操作,用户可以通过《中图法》的分类号找到相应的DDC的分类号。

(4)《教育主题词表》

《教育主题词表》(以下简称《教词表》),是我国第一部全国通用的教育专业叙词表。它规范了教育文献的主题标引和检索用语,为编制主题检索工具,建立教育文献数据库,实现联机检索和资源共享奠定了良好的基础3。它是由教育专业人员与受控词表专业人员合作,采用分面叙词表模式编制而成的一体化词表。

《教词表》由字顺叙词表、分面分类表、英汉对照索引、轮排索引、附表5部分构成,其中,字顺叙词表是《教词表》的主要部分,收叙词3 011个、非叙词691个,共收词3 702个,内容涉及教育科学的各领域和若干相关学科;其叙词款目中有款目词、分类号、词号、英译名、注释及各参照项(代、属、分、参);各款目均按款目词的汉语拼音,用逐字法排列4。《教词表》是我国第一部教育专业叙词表,本系统目的是建立教育词库,所以首选《教词表》数据。

(5)《社会科学检索词表》

《社会科学检索词表》(以下简称《社科表》),是我国第一部专供社会科学资料标引和检索的工具书。该词表采用了分类主题一体化的编制模式。全表分字顺表、分类表、英汉对照索引、专有名词索引及轮排索引五部分,共收词30 000个,是我国社会科学领域第一部大型的综合性叙词表,其中的Q大类为教育大类。选取《社科表》作为一种主题词表,实现它到《中分表》的互操作,从而扩充词库,完成词库的构建。

(6)同现数据获取

本系统拟采用基于同现信息的统计方法来实现不同分类法之间的互操作,所以需要不同分类法的同现数据。《中图法》和《科图法》作为国内两大主要分类法,在中文的CNMARC记录中都有标记,690字段是《中图法》类号,692字段是《科图法》类号。因为需要教育类数据,所以在南师大图书馆中下载一批中文教育类的MARC数据,从中提取出同时含有690和692字段的记录。

通过对各高校图书馆外文书籍编目情况的调查和了解,一般图书馆对外文书籍都采用UNMARC格式编目,包括DDC分类号和《中图法》分类号,082字段是DDC类号,093字段是《中图法》类号。因为各个学校外文书籍数量有限,而教育类更是少之甚少,所以从多个学校下载外文教育类的MARC数据,从中提取出082和093字段,共收集到记录1 800条,经过整理合并后得到1 326条记录。

(7)自然语言数据的获取

自然语言主要是来自原始文献中反映文献主题的名词、概念、术语等,是不经过任何控制的关键词。本系统的关键词来源包括如下几部分:一是主题词表中的非主题词,包括《中分表》、《教词表》及《社科表》中的代项词;二是从《教育大辞典》、网页等文档中提取的语词以及用模式匹配识别出的同义词;三是从本实验室开发的“基于知识库的中文信息自动标引和自动分类系统”的知识库中抽取的关键词串;另外还可以由用户自己输入关键词,包括一些新词、未登录词等。

4.1.3 集成词库的结构

教育集成词库是由若干词表构成的一个兼容体系,是以《中分表》为核心,实现与各种分类语言、主题语言及自然语言之间的互操作。这个集成词库可以由多种形式、多种结构的众多兼容工具组成,本系统采用两种主要兼容结构形式:

字顺兼容矩阵:以每个主题概念为款目词纵向展示,即将《中分表》中的每个主题词或主题词串按字顺方式显示,并标明其相应的《中图法》分类号,把其他参与兼容的主题词表横向展示,统统与《中分表》的主题词或主题词串相对照,列出其等值兼容或近似兼容的一个或多个主题词。具体格式如下:

img43

分类兼容矩阵:以《中图法》分类号为主干竖向展示,即按分类号顺序显示《中图法》类目,并列出其对应的《中分表》中的专指主题词和附属主题词,把其他参与兼容的分类表和关键词横向展示。将参与兼容的分类表类号与《中图法》的类号相对照,列出其等值兼容或近似兼容的概念;并将与《中图法》类号相对应的关键词列出。具体格式如下:

img44

4.1.4 集成词库构建系统模块

根据集成词库构建的基本原理和流程,构建系统模块分为:分类法互操作,主题法互操作,数据查看,XML格式等模块,如图4-2所示。

img45

图4-2 集成词库构建系统模块结构图

(1)分类法互操作模块

该模块主要是完成不同分类法与《中图法》的互操作,具体技术包括同现映射技术及基于类目相似度映射技术两种,本系统主要实现了《科图法》、DDC与《中图法》的互操作,最终将两种映射结果合并去重,存储在分类兼容矩阵中。

(2)主题法互操作模块

该模块主要是完成不同主题法与《中分表》主题词的互操作,具体技术包括基于结构的自动匹配技术和基于同义词表的语词相似度匹配技术,本系统分别实现了《教词表》、《社科表》与《中分表》的互操作,映射结果合并去重后存储在主题兼容矩阵中。

(3)数据查看模块

该模块主要是基于上述两步生成的分类兼容矩阵和主题兼容矩阵,进行数据的浏览和检索。浏览功能主要是通过《中图法》分类号展开,可以查看其对应的分类表相关信息,还可以查看该分类号对应下的主题词与其他主题词表的互操作信息;检索功能提供了从分类号、主题词、关键词三种途径进行检索,此处检索的是《中分表》中的分类号和主题词,而关键词可以是用户输入的任意词,系统为其提供相关的受控词表。

(4)XML格式

该模块主要是实现数据库到XML文档的转换,包括两种格式:subject格式和subject-description格式,分别将分类兼容矩阵和主题兼容矩阵的数据进行合并,以XML文档格式提供给用户进行浏览。

不同分类法的类目、主题法的主题词及自然语言的关键词所表达概念的相似性或相关性是实现分类法、主题法、自然语言等互操作的理论基础。实现不同受控词表的互操作,就是要对这些受控词表的标识,即类目、主题词及关键词之间建立关联,确定它们的对应关系。

本系统综合国内外实现互操作的一些常用方法,如自动匹配、中介词典、集合词表、叙词词库、映射、翻译等方法,结合计算机技术,做一些改进和创新,通过解决各种受控词表之间的互操作,完成教育集成词库的构建。下面具体介绍不同分类语言、主题语言及自然语言和受控词表之间互操作的技术。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈