首页 理论教育 元数据的概念及作用的分析介绍

元数据的概念及作用的分析介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:元数据是组织数据、各种数据域以及它们之间的相互关系的信息。从目前使用的情况看,元数据的含义实际上与传统文献领域中的著录款目性质相同,是一种电子环境中使用的著录数据。根据元数据的定义,它最基本的功能就在于对信息对象的内容、特征和位置进行描述,从而为信息对象的存取和利用奠定必要的基础。根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户作出对信息对象取舍的决定,选择适合用户使用的资源。

5.3.3 元数据

(1)元数据的概念

元数据(metadata)是关于数据的数据(data about data),关于信息的信息(information about information),或描述数据的数据(data that describe data)。它是专门用来描述数据的特征和属性,也是描述和组织信息资源、发现信息资源的语言和工具。元数据是组织数据、各种数据域以及它们之间的相互关系的信息。元数据的类型包括:元素名称(Element names)、元素描述(Element description)、元素表示(Element representation)、元素代码(Element coding)、元素语义(Element semantics)和元素分类(Element classification)。

元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。由于传统的书目数据与数字信息资源的描述数据本质上并无不同,因此,目前元数据这一术语实际上适用于各种类型信息资源的描述记录。在信息资源组织的实践中,网络信息资源的描述数据是元数据,电子文本的描述数据是元数据,传统出版形式的编目数据也是元数据(例如我们前面介绍的MARC格式,它包含了诸如题名、作者、出版者、主题和载体描述等标记信息)。元数据描述的对象,包括各种不同资源类型,它们可以是图书、期刊、磁带、录像带、缩微品,也可以是其中的论文科技报告以及各种形式的网络信息资源等;描述的成分,通常是从信息资源中抽取出来的用于说明其特征、内容的数据,如题名、版本、出版数据、相关说明等。从目前使用的情况看,元数据的含义实际上与传统文献领域中的著录款目性质相同,是一种电子环境中使用的著录数据。因此本书将元数据与描述记录、文献记录作为同义词使用。信息描述的结果,是获得描述记录亦即元数据,用作信息资源的代替物组织检索系统。一个元数据款目构成一个信息资源的基本数据,是检索系统的基本构成单元,它可以代表信息资源用来组织目录、索引、数据库、搜索引擎等检索系统。信息描述的目的,就是以元数据为中介,对信息资源进行各种操作。其作用包括:

①描述。根据元数据的定义,它最基本的功能就在于对信息对象的内容、特征和位置进行描述,从而为信息对象的存取和利用奠定必要的基础。对信息对象描述的详简和深浅,随具体采用的元数据格式不同而不同。

定位。由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,由此可确定资源的位置所在,促进网络环境中信息对象的发现和检索,可提高信息资源的查准率和查全率

③搜寻。在著录过程中,将信息对象中重要内容抽取并加以组织,赋予语义,建立数据之间的联系,指出相关数据的地址和存取方法,从而有利于用户识别资源的价值,发现其真正需要的信息资源。

④评价。元数据提供有关信息对象的名称、年代、格式、制作者等基本属性,使用户在无须浏览信息对象本身的情况下,就能够对信息对象基本了解和认识,对信息资源的使用价值进行判断,作为存取与利用的参考。

⑤选择。根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户作出对信息对象取舍的决定,选择适合用户使用的资源。

作为信息资源描述规范,目前有很多元数据标准和方案,下面将介绍其中主要的几种。

(2)都柏林核心集

都柏林核心集(Dublin Core Element Set,Dublin Core)是一种通用简单的元数据(见表5-2)。

1995年3月,由OCLC和美国国家超级计算应用中心(NCSA)主持在美国俄亥俄州的都柏林(Dublin)召开了第一届元数据研讨会(简记为DC-1)。大会最后确定了一个包含13个数据单元(element)的元素集,即都柏林核心元素集(Dublin Core,DC)。在随后召开的多次研讨会上,来自图书馆界、档案界、计算机界、人文学界和地理学界的专家,以及Z39.50和通用标记语言标准(SGML)方面的专家学者对DC进行了不断的修正和完善,使得都柏林核心得到进一步的完善。迄今为止,DC已经被翻译成汉语、阿拉伯语、德语、法语、希腊语、日语、朝鲜语、葡萄牙语、西班牙语、泰语、土耳其语、意大利语、匈牙利语等20多种语言。在DC-3上,又新增了2个数据单元:Descrip t ion(描述)和R igh ts(权限),使得DC由原来的13个单元增加到15个单元。这15个数据单元是可选择、可重复和可扩展的。下表为Dublin Core的15个数据单元及其描述。

表5-2       都柏林核心集数据单元

img160

续表

img161

续表

img162

以上的15个元素可分为三种类型:与资源内容有关的元素、与资源知识产权有关的元素和与资源外部属性有关的元素(见表5-3)。

表5-3       都柏林核心集元素类别

img163

Dublin Core和目前互联网上使用的其他元数据相比,具有如下的主要优点:

①简单易懂:15个标记元素通俗易懂。

②运用灵活:它既可以用于规范的资源描述领域,也可以用于非专业领域。

③国际通用:已有德语、日语、葡语、西班牙语等20多种不同语种的版本。

④可扩展性:不仅15个标记元素和子元素可扩展,Dublin Core还可以与其他元数据元素连接使用。

自1995年第一届元数据研讨会举办以来,关于都柏林核心元数据的研讨会每年召开,截至2009年已经召开了17次(1996年、1997年分别召开了2次会议)。每次会议都取得了丰硕的研究成果,并不断把研究和相关应用引向深入。

(3)其他元数据规范

目前,元数据的应用已经渗透到诸多的行业和领域,如书目组织、科学技术、人文艺术、医学、商业、教育等。这些描述规范一般由相应信息资源领域的专业人员制定,与电子环境下使用的需要结合,成为与传统文献描述规范共存的标准。不同的信息资源收藏,对元数据格式的要求不同。因此,现在用于网络数字资源组织的元数据标准有多种,尚没有可以为各方都接受的统一标准。目前,数字图书馆常用的元数据标准有:MARC(美国的USMARC、国际标准UNIMARC、中国的CNMARC、日本的JMARC、英国的UKMARC、加拿大的CANMARC、东南亚的SEA-MARC)、都柏林核心数据(Dublin Core)、VRA核心类目(VRA Core Category)、艺术作品著录类目(Categories for the Description ofWorks of Arts)、CDWA、REACH著录单元集合(REACH Element Set)、PICS、Web Collections、CDF、MCF、RDF等。另外,还有《政府信息定位服务》(Government Information Locator Service,GILS)、《联合地理数据委员会的数字地球空间元数据》(Content Standard Digital Geospatial Metadata,CSDGM)、《可视资源核心范畴》(Core Categories for Visual Resources,CCVR)、《编码档案描述》(Encoded Archival Description,EDA)、《博物馆信息的计算机交换》(Computer Interchange of Museum Information,CIMI)等描述规范。

VRA核心类目的全称为“VRA视觉资料核心类目”(VRACore Categories for Visual Resources),简称VRACore,是由美国视觉资料协会(Visual Resource Association)1995年制定的,最初是为在网络环境下对艺术、建筑、手工艺术、民间文化等艺术类视觉资料的著录而起草,以后逐渐扩大应用到非艺术类领域。VRACore格式的著录类目可以分为两类:一类是可用于任何一种作品实体或某种视觉文献所记载的原始作品(多为三维作品)著录的类目(Work Description Categories),包括19个数据单元;另一类是用于记载某一种作品实体的视觉文献特征的视觉文献著录类目(Visual Document Description Categories),它包括9个数据单元:视觉文献类型、视觉文献格式、视觉文献尺寸、视觉文献出版日期、视觉文献收藏者、视觉文献收藏号码、视觉文献视点描述、视觉文献主题、视觉文献来源。

PICS(The Platform for Internet“Content Selection”),是W3C(WWW Consortium)于1995年组织开发的一种元数据标准。PICS最大的特点是引入了内容分类定级机制。不同的组织可以根据它们的目的以及价值取向,对Internet上的资源进行分类定级。

Web Collections是较早利用XML应用环境建立起来的一个元数据框架。它采用了与HTML语言相似的样式风格,其数据可以紧紧地嵌入到HTML文档中,便于用户使用。它还引入了一种表示元数据的层次结构的方法,可用于Web页面、Web Map,E-mail,内容标引、分布式创作等多种应用场合。

CDF频道定义格式(Channel Definition Format),是Microsoft提出的一种元数据规范。CDF借助于HTML语法来对其频道内容进行描述,当浏览者接入到该频道后,这些元数据就会展现出来。

MCF元数据框架(Meta Content Framework),是1997年Netscape公司向W3C提交的一种元数据方案。MCF力求实现一种“单一的数据模式和相应的互换格式”的元数据框架。其兼容性和包容性好,并允许动态地扩展新的数据类型。

RDF资源描述框架(Resource Description Framework),是为解决现存的各种元数据之间的互操作性(interoperability)问题,由W3C主导、结合多个元数据团体(如Dublin Core等)发展而成的一个框架体系。RDF是一个能对结构化的元数据进行编码、交换、再利用的体系框架,它为元数据提供了一个可操作的载体,提供了在各种不同的元数据体系之间的互操作性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈