首页 理论教育 通用标记语言及相关标准的分析介绍

通用标记语言及相关标准的分析介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:通用置标语言标准SGML是一种元语言,是用来描述置标语言的语言,适用于电子文档交换、文档管理和文档发布。SGML是一种通用的文档结构描述置标语言,为语法置标提供了异常强大的工具,同时具有极好的扩展性,因此在数据分类和索引中非常有用。

5.3.4 通用标记语言及相关标准

早在20世纪60年代,IBM就开始研究通用标记语言(Generalized Markup Language,GML)来描述文件及其格式。1978年,美国国家标准局(ANSI)将GML规范成SGML(Standard Generalized Markup Language)标准。1986年,国际标准化组织(ISO)发布了SGML的正式文本SGML IS08879:1986,使SGML成为通用的描述各种电子文件的结构及内容的国际标准,为创建结构化、可交换的电子文件提供了依据。随着Internet的广泛应用,一种比SGML简单易用的超文本标记语言HTML(HyperText Markup Language)应运而生。由于HTML过于简单,只定义了唯一的文件类型,并且标记集不能改动,越来越显得不适应内容不断增多和形式多样化的Web文件。于是一种既简洁,功能又强大的SGML新子集——可扩展置标语言XML(eXtensible Markup Language)诞生了。

(1)通用置标语言标准(SGML)

SGML是一种元语言,是用来描述置标语言的语言,适用于电子文档交换、文档管理和文档发布。SGML从结构和内容两个层次来描述文献,其核心是文档类型定义DTD(Document Type Definition)。

利用SGML可以定义各种各样的置标语言,定义一种置标语言的方法是根据SGML的规则制定DTD文档,DTD文档规定了这类文档可能出现的置标及其组合规则。具体来说,SGML可以把来源不同的原始信息(如图形、文本、声音、动画、视频文件等各方面的资料)组装在同一文件中,DTD可以自由地定义文件结构,给一个文件添加新的标记,以反映文件结构单元,并校验电子文件是否遵循在DTD中所定义的结构。这种标记不依赖于任何软件和硬件。

SGML是一个庞大、复杂的系统,它的应用标准包括超媒体文档标记方面的超媒体语言HyTime(Hypermedia/Time-based Document Structuring Language)、文献样式语义和规范说明语言DSSSL(Document Style Semantic and Specification Language)、可扩展的样式语言XSL(eXtensible Style Language)、可扩展的链接语言XLL(eXtensible Linking Language)等。

SGML是一种通用的文档结构描述置标语言,为语法置标提供了异常强大的工具,同时具有极好的扩展性,因此在数据分类和索引中非常有用。但SGML复杂度太高,不适合网络的日常应用,加上开发成本高、不被主流浏览器所支持等原因,使得SGML在Web上的推广受到阻碍。

(2)超文本置标语言HTML

HTML是经过简化的SGML的DTD的具体应用实现。HTML提供了一种文本结构和格式,使其能够在浏览器上呈现给访问它的用户。HTML不同于一般的ASCII文件,是ASCII文件的一种增强版。它在文件中加入标签,使其可以显示各种各样的字体、图形及闪烁效果,还增加了结构的标记,如头元素、列表和段落等,并且提供了到其他文档的超级链接。HTML是Web上的通用语言,可以方便地制作网页、建立链接,使数据信息由线性组织转化成网状组织。

HTML为网络信息的出版和发布提供以下功能:

①出版在线的文档,其中包含了标题、文本、表格、列表以及照片等内容;

②通过超链接检索在线的信息;

③为获取远程服务而设计表单,可用于检索信息、订购产品等;

④在文档中直接包含电子表格、视频剪辑、声音剪辑以及其他的一些应用。

但随着网络的发展,HTML暴露出一些缺点,如:

①扩展性差。HTML是符合SGML语法的一种固定格式的超文本标记语言,因其格式固定,故难以扩展。

交互性差。用户需要与应用系统进行交互,而使用HTML却不容易做到。

③语义性差。在HTML的设计中,主要包含了反映其结构(如Title、H1、L1、P、Table等)、显示其格式(如B、I)的标记以及超链接,但没有考虑到语义性,使得HTML在信息资源的智能检索与对数据按照不同的需求进行多样化显示等个性化服务中受到限制。

(3)可扩展的置标语言XML

XML是由W3C于1998年2月发布的一种标准。它同样是SGML的一个简化子集,它将SGML的丰富功能与HTML的易用性结合到Web的应用中,以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。这样所组织的数据对于应用程序和用户都是友好的、可操作的。

作为SGML的应用模型或受限形式,XML要比HTML强大得多。HTML着重描述Web页面的显示格式,这是Web显示数据的通用方法,网页开发人员只能按预先定义的标签来描述网页中的元素;而XML着重描述的是Web页面的内容,提供了一个直接处理Web数据的通用方法,允许网页开发人员定义标签。XML介于HTML和SGML之间。

XML是一个元语言,根据不同的行业和语义,可以派生出许许多多的协议和规范。目前的基本协议有XML文档(由序言和文档实例两个部分组成)、DTD文档类型定义(一般采用外部DTD或混合DTD)、可扩展样式表语言XSL(XSL规范介于Web资源简单显示机制CSS和国际标准样式表语言DSSSL之间)、XML路径语言Xpath,XML指针语言XPointer和XML链接语言Xlink、XHT-ML、Schema等,不同的行业和领域都可以制定自己的XML规范,用于横向和纵向的信息交流和数据传输。XML规范有大有小,大的可以为全世界范围内的商务数据制定格式,像ebXML、Biztalk,eco,小的有专门用于电子钱包的ECML。有为数学制定的MathML,还有为多媒体数据同步制定的SMILa。

XML已经发展成为一个比较独立完整的知识体系,在这个体系中包含了非常丰富的内容。如:XML语法、XSL、可扩展链接语言(eXtensible Link Language,XLL)、XML用户代理(XML User Agent,XUA)、XML-HTTP、DOM和SAX,还有RDF、XTM、XP、XML的行业应用等。详细内容参看相关文献。

XML具有以下特点:

①QXML文档是纯文本,从文本编辑器到可视化开发环境的任何工具都可以对其进行创建和编辑,这使得程序可以更简单。

②基于内容的数据标识。

③可格式化。有了XSL以后,数据和显示是分离的,可以为同一数据指定不同的样式表进行输出。

④具有很强的链接能力,可以定义双向链接、多目标链接、扩展链接和两个文档间的链接。

⑤易于处理。XML对格式的定义更为严格,并具有层次结构,处理起来更加容易。

总之,HTML提供了查看数据的通用方法;XML则提供了直接在数据上工作的通用方法。XML的威力在于将用户界面和结构化数据相分离,允许不同来源的数据无缝集成以及对同一数据的多种处理。从数据描述语言的角度看,XML灵活、可扩展,有良好的结构和约束;从数据处理的角度看,它足够简单且易于阅读。因此,XML必将带来下一代网络应用技术的革命。

(4)MARCXML

长期以来,人们利用MARC21格式进行数据交换与资源共享取得了很大成绩。但MARC21毕竟是专业人员的专用格式,而且这种信息单元格式已无法适应互联网和数字图书馆的发展变化。若不经专用软件转换和处理,ISO2790格式的MARC21数据明显地存在以下缺陷:①直接上网显示,读者将无法识读,也不能使用通用的搜索引擎进行有效的检索;②不能通过新的XML通信协议交换和传输;③不能与其他的XML格式元数据无障碍地整合;④不便于与其他元数据进行格式转换;⑤不能利用大量的通用和成熟的XML或文本工具对数据进行处理。

为了既保持传统的MARC数据,又能使之适应新的互联网环境和数字图书馆新的标准规范,与其他格式的元数据有机整合,美国国会图书馆与OCLC、RLG一起协作,开发了MARC数据在XML环境下工作的框架。这种框架意在扩大MARC数据的应用范围,使MARC数据尽可能灵活地应用于其他领域(非图书情报领域)。该框架的核心是MARCXML模式,它允许在ISO2709的MARC21记录和用XML编码的MARC21记录之间无损地相互转换。图5-3显示了MARC21多种格式的转换思路和实现方法。

在推出MARCXML后,美国国会图书馆还提供了一套在MARC21记录与XML格式间转换的工具,便于MARCXML的应用。在国际标准方面,ISO TC46/SC4(信息和文献工作/技术协作委员会)在2003年提出要制定一个通用的、能够满足世界上所有遵循ISO2709的MARCXML+模式。2004年,丹麦推荐给ISOTC46/SC4一个称为“MarcXchange”的XML模式,随后在2005年ISOTC46/SC4发布了标准草案ISO/DIS25577,MarcXchange的主页由丹麦国家图书馆维护。在由美国国会图书馆接任MarcXchange的维护机构后,2008年MarcXchange正式成为国际标准ISO25577。

img164

图5-3 MARC21(2709)与MARC21(XML)记录的转换

资料来源:http://www.loc.gov/mods

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈