首页 理论教育 信息资源的数字化加工技术

信息资源的数字化加工技术

时间:2022-04-12 理论教育 版权反馈
【摘要】:RDF对网络信息资源组织与检索有重要意义,由于RDF本身用XML语言标记,可在任何基于XML的系统平台上方便地解析,从而提供了统一的、机器可读的元数据标记和交换机制,能够描述网站、网页、数字图书馆或电子出版物等网络资源的内容及内容之间的关系。OCR数字化加工系统,是以OCR识别技术为核心,结合强大的网络功能,实现海量纸质文件的快速录入。

(一)元数据

元数据(metadata),最常见的英文定义为“data about data”,含义是“关于数据的数据”或“描述数据的数据”、“关于数据的结构化数据”,是为帮助查找、存取、使用和管理信息资源的信息。

具体来说,元数据是用来描述数据本身的内容特征和其他特征的数据,其目的是:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。由于元数据起着对对象数据进行描述、定位和指示的功能,因此在由分布式、多类型、海量数字资源有机构成的数字图书馆中,元数据作为规范的描述和整合的工具与纽带,在数字图书馆资源描述、资源发现、资源处理、资源评价与排序以及资源的人机交互和理解等方面起着重要的作用。

(二)可扩展标识语言(XML)

XML(extensible markup language)是万维网联盟开发出来的用于网络环境下网页设计和交换、管理的新技术。它是一种元数据语言,译作“可扩展标记语言”。XML最大的特点就是其可扩展性,可以将数据的存储和数据的显示分离,同时可以轻易地完成不同元数据格式间的相互转换,具有连接各种元数据格式的重要作用,因而逐渐被各种元数据格式所采用。对于电子资源著录的结果就可采用XML建立中央数据库,数据库中每条记录就是一个网页的元数据。既采用了可供人阅读的文件形式,又采用了可供程序理解的数据形态,具有记述文件和数据的两面性,实现了人机共享的目标。

(三)资源描述框架(RDF)

RDF(resource description framework)是用来描述资源及其之间关系的语言规范,它通过描述对象属性值三元组关系体现相关事物的信息内容,对信息内容可进行语义化的描述。RDF对网络信息资源组织与检索有重要意义,由于RDF本身用XML语言标记,可在任何基于XML的系统平台上方便地解析,从而提供了统一的、机器可读的元数据标记和交换机制,能够描述网站、网页、数字图书馆或电子出版物等网络资源的内容及内容之间的关系。

(四)OCR技术

OCR(optical character recognition)即光学字符识别,是指通过光学技术对文字进行识别,即通过扫描和摄像,进行光电转换,获取纸张上的图像信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储在文本文件中。OCR数字化加工系统,是以OCR识别技术为核心,结合强大的网络功能,实现海量纸质文件的快速录入。OCR技术的发展,为原始数据的转换提供了极大的方便。

(五)图像文件处理

所谓图像文件,就是指由应用软件制作或由专用设备录入的图像,以某种格式存储的文件,图像文件是数字化信息资源的一个重要部分。图像文件的收录可采用数码相机录入、扫描仪录入、软件制作等,常用格式有JPEG、GIF、PSD等。图像文件的处理可采用Photoshop、ACDSee等主流图形处理软件来进行处理。

(六)数据存储技术

数字图书馆的建设和运作对数据的共享备份和高速存储访问具有很高的要求,数据系统既要能够支撑数字图书馆数据的海量增长,又要能够适应当今网络环境复杂性和扩展性不断提高的趋势。目前数字图书馆的存储设备技术主要有光盘、磁带库、磁盘阵列、DAS(direct attached storage)、网络附加信息存储(network attached storage,NAS)、信息存储区域网络(storage area network,SAN)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈