首页 理论教育 数字信息资源建设与服务的技术保障体系

数字信息资源建设与服务的技术保障体系

时间:2022-03-10 理论教育 版权反馈
【摘要】:数字信息资源建设与服务是伴随着数字信息技术的发展而不断提升的。在这一阶段,技术的主体是数字化技术和信息存储技术,具体为OCR识别技术、数据库技术、文本检索技术。数字信息资源建设与服务是综合性的,它不仅包括关键技术研发,而且包括信息技术在管理层面的组合和集成。①信息存储技术。Centera系统采用了一种被称为内

10.4 数字信息资源建设与服务的技术保障体系

10.4.1 数字信息技术发展现状

数字信息资源建设与服务是伴随着数字信息技术的发展而不断提升的。从数字信息资源建设模式来看,主要可划分为三个阶段(58),技术也贯穿其中并不断发展。第一阶段主要是建立数字化资源系统,它们往往作为独立系统嵌入到传统图书馆系统或上层机构信息系统中,将跨时空检索和传递特定数字化资源作为主要任务。在这一阶段,技术的主体是数字化技术和信息存储技术,具体为OCR识别技术、数据库技术、文本检索技术。第二阶段是基于集成信息服务的数字资源体系,致力于支持分布的数字信息系统间的互操作、无缝连接和信息共享。它不再以文献数字化和具体资源库建设为核心,而主要是面向分布和多样化数字信息资源,通过服务集成构造统一的信息服务系统,这也是目前数字信息技术研究、应用试验和开发的主要趋势。在技术体系上提出了包括虚拟资源体系建设、跨系统多系统检索、分布式使用管理、分布式权益管理、分布式数字参考咨询服务、长期保护协调等任务,具体实现上主要包括数字水印技术、防火墙技术、多媒体检索技术。第三阶段是以用户利用为核心的阶段,即在分布式数字资源系统和集成信息服务体系基础上,通过一定的个性化定制机制形成适应用户或用户群组需要的动态过滤、析取和组合的资源、工具和服务集合。这一阶段的技术体系尚未完全构建,但其中个性化技术、智能代理技术、数据挖掘技术、RSS技术、网格技术等已成为数字信息建设的热点问题。

在数字信息技术取得重大进展的同时,我们可以看到发展思路上存在的不足,主要是:技术先导性不足,技术发展滞后于信息建设需求,总是在实践发展到一定阶段才开始认识到先期技术的局限;技术标准化还有所欠缺,如浏览器技术,很多数字信息提供商各行其是,在技术发展到一定阶段又不得不再次进行标准化,造成了前期研发的浪费。在具体技术上,界面技术还不完全成熟、交互性差;信息组织与分类不够规范,搜索功能不强;检索技术的专指性较差,语义检索、智能检索还有待提升;中文信息自动切分目前还亟待解决;为个体化用户服务技术还未充分开展(59)

10.4.2 构建数字信息技术保障体系的原则

数字信息资源建设与服务的发展有赖于一个强有力的技术保障体系,这个保障体系的构建应该遵循以下原则:

(1)服务导向原则

数字信息资源建设的根本目的是充分有效地满足用户的信息需求,通过信息技术的研发达到快速、便捷、可靠地检索、组织、利用和交流信息的最终目标。因此,信息技术发展就应以服务为导向,避免陷入“技术员陷阱”即不要单纯追求技术的先进性,而是以人为本,考虑用户的显在和潜在的需求,开发适用性和具有一定先导性的技术来满足这些需要,并以是否有利于整体服务机制的有效形成、长期稳定运行和可持续发展作为技术评定的基本条件。在技术研发的同时,也要注意对基本资源利用机制与服务系统的建设(60),实现技术体系和管理服务体系的完美结合,共同实现数字信息建设的最终目标。

(2)交互性原则

在Web2.0环境中,用户不再是被动接受信息和服务的群体,而越来越具有主动参与和相互交流的特质和能力。信息技术体系必须重视这一变化,在系统建设中吸收用户参与和交互。这种交互包括在技术发展导向上探寻用户需求、吸引用户参与联合建设,在系统性能上征求用户测试,在系统评价上接受用户报告,通过系统研发与用户的双向交流互动,不断调适信息技术体系,使技术能更好地满足用户需求。

(3)系统性原则

数字信息资源建设与服务是综合性的,它不仅包括关键技术研发,而且包括信息技术在管理层面的组合和集成。信息技术应在统一而全面的理论框架下跨越整个数字资源信息建设和服务的总体过程,从这一整体思路考虑,信息技术体系应规划为资源加工整合系统、资源管理存储系统、资源互联调度系统、用户查询服务系统、信息安全与版权保护系统等若干个子模块(61),同时要注意这些模块之间的有效衔接以及与总体目标的合理联系,构筑整体效益最大化的信息技术体系。

(4)开放性原则

开放性原则体现在三方面:第一,在信息技术发展中要加强与国内外的合作与联合,充分利用已有的技术成果,积极吸收他人的经验教训,积极构建数字图书馆技术联盟共促技术交流与合作;第二,在技术推进主体上,除了项目管理单位外,还要吸收社会相关机构来共同实施,可通过公开招标和邀标来确定承担机构,通过多个机构的开放合作来实现既定目标;第三,在技术规范上要强调开放性建设,采用和适应国际国内标准和规范,要认识到独创性与标准化并不冲突,而是在标准范围内进行的创新

(5)法制原则

在数字信息资源建设和服务过程中涉及的法律问题越来越成为影响其发展的重要因素,因此,数字信息技术的研发和应用应遵守国家有关法律法规和国际规则,避免技术滥用对知识产权、个人隐私权、信息自由权等的侵害,同时通过技术限制达到信息过滤、信息安全保护,确保法律法规的技术实现。

10.4.3 数字信息资源建设与服务技术保障体系的主要内容

(1)信息存储和保存技术

数字信息海量增长带来的首要问题就是信息资源的存储和长期保存问题,存储技术除了确保信息的存储容量外,还要考虑数据读取的速度、完整性、可用性等运行状况。为了在瞬息万变的数字环境中保证信息稳定和持续有效,长期保存技术成为必需。数字信息长期存取面临着三大挑战:存储载体不耐久、读写信息的计算机软硬件过时、数字信息内容不真实完整。应对这三大挑战,人们提出了仿真技术、数据迁移技术、数字图形输入板技术和再生保护技术。

①信息存储技术。直接连接存储(DAS)通过SCSI接口或光纤通道一对一地将存储设备直接连接到应用服务器上,存储设备无独立的存储操作系统,所有的存储操作都要通过服务器CPU的I/O操作来完成(62)。适用于服务器在地理分布上很分散,存储系统必须被直接连接到应用服务器上的情况(63)

网络连接存储(NAS)采用以太网和SCSI的即插即用存储技术将存储设备通过标准的网络拓扑结构,连接到一群计算机上。它可以无需服务器直接上网并且不依赖通用的操作系统,使整个系统的管理和设置较为简单,适用于文件系统和Web服务系统的存储和共享优化存储(64)

存储区域网络(SAN)是独立于服务器网络系统之外的高速存储网络,采用高速的光纤通道作为传输媒体将存储设备与一群服务器连接,专用于存储,通常由RAID阵列、带库、光盘库和光纤交换机组成(65)

内容寻址存储(CAS)的架构基于一种名为“Centera”的新型存储服务器,特别针对大量固定内容的存放和检索流程进行了优化。Centera系统采用了一种被称为内容标签寻址的方式,标签通常指向已播出的广播、影视节目,医学检查图像,视频媒体,固定文档等参考文件,相当于一种数字指纹,可以使Centera存储服务器更容易查找到上述参考文件(66)(67)

②信息长期保存技术。仿真技术是制造一种能运行过时软硬件的软件,以建立一个兼容原始数据、设备及其管理系统的运行环境,使得原来的数据、设备和系统能运行在现行的软硬件系统上,如IBM公司设计的通用虚拟计算机(UVC),这是一种延迟技术淘汰的方法。

数据迁移技术是根据软件、硬件的发展将数字资源迁移到不同的软件或硬件环境下,从而保证数字资源可以在发展的环境中被识别、使用和检索。目前经常采用的迁移方式主要有两种:将数字信息从稳定性低的媒体上迁移到稳定性更高的媒体上,从对软件依赖性强的格式迁移到对软件依赖程度低的格式上;二是将数字馆藏从各种不同格式迁移至易于管理的最简单且符合标准的格式(68)

数字图形输入板技术以光为能源或自带电源,自身备有屏幕并能将屏幕上的信息自动转化为数字信息进行存储,存储能力达数百上千TB字节。比较适用于文献和数据库的长期存取,如年度报告、政府法律文献、珍贵艺术品等,而对于一些用途有限、需要定期删除的文献则适合采用迁移策略(69)(70)

再生保护技术是指将技术过时的数字信息适时地转移到缩微品或纸上的方式。这种方法为长期保存数字信息提供方便并避免计算机软硬件技术过时所带来的任何麻烦,但它对于多媒体信息则无能为力。

(2)信息组织和检索技术

信息的分布式存储和集成检索是数字信息资源建设的发展方向,为此,信息技术的目标就是实现信息的集成组织、无缝连接和跨库检索。目前主要的技术包括:

①自动分类技术。信息自动分类技术是根据信息的内容或属性将大量信息归到一个或多个类别的技术过程,其核心分为文本表示技术和文本分类技术。文本表示模型又有多种,常用的有布尔逻辑型、向量空间型、概率型等,其中向量空间模型是近年来流行的文本表示法。向量空间表示首先要确定对分类聚类有实质贡献的词项,其次是量化,就是对已形成的词项在文档中出现的情况进行量化和加权(71)。自动分类技术就是实现类别映射的方法,可分为TFIDF方法、基于概率和信息理论的分类器和基于知识学习的方法(72)

②异构检索技术。异构检索是借助单一的检索接口,利用同一的检索方法,实现对分布式、异构信息资源的检索。为实现异构检索功能而采用的技术包括元数据获取技术、资源选择技术、检索式转换技术、结果整合技术和自动参考链接技术等(73)。网格技术在实现异构检索中探讨较多,将分布在不同地理位置的资源通过网络进行集成,能帮助用户在较短时间内把需要的数据从不同的数据库中找出来综合在一起,为实施知识发现提供支持。现在的网格技术基本采用由全球网格论坛(GGF)开发的Globus工具包作为标准开发平台(74)

②语义检索技术。网络上音频、视频、图像等多媒体信息资源的增加给信息检索技术提出了新的挑战,因为多媒体信息具有丰富的内涵,很难用文档完全概括,同时文档描述有很大的主观性,这就要求基于语义的检索。它包括语义元数据生成与管理层、数据存储与管理层和应用层三层体系结构(75),在对数据抽取、标注和采集的基础上,建立索引和聚类模块,提供基于内容语义的强大检索功能。目前这种技术还刚刚起步,在现行方案中,IBM的QBIC(Query By Image Content)是一个成功的系统。它提供对静态图像和动态图像不同的技术。在静态图像中,QBIC通过对颜色、形状、纹理、草图等多方面的途径进行检索;在动态图像中,通过物体或摄像机运动,或分镜头检测、层描述、运动估计等手段对图像进行检索(76)

(3)信息安全技术

信息安全技术的目的就在于提供一套系统,使网络信息资源的存储、传输和开发利用处于一个有充分安全保障的环境里。根据国际标准化组织提出的开放系统互联安全体系,信息安全技术必须提供访问控制安全服务、对象认证安全服务、数据保密性安全服务、数据完整性安全服务和防抵赖性安全服务(77)

①信息加密技术。即密钥技术,在数据通信过程中,将原始信息(明文)按照收、发双方共同约定的一种特殊编码(算法、密钥)变换成密文进行传送,经过接收方的解密,实现信息的安全、正确交换(78),这是一种主动的信息安全保护技术。

②身份认证技术。身份认证技术主要包括数字签名和数字证书。用发送方的私钥加密消息摘要,然后将其与原始消息附加在一起发送,称为数字签名(79)。数字证书是非对称加密体制下的一种权威性的电子文档,由CA中心(Certificate Authority)发行,内容一般包括证书持有人的身份信息、发布证书机构的数字签名和身份信息、证书持有人的公开密钥、数字证书的有效期、证书类别和数字证书的号码等(80),用于标识和证明通信双方身份及其公开密钥的合法性。

③安全防范技术。主要包括防火墙技术、入侵检测技术和病毒防治技术。防火墙技术是在互联网与内部网之间建立起一个安全网关,对内外部网络之间的信息流通行为进行控制。入侵检测技术通过从计算机网络系统中的若干关键点收集和分析信息,检查网络中是否有违反安全策略的行为和遭到袭击的迹象,提供对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵(81)。病毒防范技术包括硬件防范和软件防范。硬件防范的主要形式有在服务器上装载防病毒模块、在计算机上安插防病毒卡、在网络接口卡上安装防病毒芯片等。软件防范是利用防病毒软件,定期扫描计算机,防止可执行文件被改写,禁止程序直接写入磁盘引导区(82)

(4)知识产权保护技术

①数字水印技术。数字水印是用信息处理的方法在数字化信息中嵌入只有通过专用检测器或阅读器才能提取的隐蔽标记。数字水印技术,就是将代表数字媒体著作权人身份的特定信息、用户指定的标志或序列码等信息以数字水印的形式,按照某种方式嵌入被保护的信息中,在产生版权纠纷时,通过相应的算法提取出该数字水印,验证版权的归属,并可作为鉴定、起诉非法侵权的证据,从而确保媒体著作权人的合法利益,避免非法盗版的威胁(83)(84)

②安全容器技术。安全容器技术是将信息内容进行安全封装的技术手段,目前主要有InterTrust的DigiBox技术和IBM的Cryptolope技术。其中,前者在技术上处于领先地位,是一种安全的内容封装程序,把重要的数据和有关的使用规则储存在名为“数据盒”的加密文件里,使用规则是有关数据的控制内容,在最新的数据盒内容上集成数字水印技术(85)

③移动Agent技术。移动Agent是代码、数据和执行环境的封装,它可以在执行过程中在计算机网络中自治、有目的地迁移,并且能响应外部事件,在迁移过程中保持其状态的一致性,将是未来的一种纯技术软件的解决方案。它有两种方式:一是将内容作为移动Agent,另一种是将内容交易双方之间签订的数字条约作为移动Agent。

④数字版权管理技术。数字版权管理技术(Digital Right Management,DRM)从本质上说是许可证管理技术,通过对数字内容进行加密和附加使用规则对数字内容进行保护。DRM技术包括功能结构和信息结构两类关键结构:功能结构指DRM系统的高层模块或组件,这些组件通过协作能提供产权的端对端管理;信息结构是指对DRM系统内部实体及其关系的建模(86)

(5)信息服务技术

伴随着web1.0向2.0的发展,信息服务模式逐渐从单纯的“读写”向“共同建设”发展,从被动的接受信息向主动创造信息转变,在技术上更强调主动性的推动、挖掘和体验。

①数据挖掘技术。数据挖掘是利用各种分析工具在海量数据集中识别出先前未知的、完整有效的、新颖的、潜在有用的以及最终可理解的模式的过程(87)。数据挖掘技术是数据挖掘的具体实现,包含人工神经网络、决策树、规则归纳、最邻近技术和可视化技术等多种技术的综合运用(88)。目前在数据挖掘领域已有许多成熟、易用的产品,例如美国SAS研究所开发的统计分析软件SAS,微软公司的SQL Server 2000分析服务,IBM公司的Intelligent Miner、SPSS Clementine等(89)

②智能代理技术。智能代理的要点是,用户将自己的信息需求提交给智能代理程序,智能代理程序通过“自动学习”,理解用户的细腻需求并自动在网上检索、分析、处理页面,对于检索出的结果则按信息用户的需求和思维方式进行处理和优化,将最终结果反馈给用户(90)。RSS是当前流行的智能代理技术。它以XML为技术标准,使不同站点可以共享彼此的内容,进而使网上的众多信息按读者的需求和定制汇集到单一界面的技术平台。信息聚合、信息推送和信息定制是RSS的三大基本功能(91)

③信息推送技术。信息推送技术是一种信息获取技术,是信息服务公司或网络公司通过一定的技术标准或协议,从网上的信息资源或信息加工者那里获取信息,然后通过固定的频道向用户发送信息的新型信息传播系统,其发展方向是结合数据挖掘技术、智能Agent技术形成智能信息推送技术。信息推送技术的形式可分为基于Internet的信息推送和基于智能数据库的信息推送两种类型。基于Internet的信息推送主要有通知、提要、自动拉出、自动推送、频道式推送、网页式推送和专用软件式推送等方式(92)。基于智能数据库系统的信息推送主要采取操作式样推送、触发式推送方式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈