首页 百科知识 大数据技术在档案信息化中的应用

大数据技术在档案信息化中的应用

时间:2022-03-20 百科知识 版权反馈
【摘要】:大数据对存储技术提出的另一挑战则是多种数据格式的适应能力。大数据时代带来新的技术,为档案工作者提供解决问题的方式。依托互联网技术,全方位地实现档案信息智能检索服务、档案信息决策服务及档案信息跟踪与推送服务。(四)大数据技术应用于档案信息化需注意的问题1.大数据技术实现问题大数据技术相比传统技术更为复杂。
大数据技术在档案信息化中的应用_档案信息化建设

(一)大数据概念探析

大数据的起源可以追溯到2000年前后,互联网网页以每日约700万个的速度呈现爆发式增长,在2000年底全球网页数达到40亿个之多,用户在互联网上检索准确信息也变得愈发困难。谷歌公司为提高用户使用互联网的效率,率先建立了覆盖数十亿网页的数据库,成了大数据应用的起点。而大数据技术的源头,则是谷歌公司提出的一套以分布式为特征的全新技术体系。

大数据从出现至今,一直都是全社会关注的焦点,至今仍无公认的定义。对于大数据,可以从资源、技术、应用三个层次理解,“大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。”大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

(二)大数据关键技术

从数据在信息系统中的生命周期来看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。对于数据准备环节和知识展现环节来说,大数据所带来的变化只体现在量上,而对于数据分析、计算和存储三个环节则有较大影响,需要重构技术架构和算法,而这也将成为当前和未来一段时间内大数据技术创新的焦点。

1.数据准备环节。大数据数量庞大、格式多样,质量也良莠不齐,因此在数据准备环节必须对其进行格式的规范化处理,为后续的存储与管理奠定基础。此外,要在尽可能保留原有语义的情况下去粗取精,消除数据噪声。

2.数据存储与管理环节。当前全球数据量以50%的速度不断增长,数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。谷歌文件系统(GFS)和Hadoop分布式文件系统HDFS(Hadoop Distributed File System)采用分布式架构,弥补了传统存储系统的不足,同时能够达到较高的并发访问能力。

大数据对存储技术提出的另一挑战则是多种数据格式的适应能力。格式多样化是大数据的主要特征之一,因此大数据存储管理系统必须满足对各种非结构化数据进行高效管理的需求,非关系型数据库(NoSQL,NotonlySQL)应运而生。如谷歌Big Table和Hadoop HBase等都是典型的非关系型数据库,具有良好的包容性,能够应对非结构化数据多样化的特点。未来,大数据的存储管理技术将进一步把关系型数据库的操作便捷性特点和非关系型数据库灵活性特点结合起来,研发新的融合型存储管理技术。

3.计算处理环节。大数据的计算是数据密集型计算,对计算单元和存储单元间的数据吞吐率要求极高,对性价比和扩展性的要求也非常高,分布式并行计算技术弥补了传统并行计算系统在速度、可扩展性和成本上的不足,适应大数据计算分析的新需求。

4.数据分析环节。数据分析环节是大数据价值挖掘的关键。目前大数据分析主要有两条技术路线,其一是凭借先验知识人工建立数学模型分析数据;其二则是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工,获得从数据中提取知识的能力。人工智能和机器学习能够更好地适应当前的大数据环境,具有良好的前景。

5.知识展现环节。在大数据服务于决策支持场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让分析结果易于理解是主要挑战。但是在嵌入多业务的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无须人工干预,这种场景下知识展现环节则不是必需的。

(三)大数据对档案信息化的保障

1.档案数据高效存储保障

目前,馆藏数字档案量已经从TB级别跃升至PB级别,仅以“十一五”末我国馆藏档案总量的统计看,已经达到近4亿卷,每卷平均约3厘米厚。与此同时,科技进步衍生出的数据呈现出了分布式和异构性特点,需要归档的数字资源繁多,包含结构化、非结构化和半结构化数据。非结构化数据,如文本、图片、各类表格、图像和音视频等,半结构化数据,如E-mail、HTML文档等,都不便于使用关系数据库二维逻辑表来表现。

传统关系型数据库已经无法满足对数量庞大、类型多样的档案资源的组织与管理需求,需要引入大数据管理系统对档案进行分布式存储、快速检索。大数据存储方法有很多种,如Hadoop、NoSQL,都具有一些共同的特点,即利用硬件的优势,使用可扩展的、并行的处理技术,采用非关系模型存储处理非结构化和半结构化的数据,并对大数据运用高级分析和可视化技术。

2.档案数据价值挖掘保障

在档案数字资源中,不同的档案数据中蕴含的价值存在差异,有可能导致用户获取价值信息的难度增大。如何从这些资源中提炼、挖掘出有价值的档案信息,并以人们易于接受的方式传递给用户,是目前档案工作者必须解决的问题。

大数据时代带来新的技术,为档案工作者提供解决问题的方式。档案工作者可以采用大数据技术,在海量档案数据中发现关联,从不同角度对其进行聚类和分类,以多维度、多层次的方式展现档案数据,将非结构化数据转换为结构化、半结构化数据,从而使用户更准确、更容易获得档案信息。必要时,还可以通过可视化技术,形成图形图像,直观地展示最终结果。从海量数据中分析潜在的知识决定着大数据时代档案工作的发展水平及方向,这也意味着大数据时代,档案工作的重心将向档案资源的数据分析、数据挖掘方向转移。

3.档案数据高效利用保障

档案工作的目的是提供利用。大数据时代下的档案工作服务讲求时效性和便捷性,基于大数据技术可为实现网络信息服务的智能化、个性化、精品化提供支持工具。依托互联网技术,全方位地实现档案信息智能检索服务、档案信息决策服务及档案信息跟踪与推送服务。利用这些技术手段,彻底颠覆传统档案分类在档案管理中存在的诸多弊端,将档案事业发展推向又一个全新的高度。

(四)大数据技术应用于档案信息化需注意的问题

1.大数据技术实现问题

大数据技术相比传统技术更为复杂。不同于传统的档案管理技术,档案大数据管理系统通常是一个由很多节点组成的分布式系统,实现起来较为困难。档案管理工作者需要打破专业限制,寻求与专业的具有相应资质的大数据开发公司合作,将行业的需求和大数据技术结合起来,才能开发出适合档案行业特点的大数据平台。另外,我国纸质档案数字化形成的绝大多数都是文字图像,不便于大数据技术的处理,应当将文字图像通过OCR识别,生成文本文件,并尽可能提高识别的准确率,为档案大数据处理创造条件。

2.信息安全问题

档案是不可再生的社会核心信息资源。但有时人为的操作失误、系统技术故障、计算机病毒、黑客攻击、间谍窃取等原因都会造成档案数据的破坏,给机构甚至国家带来巨大损失。因此,在实施大数据技术时,要重点加强信息安全保障体系建设,采取各种安全技术措施,保证档案数据的完整与安全。

3.保密问题

大数据时代下,档案信息主要通过网络进行传输,容易被复制和扩散,导致档案信息资源在开发和利用过程中可能出现信息泄漏、隐私权侵犯、知识产权纠纷等隐患。对于国防、军事、科技等领域来说,档案涉密层次高,一旦泄密将直接危及国家安全。如何实现涉密档案信息资源的合理利用,既充分发挥涉密档案的价值,又保证涉密档案的安全,是大数据时代档案管理面临的重大挑战。

大数据时代的来临,相比其他信息技术更加契合档案信息化建设工作的需要,尤其是在当前的知识经济时代,将档案信息转化为知识资源,会成为新时期档案工作的必然发展方向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈