首页 理论教育 大数据技术

大数据技术

时间:2022-05-01 理论教育 版权反馈
【摘要】:大数据的诞生是信息技术发展的必然结果。但是,针对各种类型、各种应用的大数据特点,如何保证一致性、精确性、完整性、统一性、时效性、真实性,并且保证可行的处理效率,目前的技术工具和手段尚未臻于成熟。Spark有望成为与Hadoop平台共存的新一代的大数据处理系统和平台。③内存计算将成为高实时性大数据处理的重要技术手段和发展方向。

大数据的诞生是信息技术发展的必然结果。互联网的出现及深入应用,让数据得以大量产生及聚集,并为数据采集及集成奠定基础;云计算的出现为大数据提供了存储空间和访问渠道,物联网和移动互联网则成为大数据的加速器;智能终端的普及则为大数据的商业应用补齐了最后一块短板。

根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视化技术和大数据隐私与安全等几个方面。

1.大数据采集与预处理 根据Map Reduce产生数据的应用系统分类,大数据的采集主要有4种来源:即管理信息系统、Web信息系统、物理信息系统、科学实验系统。针对管理信息系统中异构数据库集成技术、Web信息系统中的实体识别技术和Deep Web集成技术、传感器网络数据融合技术已经有很多研究,取得了较大的进展。许多公司已经推出了多种数据清洗和质量控制工具,例如,美国SAS公司的Data Flux、美国IBM公司的Data Stage、美国Informatica公司的InformaticaPower Center。但是,针对各种类型、各种应用的大数据特点,如何保证一致性、精确性、完整性、统一性、时效性、真实性,并且保证可行的处理效率,目前的技术工具和手段尚未臻于成熟。

从发展趋势方面,大数据采集与预处理方面的关键技术有:数据源的选择和高质量原始数据的采集方法、多源数据的实体识别和解析方法、数据清洗和自动修复方法、高质量的数据整合方法、数据演化的溯源管理。

2.大数据存储与管理 要解决大数据环境下的存储与管理问题,从信息技术的角度,就是要研究存储与管理软件技术。目前最适用的技术是分布式文件系统、分布式数据库以及访问接口和查询语言,其发展趋势是大数据索引和查询技术、实时/流式大数据存储与处理。

3.大数据计算模式与系统 Map Reduce计算模式是目前大数据处理最为成功、最广为接受使用的主流大数据计算模式。然而,现实中的大数据处理问题复杂多样,难以有一种单一的计算模式能涵盖所有不同的大数据计算需求。研究和实际应用中发现,Map Reduce主要适合于进行大数据线下批处理,在面对低延迟和具有复杂数据关系和复杂计算的大数据问题时有很大的不适应性。

表9-1为典型大数据计算模式与系统。

表9-1 典型大数据计算模式与系统

目前主要有以下3个方面的重要发展趋势:①主流的Hadoop平台改进后将与其他计算模式和平台共存融合,形成新一代的大数据处理系统和平台。②混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。Spark有望成为与Hadoop平台共存的新一代的大数据处理系统和平台。③内存计算将成为高实时性大数据处理的重要技术手段和发展方向。

4.大数据分析与挖掘 大数据环境下的分析和挖掘方法与传统的小样本统计分析有根本的不同,具有如下挑战:①数据量的膨胀;②数据深度分析需求的增长;③自动化、可视化分析需求的出现。目前研究者提出了一些试验性的解决方法和途径,其中许多方法具有一定的实际应用价值。主要的思路是致力于传统分析软件和大数据处理软件的集成。如IBM把开源统计分析软件R与Hadoop集成;开源机器学习和数据挖掘工具软件Waka和Map Raduce集成。大数据分析与挖掘主要有3个方面的发展趋势:①更加复杂、更大规模的分析和挖掘;②大数据的实时和挖掘;③大数据分析和挖掘的基准测试。

5.大数据可视化分析 目前大数据可视化技术主要基于并行算法设计,主要涉及数据流线化、任务并行化、管道并行化和数据并行化4种基本技术。其未来发展趋势是:①原位分析;②大数据可视化中的人机交互;③协同与众包可视分析;④可扩展性与多级层次问题;⑤不确定性分析和敏感性分析;⑥可视化与自动数据计算挖掘的结合;⑦面向领域和大众的可视化工具库。

6.大数据隐私与安全 目前在这方面的方法有:①文件访问控制计算;②基础设备加密;③匿名化保护计算;④加密保护技术;⑤基于数据失真的技术;⑥基于可逆的置换算法。数据安全和隐私发展的新趋势包括:①NoSQL有待进一步完善;②针对APT的攻击;③对数据操作面临的安全问题更加突出;④针对多元数据融合提出新的安全隐私保护技术;⑤分布式计算方法在数据传输、信息交互过程中的安全隐私保护技术;⑥社交网络等迅速动态变化和实时交互特性的网络的安全隐私保护技术;⑦形成有效的数据生命周期过程“三权分立”模式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈