首页 百科知识 当前技术进展

当前技术进展

时间:2022-07-05 百科知识 版权反馈
【摘要】:在大数据时代,数据不仅规模大,而且数据的来源多种多样,有结构化的、半结构化的,还有非结构化的,如何区分这些大数据类型,并针对这些类型的特点更好地进行分门别类的存储成为我们必须解决的问题。

在大数据时代,数据不仅规模大,而且数据的来源多种多样,有结构化的、半结构化的,还有非结构化的,如何区分这些大数据类型,并针对这些类型的特点更好地进行分门别类的存储成为我们必须解决的问题。一般结构化的数据存储于传统的关系型数据库,半结构化的数据或者非结构化的数据则由非关系型数据库存储或者分布式文件系统存储。

数据存储方面,主要采用分布式技术路线存储海量数据,以提高吞吐效率、降低故障率。随着大数据时代的到来,一方面是企业的数据量已经从MB、GB迅速增长到了TB级别甚至PB级别,而且还在快速地增长,另一方面是企业IT系统对于数据保护的要求也从简单的备份转变为企业数据管理和保护的综合性平台,比如实时性的保护、即时可用性

从现有的技术体系、产品结构来看,采用的基本路线包括:行、列存储,以及两种机制的融合;所有数据分布于多个存储设备;存储设备通过高速网络互连;数据互备采用副本机制,并分别放置于不同的存储设备;数据块的读取关联所有的副本;建立分布式索引,以实现数据的快速寻址。

存在的局限性包括:一是现有技术尚未满足针对复杂数据结构的应用需求,特别是在移动对象数据领域没有关联时空数据的复杂结构和查询处理的复杂性;二是数据的放置和调度存在技术空白,不合理的数据布局会增加网络和存储I/O的开支;三是数据存储与组织所采用的列存储技术尚需进一步优化

数据集成方面,主流IT厂商均研发了数据连接器等核心模块,采用的基本路线大致相同:将不同数据源的数据模式映射为中间模式,通过重复数据检测技术进行数据冗余处理,并基于统一的接口综合各类数据源操作以实现数据融合。

存在的局限性包括:一是同一系统中不同类型的数据源间集成优化与互操作问题;二是数据源到中间模式的自动化设计方法问题;三是数据融合方案中对数据源中相关对象描述的完整性、简明性、一致性问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈