首页 理论教育 非结构化数据应用能力分级要求

非结构化数据应用能力分级要求

时间:2023-11-04 理论教育 版权反馈
【摘要】:但是如果把特征作为定义,则大数据从人类存在就有。在古代,如何测绘国家地图,就是一个远远超出当时数据测量能力、数据存储能力与数据处理能力的大数据问题。因此,大数据、非结构化、大体量等等,并不是现代才有的大数据现象,只是在现代社会更加明显而已。不过需要说明,这些特征并没有探究到大数据的重要本质。这是大数据区别于传统数据挖掘最显著的特征。

大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

大数据(big data),有人认为应该称为巨量资料,它最直接的特征,就是所涉及的资料量规模巨大,大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策目的的信息。

但是如果把特征作为定义,则大数据从人类存在就有。在古代,如何测绘国家地图,就是一个远远超出当时数据测量能力、数据存储能力与数据处理能力的大数据问题。因此,大数据、非结构化、大体量等等,并不是现代才有的大数据现象,只是在现代社会更加明显而已。

目前学术界将大数据的特征归纳为4V特征:Volume、Velocity、Variety、Veracity。本书将它们列举如下,这有助于我们理解大数据。不过需要说明,这些特征并没有探究到大数据的重要本质。

Volume(大量):数据体量巨大,超出了处理能力甚至超出了存储能力。具体表现为从TB级别,跃升到PB级别,历史上全人类说过的所有的话的数据量大约是5EB。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB(1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB)。本章附录中将会给出相应的换算方法。

Variety(多样):数据来源复杂,数据结构复杂,分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据大量产生,给整个社会都提出了挑战,对数据的处理能力也提出了更高的要求。

Value(价值):整体价值巨大,但是价值密度的高低与数据总量的大小成反比。如此稀薄的价值分布,需要海量数据支撑,同时需要强大的算法进行价值挖掘。以谷歌和百度为例,虽然作为搜索引擎,可以解决信息收集的功能,但是海量的检索结果中,到底哪些是有用的链接,又是一个极其耗费精力的再选择过程。

Velocity(高速):高速采集数据、迅速给出处理结果。这是大数据区别于传统数据挖掘最显著的特征。现代信息科技的发展,使得数据处理能力呈现几何级数提升,同时使得数据产生速度也呈现几何级数提升,两者具有对立统一的关系。

当然,我们完全可以期待更多的N-V出现,比如完全可以把Veracity(精确:全样本、大范围、精确获取与精确递送),以及vapid(枯燥)、visible(可视化)等等列为大数据的表象性特点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈