大数据具有丰富的价值,它不但是人类认识世界、描述世界、改造世界的工具,而且也是促进政府公共管理效率的提升,实现国家治理能力现代化的有效路径和战略抉择。
那么,什么是大数据呢?
IDC(互联网数据中心)报告对大数据的定义为:“大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。”
维基百科对大数据的定义为:“大数据意指一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。”
通俗地讲,大数据则是超越了“数据”的一般性特征,规模已经超出了“传统数据”的衡量尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。也就是说,大数据是指数量特别巨大、种类繁多、增长极快、价值稀疏的复杂数据,简而言之,是“大而复杂”的数据集,或者说,大数据”之“大”,并非“完全理性”所能预知、判断和决定。正如中国工程院院士、光纤传送网与宽带信息网专家邬贺铨给大数据定义的那样,大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。它的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行挖掘。其关键就在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据与传统数据相比具有超大的容量,现在已经以“太字节”作为信息储量单位。
计算机存储单位一般用B(字节),KB(千字节),MB(兆字节),GB(吉字节),TB(太字节),PB(拍字节),EB(艾字节),ZB(泽字节),YB(尧字节),BB(一千亿亿亿字节)来表示,它们之间的关系是:
1KB(千字节)=1024B(字节);
1MB(兆字节)=1024KB(千字节);
1GB(吉字节)=1024MB(兆字节);
1TB(太字节)=1024GB(吉字节);
1PB(拍字节)=1024TB(太字节);
1EB(艾字节)=1024PB(拍字节);
1ZB(泽字节)=1024EB(艾字节);
1YB(尧字节)=1024ZB(泽字节);
1BB(一千亿亿亿字节)=1024YB(尧字节)。
那么,什么是“太字节”呢?
“太字节”则是2的40次方个字节,或者接近一万亿个字节(即,一千千兆字节)。
美国国会图书馆是1800年在第三任总统杰弗逊的倡导下创建的。它的馆舍由杰斐逊大楼、亚当斯大楼和麦迪逊大楼组成,分别以3位美国总统的名字来命名,是全球最重要的图书馆之一。美国国会图书馆目前藏品总数1.3亿,其中0.29亿册书籍、0.12亿张照片、0.58亿件手稿,它所有登记的印刷版书本的信息量为15个“太字节”。
一个“太字节”相当于一万亿个字节。“字节”和“比特”一样,是两个计算机信息量的术语。
“字节”是计算机存储信息的基本物理单位,存储一个英文字母在计算机上,其大小就是一个字节。因为中国的汉字比较复杂,当我们向电脑输入一个汉字时,这个汉字就占了两个字节。
“比特”也是计算机专业术语,是信息量单位。同时也是二进制数字中的“位”,为信息量的最小单位。二进制数的一位所包含的信息就是1比特,如二进制数0100就是4比特。
数据存储是以“字节”为单位,数据传输大多是以“位”(“比特”)为单位,一个位就代表一个0或1(即二进制),每8个位组成一个字节,是最小一级的信息单位。
“有容乃大”是大数据的特征。其中,不变的是基本单位B,即比特或字节,而从千字节到尧字节,则是成千倍的递增,还有人据此宣称,目前的数据计算已经进入“PB时代”,即以“拍字节”作为计算机存储单位。这里应该明确的是,大数据规模的标准是随着计算工具的存储和计算能力的提升而持续变化的,当前大数据的规模是指单一数据集的大小在几十TB和数PB之间。
“PB”等于2的50次方个字节,或者在数值上大约等于1024个TB,即相当于1000个太字节,大约是4000亿页文本的存储容量。
未来学家认为,人类功能记忆的容量预计在1.25个TB。这意味着,800个人类记忆才相当于1个PB。假设手机播放MP3的编码速度为平均每分钟1MB(兆字节),而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。如果智能手机相机拍摄相片的平均大小为3MB,打印照片的平均大小为8.5英寸,那么总共1PB的照片的并排排列长度就达到48000英里——大约可以环绕地球2周。
由此可见,大数据时代发展之快,已经超出了人类想象,正如哈佛大学加里·金教授所说的那样,大数据是一场量化的革命。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。