首页 百科知识 大数据的特征与分类

大数据的特征与分类

时间:2022-10-01 百科知识 版权反馈
【摘要】:大数据的5个“V”特性如图9-2所示。相对于传统数据,大数据可分为结构化数据、半结构化数据和非结构化数据。根据不同类型数据的特征,金融机构的数据以结构化数据为主,而电信运营商和电子商务的数据则以半结构化和非结构化数据为主。当然,在一定的标准下,半结构化和非结构化数据一般也能够转变为结构化数据存储。

大数据的特性可概括为5个“V”:Volume、Variety、Velocity、Veracity、Value.Volume指数据的体量大,起始计量单位至少是PB(220GB)、EB(230GB)或ZB(240GB),远大于人们日常所熟悉的GB;Variety指数据类别多,具有多种数据源,数据种类和格式丰富,包括文档、视频、图片、音频、数据库数据等,并已冲破以前所限定的结构化数据范畴,囊括半结构化和非结构化数据;Velocity指数据处理速度快,在数据体量庞大的情况下,也能够做到数据的实时处理;Veracity指数据的真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性更高;Value指数据的价值高,借助大数据挖掘与处理技术去发掘大数据的深度价值,能够以低成本创造高价值。大数据的5个“V”特性如图9-2所示。

相对于传统数据,大数据可分为结构化数据、半结构化数据和非结构化数据。结构化数据是指,预定义了数据类型、格式和结构,可以划分为固定的基本组成要素,能通过一个或多个二维表来表示的数据,如事务性数据和联机分析处理数据等;半结构化数据是指,具有可识别的模式并可以解析的文本数据文件,如自描述和具有定义模式的XML数据文件;非结构化数据是指,数据结构不固定,无法使用关系数据库存储,只能够以各种形式的文件存放的数据,通常将其保存成不同类型的文档,如txt文本文档、office文档、pdf文档、图像、音频和视频等。

图9-2 大数据的5个“V”特性

根据不同类型数据的特征,金融机构的数据以结构化数据为主,而电信运营商和电子商务的数据则以半结构化和非结构化数据为主。当然,在一定的标准下,半结构化和非结构化数据一般也能够转变为结构化数据存储。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈