首页 百科知识 结构化数据如何分析

结构化数据如何分析

时间:2022-10-22 百科知识 版权反馈
【摘要】:大数据英文名为Big Data,意为一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行获取、管理和处理。对大数据而言,其基本处理流程包括数据采集、数据处理和集成、数据分析和数据解释。
大数据_数字博物馆研究

大数据英文名为Big Data,意为一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行获取、管理和处理。大数据的特点主要体现在以下四个层面[19]:(1)体量巨大,现在的大型数据集数据量一般在10TB规模左右,但在实际应用中,很多用户把多个数据集放在一起,已经形成了PB[20]级的数据量;(2)类型繁多,数据来自多种数据源,数据种类和格式不断扩充,已不再局限于结构化数据范畴,囊括了半结构化和非结构化[21]数据,如网络日志、视频、图片、地理位置信息等;(3)处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理;(4)价值密度低,价值密度的高低与数据总量的大小成反比,即数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使人们获取有用信息的难度加大,以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有1、2秒。

智慧博物馆中的大数据来自日积月累的藏品、观众、环境、设施等,以及网络空间的微博、博客、播客等多方面数据,数据量异常庞大;在类型上,不仅包括结构化的数据、二维数据表等,也包括半结构化数据、邮件、资源库等,还包括非结构化数据,如藏品图像、藏品三维模型、展览视频、讲座录像、观众语音留言等,数据类型多样。在处理速度上,由于智慧博物馆要及时地为观众提供个性化的服务,因此需要实时采集、处理、分析大量与观众参观行为、使用偏好、互动交流相关的数据,数据处理速度快,响应及时;在价值密度上,智慧博物馆中的各类数据随时间的日益增加并不会将有价值的信息自动呈现出来,比如关于5年、6年甚至10年内的观众参观数据看上去并没有明显差异,需要利用更为快速、复杂、智能化的数据分析方法来挖掘其中的有用信息,将信息转换为特定领域的知识,以指导决策。对大数据而言,其基本处理流程包括数据采集、数据处理和集成、数据分析和数据解释。围绕这些基本步骤,一批涉及数据存储、管理、处理和分析等的关键技术不断涌现出来,具体包括数据挖掘、关联规则学习、数据融合与集成、情感分析、网络分析、时间序列分析、分布式文件系统、分布式数据库、非关系数据库和数据可视化等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈