首页 百科知识 旅游大数据分析平台的架构体系

旅游大数据分析平台的架构体系

时间:2022-07-15 百科知识 版权反馈
【摘要】:大数据平台一般有代码保密的商用平台与代码开源的大数据服务平台两种类型。图4-1 旅游大数据分析平台架构(二)旅游大数据存储层旅游大数据分析平台中的大数据存储层主要包括旅游数据导入与访问控制部分、旅游数据存储系统部分。旅游大数据在处理和存储结构化的旅游数据时,通常使用自由表来。

大数据平台一般有代码保密的商用平台与代码开源的大数据服务平台两种类型。一个开源的旅游大数据平台需要一个存储和处理旅游大数据的分布式数据处理系统平台,由支持海量数据存储的分布式文件系统、自由表等存储系统和支持分布式调度的计算系统框架三个模块构成。

一般情况下,旅游大数据分析平台的架构体系主要分成四层(如图4-1所示),自下往上依次是:

(一)旅游特征大数据收集、抽取和集成层

旅游特征大数据收集、抽取和集成层主要为整个大数据分析提供基础数据支持。收集存储、转换与载入旅游特征数据,包括旅游出入境及本地游客数量、海陆空各交通枢纽游客流量、饭店入住人数、景区入园人数、各旅游景区游客分布与拥挤状况、旅游经济与环境现状等特征数据。旅游大数据可以通过旅游运营商内部网络采集,也可以通过外部互联网采集和传送。

图4-1 旅游大数据分析平台架构

(二)旅游大数据存储层

旅游大数据分析平台中的大数据存储层主要包括旅游数据导入与访问控制部分、旅游数据存储系统部分。旅游大数据的存储需要较大的存储容量和实时读写能力,所以采用分布式存储系统,可以在多台机器上并行使用,支撑TB级规模以上的数据量。

旅游行业作为一项经济、复杂、庞大的社会活动,数据是庞大、复杂、甚至是碎片化的,非结构化数据普遍被认为占数据总量的85%以上。结构化数据是指在固定字段集合中存放的数据,如关系数据和电子表格数据,属于传统的数据技术;非结构化数据是指难以用数据库二维逻辑表表现的数据,包括文本数据以及未标记的视频、音频和图像数据等;半结构化数据则介于两者之间,是用标签和其他标志划分数据元素的数据,可扩展标记语言和超文本标记语言都属于半结构化数据。广义的非结构化数据包括了半结构化和多结构化数据。

旅游大数据在处理和存储结构化的旅游数据时,通常使用自由表来。对于非结构化旅游数据,一般采用分布式文件形成存储,记录存储文件块以及元数据信息。结构数据与非结构数据必须经由导入管理器与写缓存过程,并进行存储,其中物理存储模块包括分布式文件存储、分布式索引和元数据的统计信息,其他存储模块包括自由表的数据模型或P2P可伸缩架构存储系统。

(三)旅游大数据云计算层

旅游大数据平台云计算层也可称为功能层,提供基本的旅游大数据运算与挖掘服务,主要是分布式计算层(并行计算与流计算),包括分布式数据挖掘运行系统和智能数据中心联合调度技术系统。云计算服务层主要为用户提供基于互联网的大数据服务,并进行数据挖掘,包括并行数据挖掘与统计、并行文本挖掘与统计、数据融合、目标识别、态势评估、态势预测等。

旅游大数据库对采集来的原始旅游大数据进行分析、抽取、选择、转换,提取关键数据入库,对旅游大数据进行压缩后,再进行数据传输处理。为了降低旅游大数据计算的难度,旅游管理客户会按照相关的大数据库框架规范自定义Map等函数,然后向旅游大数据库提交相关的数据分析内容,相应的文件集群会自动将其调度到对应的机器上,对节点上收集到的旅游数据进行指定的参数作业和并行计算处理,并将获得的结果返回到客户端。

旅游大数据分析平台所采用的分析技术包括旅游市场前景预测分析、旅游商务大数据挖掘、游客群体不同行为特征的统计分析、复杂结构化查询语言,以及数据可视化技术、人工智能、文本法分析、自然语言处理等支持旅游大数据分析的相关技术与工具。

(四)旅游大数据索引查询服务与处理层

旅游大数据索引查询服务与处理层主要面向旅游管理和旅游运营前端的客户需求,通过对查询请求的解析和优化,提供统一的基于Web的大数据挖掘技术和索引查询的接口服务,构建基于Open API的大数据分析模式,对底层旅游数据库进行快速搜索查询、并提供实时呈现与返回查询服务。旅游大数据索引查询与处理层可提供台式机、笔记本、平板电脑、移动手机和互联网浏览器访问等多终端用户使用模式。

旅游大数据索引查询服务与处理层可为旅游管理层和市场运营企业提供游客数量、地点位置、游客行为图像等实时多媒体查询,并可进行旅游景区承载量、游客时空分布、旅游交通状况与旅游收入等旅游大数据挖掘和分析等服务,还可对境内外旅行团出游计划、游客组成、游客经济与消费行为、旅游企业收支结构等关键绩效指标进行分析;同时,可以实现对旅游企业员工进行多角度、全方位的分析与全程监控,并提供旅游企业的决策支持服务。

(五)其他支撑与辅助旅游大数据库的技术与管理模块

其他支撑与辅助旅游大数据库的技术与管理模块包括了对旅游大数据库实施安全控制的系统及其他安全管理工具、语义抽取等分析挖掘工具以及建立的各项管理标准体系,它们可以确保旅游大数据库的正常运行,发挥高效服务的功能。

【小贴士】主流大数据的软件平台与产品

拥有商用大数据平台的公司主要有Google、Amazon、Yahoo、IBM、Microsoft以及阿里、腾讯与百度等公司。Google 的大数据平台主要包括分布式文件系统 GFS、分布式计算框架Map Reduce、分布式数据库Big Table和分布式锁机制Chubby;Amazon云计算与云服务大数据平台包括弹性计算云EC2、基础存储架构Dynamo、简单存储服务S3、简单队列服务SQS和简单数据库服务Simple DB;Yahoo大数据平台为分布式的数据存储平台PNUTS;IBM大数据平台为即买即用蓝云(Blue Cloud)服务平台;Microsoft提供的大数据平台主要有Azure存储服务等。国内BAT互联网公司,阿里提供了数据魔方、淘宝情报、淘宝指数、在云端等大数据产品与服务;腾讯提供了广点通、信鸽等大数据产品与服务;百度提供了百度预测、百度统计、百度指数、百度司南、百度精算等大数据产品与服务。

目前,在全球工商业界广泛使用Hadoop、No SQL、开源项目HBase和Cassandra作为产业活动分析的大数据处理平台。Hadoop可以在多个计算机组成的集群上运行应用程序,并提供稳定可靠的接口和方便高效的海量大数据处理能力,一直受到全球高科技互联网企业的高度重视,已发展为业界公认的开发和处理大数据的软件平台。在全球范围内,80%的在线旅游网站都在使用Hadoop,美国70%的智能手机数据服务背后都由Hadoop支撑。

Hadoop是由Apache基金会资助、基于Google的GFS和Map Reduce引擎思想开发的一个可支持数据存储和分析的分布式系统基础架构,主要由最底层的HDFS(分布式文件系统)、Map Reduce(映射和化简编程模型)引擎、数据仓库Hive、数据的互操作系统Sqoop以及负责应用程序协调的Zookeeper和Thrift软件框架等组成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈