首页 百科知识 数据处理技术

数据处理技术

时间:2022-10-12 百科知识 版权反馈
【摘要】:云计算的超大规模、虚拟化、高可扩展性、高可用性以及按需服务的特点与建设数字城市的需求和目标相一致,依托云计算技术的基础上进行数字城市建设是一个必然发展趋势。目前的“数字城市”和基于云计算的数字城市有着相同的支撑工具,都包括了信息的采集终端、网络基础设施以及信息处理等部分,基于云计算技术进行数字城市的建设有以下优点:有利于“数字城市”的普及发展。

3.6 数据处理技术

3.6.1  WebGIS技术

WebGIS是Web技术和GIS技术相结合的产物,是实现GIS互操作的一条最佳解决途径。它以WWW(万维网)的Web页面作为GIS软件的用户界面,可以在Internet的信息发布、数据共享,而用户可以从Internet的任意节点上浏览WebGIS站点中的空间数据、制作专题图、进行各种空间信息检索和空间分析。因此,WebGIS不但具有大部分乃至全部传统GIS软件具有的功能,而且还具有利用Internet优势的特有功能,即用户不必在自己的本地计算机上安装GIS软件就可以在Internet上访问远程的GIS数据和应用程序进行GIS分析,并提供交互的地图和数据。

目前,WebGIS主要有3种结构模式:集中模式、C/S(客户/服务器)结构模式和B/S(浏览器/服务器)结构模式。在B/S结构中,服务器端实现业务逻辑层和数据层,而用户端界面将全部是Web浏览器页面,用户从浏览器端向服务器端提交服务请求,服务器将处理结果通过网络返回浏览器端。

WebGIS与传统的GIS技术相比,具有鲜明的特点:具有更广泛的应用与访问范围、具有较强的负载平衡能力、客户端平台无关特性、更易于用户操作等。正是基于这些特点,WebGIS在各行业中的应用越来越广泛。

WebGIS作为一种辅助决策工具,为城市建设档案数字化和档案信息挖掘利用带来了新理念,将基于平面的数据信息分层化、形象化、三维化,因此在城市建设过程中的相关领域扮演着重要的角色。通过互联网实现信息载体空间数据库技术的结合,使人们能有效地管理地理信息系统和其中的海量数据,它突破了以往基于桌面或局域网的GIS技术瓶颈,在城市规划设计、地下管线管理、市政设施、房地产、交通管理等领域有着广泛的应用价值,为城市建设中数字化档案的产生、资源利用及信息挖掘提供了技术支持。

基于WebGIS的数字城市规划信息发布系统可实现各种规划数据信息的共享,同时促进规划行业之间的联系和沟通,数字城市规划系统的网络化是未来数字城市规划发展的必然趋势,也是实现“数字城市”、“数字地球”的必由之路。

在数字城建系统构建的过程中,通过对WebGIS技术的运用,将建设系统已有的档案数据标准进行统一,对规划、国土、房管等建设行业地理信息资源逐步进行整合,将分散的、各自为政的建设业务档案信息建立有效的关联,实现分布式的GIS应用,使得信息资源实现1+1>2的作用,极大地提高了档案资源的利用率。

3.6.2 分布式计算技术

分布计算(Distributed Computing)也称网络计算(Networking Computing),它是充分利用网络资源的计算模型,通过有效地调动网络上成千上万台计算机中CPU的闲置处理资源及存储资源,来组成一台虚拟的超级计算机,为超大规模的计算事务提供强大的计算能力。一些有名的分布式计算项目如今已经使用了分布于世界各地的大量志愿机的计算能力,如GIMPS、RC-72、United Devices等,并不断有越来越多的志愿者加入到这一行列中来。

分布式计算的研究主要是分布式操作系统和分布式计算环境两个方面。分布式计算技术是实现分布式系统的关键,通信网络的出现使得计算能力的远程使用成为可能,目前主流的分布式计算技术有远程过程调用、远程求值、客户/服务器、移动代码模式、移动Agent计算技术、P2P技术等。而Web服务和网格计算是在因特网上进行大规模分布式计算的两大关键技术,主要是专注于解决分布式计算的系统管理和资源共享问题,无论是在理念上,还是在技术上都取得了巨大的进步。但也都存在着一些没有解决的问题,从而也影响了分布式计算技术的使用。

Web服务技术可以轻松克服传统分布对象技术的缺陷,实现Web服务的无缝集成,从而架构出新一代的分布式应用系统。目前,存在的分布式计算平台的体系框架和标准有: DCOM分布式部件对象模型、CORBA共同对象请求代理体系结构、DNA分布式网络体系结构、DCE分布式计算环境、JAVA体系结构等,远程过程调用是分布式计算环境中功能和数据分布式计算的技术基础,是实现互操作性的主要技术之一。

分布式计算是数字城市的基本技术,实现了分布对象之间的透明互操作,是数字城市发展主要支撑技术之一,它为数字城市规划的实施提供了坚实可行的发展环境,解决了企业计算中的诸多问题,已经在通信、金融等行业得到了广泛的应用。

3.6.3 云计算

“云计算”(Cloud Computing)的概念首先是由Google公司提出的,属于网络应用模式,是分布式计算技术的一种。“云”是指计算机群,每一个群包括几十万台、甚至上百万台计算机。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。

“云计算”从2007年3月诞生以来,从概念产生到实际应用,再到相关平台的开发,有了长足的发展,像谷歌、微软等IT业巨头都在以前所未有的速度推动着自己的云计算技术及其产品。由于企业理念不同,不同的公司之间对于“云计算”的理解不统一,都遵循着自己的思路发展其技术,如谷歌倡导的是“云计算”,微软则提出了“云—端计算”的概念,IBM的“蓝云”等。云计算的最终目标是将计算、服务和应用作为一种公共设施提供给公众,使人们方便使用计算机资源,不再需要购买计算机软硬件,只需租用云计算服务提供商提供的服务,以极低的成本按需从基础设施获取高质量的计算、存储、数据、平台和应用服务。

云计算的超大规模、虚拟化、高可扩展性、高可用性以及按需服务的特点与建设数字城市的需求和目标相一致,依托云计算技术的基础上进行数字城市建设是一个必然发展趋势。目前的“数字城市”和基于云计算的数字城市有着相同的支撑工具,都包括了信息的采集终端、网络基础设施以及信息处理等部分,基于云计算技术进行数字城市的建设有以下优点:

(1)有利于“数字城市”的普及发展。目前,数字城市应用系统的通信和发布采用的一般都是专用系统,成本较高,不利于智能系统的普及,如“数字城市”的智能交通系统,不仅需要购买硬件等基础设施和软件的许可证,还需要安排专门的人员维护系统。采用云计算技术以后,对于一些中小城市而言,只需要租用相应的服务,而不是都需要单独购买硬件和软件设施,如目前ESRI已经将ArcGIS部署到亚马逊的EC2和S3云计算基础设施平台上,通过少量“租金”就可以使用云上的GIS应用与服务,这样就节省许多购买软硬件的资金,大大降低了智能系统的门槛,有利于智能系统的普及。

(2)有利于实现开放创新效应。目前的“数字城市”应用一般都是采用专用的设备,构筑在专用的系统上,信息的发布多采用单向传播,缺乏互动性,如传统智能交通系统的信息种类受到系统的应用目的限制,信息来源封闭,种类单一。而采用云计算可以大大拓展信息来源,通过使用云计算服务将各类信息构建在统一的平台之上,充分共享、融合、加工以后,可创新出更丰富的“数字城市”的具体应用,如智能交通系统的各种服务也可向社会公众提供服务,从而使“数字城市”从相对封闭变成开放,这样有利于社会和经济的发展。

建设数字城市是城市信息化的系统工程,云计算使数字城市的建设过程从“服务决定信息”转变为“在信息融合的基础上创新服务”。云计算的平台开放性使得更多的使用者参与到数字城市的建设中来,从而扩大了信息的来源。从丰富的信息、应用带来更多的使用者,使“数字城市”由封闭和静态演进成为开放、动态的生态环境。

3.6.4 网格计算

网格计算是构筑在Internet上的一组新兴技术,专门针对复杂科学与工程计算的新型计算模式,适于大型科学计算和项目研究。这种计算模式是利用互联网把分散在不同地理位置的计算机组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”,不仅具有超强的数据处理能力,还能充分利用网上的闲置资源,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。

实际上,网格计算是分布式计算的一种,充分利用网上的闲置处理能力则是网格计算的又一个优势,网格计算模式首先把要计算的数据分割成若干“小片”,而计算这些“小片”的软件通常是一个预先编制好的屏幕保护程序,然后不同节点的计算机可以根据自己的处理能力下载一个或多个数据片断和这个屏幕保护程序。只要节点的计算机用户不使用计算机时,屏保程序就会工作,这样这台计算机的闲置计算能力就被充分地调动起来了。这种“蚂蚁搬山”式的网格计算,看似普通,但却有过极其出色的表现,如1999年的SETI@ HOME项目是网格计算的一个成功典范。

目前,网格计算不仅在学术界、研究领域(如航天、气象部门等)进行着深入的研究与实验,同时也得到了来自产业界诸如IBM、HP、Microsoft、NTT、Intel、SGI和Sun等各大公司的巨资支持与商业应用开发,目前网格计算主要应用在分布式超级计算、高吞吐率计算、数据密集型计算、基于信息共享的人与人交互、资源贸易、电子商务和电子政务等多个领域。

3.6.5 多元数据融合与数据挖掘技术

多元数据融合与数据挖掘是一个十分诱人的技术领域,具有广阔的应用前景。在建设数字城市中,它可以从大量数据中自动快速有效地提取模式和发现知识,利用信息资源,使深层次的、基于城市空间数据的辅助决策能够得到有效实施。多元数据融合技术既可以有针对性地去除无用的遥感信息,减少数据处理量,提高效率,又能将海量多源数据中有用信息集中起来,融合在一起,便于各种信息的特征互补,减少识别目标的模糊性和不确定性。

目前基于城市多元数据融合时空模型和数据仓库体系结构的数据融合技术,包括多元数据的简单数据融合和复杂数据融合两种方式。目前比较普遍的简单数据融合方式是“4D”产品以及数字建筑物模型、数字管线模型和数字专题地图等数字地图之间的相互叠加,这是一个简单的数据融合方式,主要目的是供浏览和地图输出;而比较复杂的融合方式中,除了建立各种数字地图坐标关系外,部分相关数字地图之间还应建立起拓扑关系、位置关系和属性关系,这种融合方式不仅满足人们对地理信息的视觉要求,而且借助拓扑关系、位置关系等,实现某些传统GIS系统的管理和分析功能,并奠定三维或多维数据应用基础。多元数据融合将空间信息从符号化、抽象化、专业化的枯燥表现方式中解脱出来,表现出可视化、人性化、自然化的新特征,使不具备专业知识、没有经过专业训练的人们或行业,对地理空间信息的理解变得容易。

数据挖掘(Data Mining),又称数据库中知识发现,它是人工智能、知识工程、数据库技术、数理统计、可视化技术、并行计算技术等相结合的产物,其目的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,识别出有效的、新颖的、潜在有用的以及最终可理解的信息和知识。多元数据挖掘是将多元数据与二维GIS、三维GIS、WebGIS和虚拟现实技术的有机结合,挖掘多元数据的潜在价值促进多元数据挖掘技术应用的快速发展。目前,数字地图的真三维表现应用研究是多元数据挖掘在数字城市建设中的重点。

数据挖掘区别于简单地从数据库管理系统检索和查询信息,它还要对数据进行微观、中观乃至宏观层次的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。比较有影响的典型数据挖掘系统有Geni-Sage Data Mining Analysis System(GDM)、SAS Enterprise Miner、Markway Analysis System、KXEN、IBM Intelligent Miner、SPSS Clementine、SGI MineSet、Oracle Darwin等。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面,其应用领域看似广泛,实际应用还远没有普及,但也已经开始成为一门独立的专业学科。

3.6.6 元数据

1.元数据的概念

元数据是“关于数据的数据”,是关于数据的内容、质量、状况和其他特性的描述性信息。元数据主要用于描述数据集,也用于描述数据集系列和各个要素及属性。

在GIS和数字城市应用系统中,包含有多源、多时相、多尺度、多分辨率和多类型的数据。随着数据量的剧增和数据共享的要求,在数据生产、管理、销售、使用以及更新和维护过程中,运用元数据对数据的内容、质量、状况和其他特征进行描述和说明来组织和管理海量数据,达到快速、全面有效的访问和获得所需的数据。

2.数字城市中元数据的作用

数字城市的核心是数据,本质则是基于网络的数据服务。随着城市GIS技术的应用和发展,广大城市已经或正在建设一批各具特色的数据库或数据集,这些数据既有空间型的,也有非空间型的。数字城市建设的重要任务之一就是充分挖掘和使用这些分布式的多元异构数据库。元数据是使数据充分发挥作用的重要条件之一,其基本作用有:

(1)帮助数据生产和管理者有效地管理、维护和更新数据,建立数据档案,保护数据拥有者地投资。

(2)为数据集编目和数据交换网络提供信息,便于用户检索查询数据,评价数据的可用性,并在需要时通过有效渠道获得数据。

(3)为分布式数据库和数据仓库应用服务。(4)提供有关信息支持转换。3.元数据的获取、管理与发布相对于数据集的生产过程,元数据的获取可分为三个阶段:第一阶段数据采集前,元数据是根据要采集的数据集的内容而设计的元数据;第二阶段数据采集中,元数据随数据集采集过程而同步生产;第三阶段数据采集后,根据任务需要生产的。元数据的收集最好随数据集的生产和开发一同进行,可以用多种方法输入,通常使用按照元数据标准设计的元数据操作工具,另一种方法是使用文字处理器,生成元数据文件。

元数据的管理一般包括两种方式:一种是纯文件系统,通常使用的是ASCII纯文本文件或HTML超文本文件,方法简单,但不能存储数据的语义,除简单的数据输入、更新和提取外,难以进行更多的操作。另一种是元数据管理系统,系统建在城市空间数据交换中心,采用UNIX平台,与WebGIS服务器等共同参与空间数据交换中心的运作,以实现空间数据共享。元数据管理系统易于配置和管理,能根据元数据浏览器或编辑器的请求对空间数据库服务器进行管理、更新、统计、查询。

元数据的发布通常使用元数据浏览器来实现,一般采用通用浏览器,如Internet Explorer。在浏览器端实现对数据交换中心进行浏览、查询等请求的提交。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈