首页 百科知识 企业信息管理集成技术

企业信息管理集成技术

时间:2022-07-17 百科知识 版权反馈
【摘要】:随着信息技术的飞速发展和应用领域的不断拓宽,信息技术极大地提高了人们的工作效率。许多现代企业已经意识到数据集成在企业运作和管理中的重要性。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表。在P2P数据集成方法中,参与集成的各个数据源节点分别被视作一

随着信息技术的飞速发展和应用领域的不断拓宽,信息技术极大地提高了人们的工作效率。然而在信息化建设初期,由于缺乏有效、合理的规划和协作,造成信息化建设的大量重复和“信息孤岛”现象,加之信息量的爆炸式增长,信息化建设遭遇到巨大浪费,如何将之前各个独立的信息化系统集合起来,为将来各种各样的信息化建设服务,成为我们面临的现实问题。互联网技术的诞生,在一定程度上支持了信息发布和信息收集。以连锁经营为例,对于分散数据访问和分析需求——跨地区的连锁经营销售商要求对其每天总的销售状况进行分析等,对于复杂的应用环境——决策支持系统(DSS)、管理信息系统(M IS)、企业资源计划(ERP)、客户关系管理(CRM)、供应链管理(SCM)、在线分析处理(OLAP)、数据挖掘(DM)等,迫切需要形成跨组织、跨领域、多应用的信息交换与共享,数据集成技术由此应运而生。

数据集成技术是将分布、异步、独证的信息源中的有用数据集成在一起,使用户能以透明的方式访问这些数据源,以供信息检索、分析处理等等应用的技术。集成是指维护数据源整体上的数据一致性,以提高信息共享利用的效率;透明的方式,是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。图5-9显示了数据集成系统模型。

图5-9 数据集成系统模型

数据集成是信息系统集成的基础和关键。好的数据集成系统可以保证用户以低代价、高效率使用异构的数据。许多现代企业已经意识到数据集成在企业运作和管理中的重要性。随着应用的不断深入,Microsoft和Sybase等都针对自身产品提出了数据仓库的数据集成解决方案,这些解决方案提供了方便的数据集成方法,但也存在一些局限性,如任意订制需要抽取的数据、灵活而高效的数据抽取方式、数据抽取的一致性、异构信息源集成和系统平台无关性等不能一一满足,需要具有更高实用性、更优维护方法的集成技术。

1.传统的异构数据集成方法

第一,数据复制方法。数据复制方法将各个数据源的数据复制到与其相关的其他数据源上,并维护数据源整体上的一致性,以提高信息共享和利用的效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可减少用户使用数据集成系统时对异构数据源的数据访问量,提高数据集成系统的性能。最常见的数据复制方法就是数据仓库方法,该方法将各个数据源的数据复制到同一处——数据仓库,用户则直接访问数据仓库获取数据。这种方法既可用于数据集成,亦可用于决策支持查询。但是,这种对数据仓库的间接访问方式带来的问题就是数据更新不及时、数据重复存储。斯坦福大学DB Group的数据集成方案是数据复制方式的代表性方案。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表。

第二,模式映射方法(即虚拟视图法)。模式集成(Schema Integration)是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是,在构建集成系统时,将各数据源共享的数据视图集成为全局模式(Global Schema),供用户按照全局模式,透明地访问各数据源的数据。该方法不需要重复存储大量数据,但能保证查询到最新的数据,比较适合于集成数据多,且更新变化快的异构数据源集成。

模式集成要解决的两个基本问题是:构建全局模式与数据源共掌数据视图间的映射关系,处理用户在全局模式基础上的查询请求。模式集成过程需要将原来异构的数据视图做适当的转换,消除数据源间的异构性,映射成全局模式。全局模式与数据源数据视图间映射的构建方法有两种:全局视图法和局部视图法。全局视图法中的全局模式是在数据源数据视图基础上建立的,它由一系列元素组成,每个元素对应数据源的一个查询,表示相应数据源的数据结构和操作;局部视图法先构建全局模式,数据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推理得到。

第三,联邦数据库。联邦数据库是早期人们采用的一种模式集成方法。联邦数据库中,数据源之间共享自己的一部分数据模式,形成一个联邦模式。联邦数据库系统按集成度可分为两类:采用紧密耦合联邦数据库系统和采用松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用统一的全局模式,将各数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这种方法集成度较高,用户参与少;缺点是构建一个全局数据模式的算法复杂,扩展性差。松散耦合联邦数据库系统比较特殊,没有全局模式,而是提供统一的查询语言,将很多异构性问题交给用户自己去解决。松散耦合方法对数据的集成度不高,但其数据源的自治性强、动态性能好。

第四,中间件集成方法。中间件集成方法是另一种典型的模式集成方法,它使用全局数据模式。与联邦数据库不同,中间件系统不仅能够集成结构化的数据源信息,还可以集成半结构化或非结构化数据源中的信息,如Web信息。基于中间件的数据集成系统主要包括中间件和包装器,其中,每个数据源对应一个包装器,中间件通过包装器和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发性,减少响应时间。包装器是对特定数据源进行封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给包装器,由包装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中间件。中间件注重全局查询的处理和优化。其相对于联邦数据库系统的优势在于:它能够集成非数据库形式的数据源,有很好的查询性能,自治性强;中间件集成的缺点在于它通常是只读的,而联邦数据库对读写都支持。

第五,peer-to-peer数据集成方法(P2P)。 P2P数据集成方法是在新兴的P2P计算技术的基础上,对原有的模式集成方法的扩展。P2P是一种基于对等网络的架构,是计算机系统的结构从传统的集中式发展为松散耦合分布式的新模式。在P2P数据集成方法中,参与集成的各个数据源节点分别被视作一端,每个节点可以将自己的一部分本地数据模式映射成为端共享模式,向其他节点共享自己的数据。纯粹的P2P数据集成方法没有全局数据模式,各节点可以直接通过P2P映射使用其他节点共享的数据模式,从而形成各节点之间对等的数据共享与访问机制。P2P数据集成方法已成为当前数据集成研究的一个热点

2.异构数据集成的新技术

数据集成迄今仍是困扰单位信息系统建设、维护和发展的难题。 已有的数据集成方案普遍存在难以适应数据源的动态变化、难以完成动态集成以及传输成本高等缺陷。很多数据是从数据源向集成模式单向流动的,不能支持局部数据源之间的数据交换和共享,也不能在集成数据上进行新型跨部门综合业务的开发。针对以往数据集成方案的不足,新的数据集成技术也不断涌现,包括网格技术和本体技术。

第一,网格技术。网格技术提出目的就是实现分布式环境下的资源共享和协同计算。网格(Grid),又称为虚拟计算环境,是近年来兴起的一种重要的网络信息技术。网格技术利用计算机网络,把地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源、知识资源等连成一个逻辑整体,然后像一台超级计算机一样,为用户提供一体化的信息应用服务。实现互联网上所有资源的全面连通、全面共享,以消除信息孤岛和资源孤岛。

第二,本体技术。数据的异构性分为两个方面:一是结构性异构,即不同数据源数据的结构不同;二是语义性异构,即不同数据源的数据项在内容和含义上有所不同或有冲突。 目前,XML已经成为异构系统间数据交换的公认标准,所以,语义异构成为数据集成技术的难点。已有的各数据集成方法也都面临如何更好地解决语义异构的问题。

本体是对某一领域中的概念及其之间关系的显式描述,是语义网络的一项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理,为语义异构性问题的解决提供了新的思路,对异构数据集成来说应该有很大的意义。但本体技术也存在一定的问题:已有的关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处于探索阶段,本体技术还没有真正发挥应有的作用。

因此,可以采取本体技术和中间件相结合的方法,即采用中间件架构,支持虚拟视图或视图集合,且不存储任何异构数据库中的实际数据。为了更好地解决语义异构,在中间件中引入了一个本体库。整个系统架构如图5-10所示,包括如下三个层次:

(1)应用层。应用层为终端用户提供访问中间件层的查询接口,用户可以通过应用层的浏览器调用中间层。系统提供统一的查询检索平台。它能够显示用户可以查询的集成信息,而底层集成的数据源对用户是透明的。

(2)中间件层。中间件层从更高层次上屏蔽了数据源的分布性和异构性,用户认为所有的数据都是本地的,处于同一服务域中,而具体的查询请求的处理、结果的返回都由中间件层负责。中间件主要由中介器、包装器和本体库三个部分组成。其中,中介器又包括查询生成器、查询分解引擎、查询执行引擎和结果处理四个功能组件。

(3)数据源层。数据源层是由分布式异构数据源组成。数据源可以是关系数据库、Excel表格,也可以是半结构化的XML文档。每一个数据源都可以位于Web上不同的服务站点,采用本地的方式对数据进行管理。

未来的异构数据集成技术会随着各个难题的解决而得到越来越广泛的应用。今后,数据集成的研究方向应该包括:①基于网格、本体语义的数据集成方案的研究;②多种技术相结合的数据集成方案;③集成数据的完整性、一致性、实时性(如图5-10所示)。

图5-10 异构数据整体系统架构

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈