首页 百科知识 数据仓库系统的组成部分与处理流程

数据仓库系统的组成部分与处理流程

时间:2022-06-20 百科知识 版权反馈
【摘要】:为了了解数据仓库系统中数据的来龙去脉,我们需要明白系统的组成部分与处理流程。图6-4显示了一个典型数据仓库系统的基本组成部分。其一是从外部数据源抽取的数据,经清洗、转换处理,并按主题进行组织和存放称其为业务数据仓库;其二是数据仓库的元数据,其三是针对不同的主题生成的数据集市。图6-5 数据仓库的数据组织结构元数据数据仓库的元数据与数据库管理系统中的数据字典相似。

6.2.2 数据仓库系统的组成部分与处理流程

通过前面的内容,我们已经了解了数据仓库的定义、特征,也提到过数据仓库的数据是加工后的数据。那么,数据仓库中的数据实际上来源于哪里?中间经过了怎样的转换过程,最终的数据组织又有怎样的特点?

为了了解数据仓库系统中数据的来龙去脉,我们需要明白系统的组成部分与处理流程。图6-4显示了一个典型数据仓库系统的基本组成部分。最左边是数据源部分,紧接着是数据准备部分。中间是数据存储部分,它管理数据仓库的全部数据。最终,用户通过图中最右边的决策支持工具来访问数据仓库中的数据。

数据源部分

数据源部分提供了数据仓库的原始数据。数据仓库的数据来源主要包括内部数据源和外部数据源两种。内部数据源主要指企业中TPS、MIS或ERP等集成系统中的数据。而外部数据源则指企业通过专门调查获得的数据、来自相关部门的统计数据,以及其他通过Web获取的数据。为了满足分析的需要,数据源应当提供各个历史时期的数据。可见,企业中事务性信息系统的开发与应用是数据仓库建设的基础,没有这些系统,数据仓库就失去了数据来源。

图6-4 数据仓库系统的组成

数据准备部分

数据从数据源进入到数据仓库要经历一系列复杂的操作,这些操作主要包括抽取、清洗、转换和装载,简称为ETL流程(Extract,Transform,Load三个单词的首写字母),这就是数据准备部分的主要任务。

数据抽取。数据抽取(data extraction)是数据仓库按分析主题从数据源中抽取相关数据的过程。由于数据仓库按照主题来组织数据,因此只需要抽取与所需主题相关的那一部分数据,而不需要全部数据。

数据清洗。从多个业务系统中获取数据时,必须进行必要的数据清洗(data cleaning),从而得到准确的数据。所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除。

数据转换。由于业务系统可能使用不同的数据库厂商的产品,而各种数据库产品所提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式,这就是数据转换(data transformation)。例如,把不同时间格式的数据转换为统一的格式。

数据加载。数据加载(data load)是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。

最终,数据转换成为正确的、一致的、统一格式且适合于分析的形式,并装载到数据仓库中。

数据存储部分

数据仓库的数据存储器是一个独立的部分。操作型系统的数据储存通常只包含当前的数据。而且,这些数据使用适合快速和高效处理的数据格式进行存储。在数据仓库储存库中,我们需要存储分析用的大量历史数据,而且必须使这些数据的结构和格式适合分析工作,而不是适合快速检索的单条信息。因而,数据仓库的数据存储与操作型系统的数据存储是分离的。

数据存储部分是数据仓库系统的主体,它包括3个部分。其一是从外部数据源抽取的数据,经清洗、转换处理,并按主题进行组织和存放称其为业务数据仓库;其二是数据仓库的元数据,其三是针对不同的主题生成的数据集市

数据仓库的数据组织结构

根据数据仓库的定义,我们知道数据仓库具有面向主题的、时变的特征。这告诉我们,首先,数据仓库的数据存储是多维的;其次,数据仓库中包含各个历史时期的数据。此外,数据仓库的数据组织还有什么特征呢?

当用户需要查询数据仓库来进行分析工作的时候,他通常首先看汇总数据,如果发现了问题或机遇,则可能希望得到更详细的数据。因而,在数据仓库中,你会发现按不同层次组织数据会很有效,根据查询的需要,你能够得到不同级别的细节情况。数据仓库中的数据粒度就是指这种细节的级别。粒度(granularity)问题是设计数据仓库的一个重要方面。细化程度越高,粒度级别就越低;相反地,细化程度越低,粒度级别就越高。

数据仓库的数据组织结构的另一个特征就是数据仓库中存在着不同的细节级别:早期细节级、当前细节级、轻度综合数据级(数据集市)以及高度综合数据级。一旦数据过期,就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。如图6-5所示。

图6-5 数据仓库的数据组织结构

元数据

数据仓库的元数据与数据库管理系统中的数据字典相似。元数据是关于数据仓库中数据本身信息的数据,它是描述数据仓库中数据的结构和建立方法的数据。

元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

为什么元数据对于一个数据仓库是如此重要呢?首先,它连接了数据仓库的所有部分。其次,它为开发者提供了数据仓库内容和结构的所有信息。最后,它向最终用户打开了数据仓库的大门,使他们能够用自己的话语来辨识其中的内容。

数据集市

数据仓库所存放的是整个企业的数据。有时我们出于时间、成本的考虑,或者想要提高数据的处理效率,而从数据仓库中划出一部分子集。这种面向企业中的某个部门(主题)而划分出来的数据仓库中的数据子集被称为数据集市(data mart),或者说,数据集市是一个部门级的数据仓库。根据建立的目的和数据来源的不同,数据集市通常分为非独立的数据集市和独立的数据集市。

复制的(非独立的)数据集市。复制的数据集市即数据仓库某个部分的复制品,复制的数据集市必须在已有的数据仓库基础上建立。之所以要建立复制的数据集市,是因为有时候操作数据仓库的一小部分显然更加容易,因此,可以将数据仓库的功能子集快速复制到小型数据库中,每一部分都对应一个特定的领域。这种数据集市的作用在于提高处理效率,使数据更易访问。

独立的数据集市。独立的数据集市是直接从操作型环境获取数据,而不再依赖于数据仓库。因此企业可以有一个或者多个独立的数据集市代替数据仓库,每个数据集市负责提供某个特定领域的信息。在这种情况下,必须保证每一数据集市保存的信息和其他的数据集市的信息相兼容。

作为替代方案,以及业务需要,许多企业采用了数据集市。与数据仓库相比,数据集市具有如下一些优点:

成本较低;实施的时间较短;数据集市可以在局部进行控制而不需要在企业范围集中控制,这样用户就有了更多的权力;数据集市比数据仓库包含更少的信息,因此比企业级数据仓库更容易被浏览;数据集市允许业务单元建立自己的决策支持系统而不需要依靠公司的信息系统部门。

数据仓库与决策支持

数据仓库为决策提供了相关数据,但是只是“准备”数据,其内在的信息、知识则需要更多的“武器”进行分析和探索,为了支持决策,可能要使用报表/查询、联机分析处理(OLAP)、高管信息系统(EIS)和数据挖掘等工具,6.3~6.5节将详细介绍这些内容。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈