首页 理论教育 数据仓库技术

数据仓库技术

时间:2022-03-04 理论教育 版权反馈
【摘要】:其中,元数据库是对数据的一种描述,贯穿整个系统的各个部分。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据。其中数据仓库管理则负责管理数据仓库;元数据管理负责对元数据进行管理。元数据描述了数据仓库的数据和存储环境,数据仓库设计运行、维护与使用的基本参数。

13.3.1 数据仓库技术

“数据仓库之父”W.H.Inmon在他的Building the Data Warehouse一书中指出:“数据仓库是面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。”这是目前公认的最为准确、全面的关于数据仓库的概念定义。这个简短而又全面的定义指出了数据仓库的主要特征[8]:面向主题性、集成性、时变性、非易失性。面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织,如客户、供应商、产品来建立的。集成性是指数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,消除了源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息;非易失性是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,避免了以往决策分析中面对同一问题,因为数据的变化而导致结论不同的尴尬。时变性表现在数据仓库的数据是在一个很长的时间上的数据,数据仓库中的数据一旦被正确地记录就不能被更新。

数据仓库系统是以数据仓库为基础,通过集成工具、查询工具和分析工具完成对数据的转换和对信息提取的系统。通常采用如图13-4所示的体系结构[9]:数据源、数据存储和管理、数据分析以及数据展示。其中,元数据库是对数据的一种描述,贯穿整个系统的各个部分。

img127

图13-4 数据仓库系统的体系结构

数据仓库的数据一般分为操作数据库源数据和外部源数据两部分。操作数据源包括各种生产系统数据库、联机事务处理系统的操作数据库等;外部源数据一般来自企业的外部信息,如市场调查与分析及各类文档等。导入的源数据形成了数据仓库的原始数据,然而源数据只是数据仓库的一部分,但不是全部。由于需要数据仓库进行OLAP分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求得到更好的分析结果。

数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”)。数据仓库的管理包括数据仓库管理、元数据管理以及数据的安全、归档、备份、维护、恢复等工作。其中数据仓库管理则负责管理数据仓库;元数据管理负责对元数据进行管理。元数据描述了数据仓库的数据和存储环境,数据仓库设计运行、维护与使用的基本参数。

数据访问和分析工具不但要提供一般的数据访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能,即数据挖掘的功能,如数据的比较、趋势分析、模式识别等。而数据仓库的数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在业务上有意义的信息,而不只是通用的数据查询和操作功能。

数据展示将应用结果,特别是分析、决策结果以多种媒体形式表示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈