首页 百科知识 数据仓库和数据集市

数据仓库和数据集市

时间:2022-06-18 百科知识 版权反馈
【摘要】:一、数据仓库和数据集市(一)数据仓库数据仓库是随着应用需求的不断演化,以及数据管理技术的不断发展而诞生的,它是数据库技术的延伸和发展。数据仓库则围绕这些主题组织数据。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。数据仓库收集了整个组织的主题信息,因此,它是企业范围的数据存储。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库。

一、数据仓库和数据集市

(一)数据仓库

数据仓库是随着应用需求的不断演化,以及数据管理技术的不断发展而诞生的,它是数据库技术的延伸和发展。著名的数据仓库专家W.H.Inmon在其著作Building the Data Warehouse一书中对数据仓库做了如下定义:“数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策。”这个简短而又全面的定义指出了数据仓库主要特征的四个关键词:面向主题的、集成的、非易失的、随时间变化的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)区别开来。

面向主题的(subject-oriented):传统的操作型数据库是围绕公司的应用进行组织的,如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。数据仓库则围绕这些主题组织数据。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。

集成的(integrated):构造数据仓库通常是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。由于各个应用系统在编码、命名习惯、实际属性、属性度量等方面不一致,当数据进入数据仓库时,要使用数据清理和数据集成技术,确保命名约定、编码结构和属性度量等指标的一致性。

非易失的(nonvolatile):和传统的操作型数据库系统相比,数据仓库通常是以批量方式载入和访问。而且,对于数据仓库中的记录,并不进行一般意义上的数据更新和删除。所有的历史数据都会被保留,通常我们只是不停地批量导入新的数据。

随时间变化的(time-variant):操作型数据库系统出于性能上的考虑,并不保存系统投入运行后所产生的所有数据,一般只保留最新的60~90天内所产生的数据记录。而且,通常情况下,操作型数据库中一项业务活动只占用一条记录。当业务状况发生变化后,我们只需更新相应的记录。而为了按时间变化发掘业务活动的时序规律,在数据仓库中,该业务活动可能同时存在多条记录,除了相应字段的内容不同外,其业务活动的时间记录也不相同。数据仓库中的数据是一系列在某时某刻生成的复杂的快照,由此可见,数据仓库的数据是高度冗余且必需的。

从这些特性可以看出,数据仓库是将从多个数据源收集的信息,按照单一的模式进行存储,并通常将这些信息驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据加载和定期数据刷新来构造其内容。数据仓库收集了整个组织的主题信息,因此,它是企业范围的数据存储。宽松地讲,数据仓库是一个大型的数据库,一个企业或其他组织可以将它与组织机构的操作数据库分别进行维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上,人们习惯于从工作过程等方面来分析,并按其关键技术部分分为数据的抽取、存储与管理以及数据的表现三个基本方面。

(1)数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互联、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

(2)存储与管理:数据仓库的真正关键是数据的存储与管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

(3)数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。

一般数据仓库系统的体系结构如图6-3所示,它包括以下几个主要部分:

图6-3 数据仓库系统体系结构

资料来源:《什么是数据仓库》,http://blog.csdn.net/chensheng913/archive/2004/08/22/81703.aspx。

(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉,数据仓库的数据源多种多样,既可能是结构化数据,如传统的数据库,也有可能是非结构化数据,如文档、电子邮件等信息。

(2)数据的存储与管理:是整个数据仓库系统的核心,数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

(3)OLAP服务器:根据数据分析的需要,对数据按多维模型予以组织,同时提供对数据进行多角度、多层次分析的工具,以便发现数据中蕴涵的趋势。

(4)前端工具:主要包括报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

(二)数据集市

与数据仓库相关联的另外一个概念是数据集市。由于数据仓库通常是企业级应用,其容量动辄以TB计(1TB=1000GB),甚至达到数十、上百TB,因此涉及的范围和投入的成本都非常巨大,使一些企业无力承担。因而,它们希望在最需要的关键部门建立一种适合自身应用的、自行定制的部门数据仓库子集。这就产生了数据集市。数据集市是数据仓库的一个子集,其特点是主要面向部门级业务,并且仅包含一个或少量几个特定主题的数据,因此实现起来更容易,花费也少,可以在一定程度上缓解访问数据仓库的“瓶颈”。

值得注意的是,数据仓库与数据集市有着本质的区别:数据仓库是围绕着它自己的主题域而组织起来的,这些主题域着眼于企业的全局数据模型而不是个别部门的当前需求。其次,数据仓库并不为部门分割所有,而是为整个企业的某个具有集中协调能力与权威的机构——通常是企业的IT部门——所有,它只服务于企业全局性的长期战略目标。

数据仓库和数据集市各有优缺点,但通常不应用多个数据集市来代替数据仓库的建设,否则可能会存在如下问题:各数据集市之间对详细数据和历史数据的存储存在大量冗余;同一个主题在不同数据集市的查询结果可能不一致甚至相互矛盾;各数据集市之间及与源生产系统之间难以管理。

对于部门级的数据分析,数据集市通常具有更好的效率,然而企业级的全局数据分析则需要完整的数据仓库。在BI系统中,通常需要数据仓库和数据集市并存。

案例6-2:某企业集团的数据仓库与数据集市解决方案[9]

1.背景及需求

某集团公司是经国务院批准组建的特大型企业集团,经过前期的信息化建设,该集团在内部实施了全面预算系统,统一了预算口径,统一了各下属企业的财务核算软件,规范了核算的标准,积累了大量的数据。在此基础上,该集团提出了更高的管理需求,如:如何加快信息的传递及时性?如何加强信息传递的全面性?如何保证报表数据的真实性?如何快速地发现异常,及时防范风险?如何对现有数据进行深入应用,对经营状况作出全面分析?如何打破各个部门之间的信息孤岛,把关键信息在各个部门之间有效地传递共享?等等。

2.解决方案

在近50家二级集团构建数据集市,建立二级集团的组织结构,面向分析主题设计数据集市结构。利用浪潮数据收集平台定时对下属所有三级、四级企业的核算数据进行采集,按照组织结构装载到数据集市中,对关键数据进行预处理,以提高分析效率。基于数据集市,进行查询、预警、分析等应用。

在集团总部构建数据仓库,建立完整的集团组织结构,面向分析主题设计数据集市结构。

利用数据收集平台定时对所有下级300家左右企业的核算、报表数据进行采集,按照组织结构装载到数据仓库中,对关键数据进行预处理,以提高分析效率。基于数据仓库,进行查询、预警、分析等应用。

在数据集市、数据仓库的基础上,实施了五个关键模块:

(1)决策报表系统。提供全面、联通的信息浏览方式。可以按照组织设置,以树形结构列示集团内所有报表,并能从集团汇总报表联查出各下级单位的报表数据构成情况,从任意下级单位报表数据联查到三栏明细账,从三栏明细账联查到凭证。可以对报表上关键数据进行自定义的分析。比如:可以对应收账款按照欠款单位分析,对于具体欠款单位可以分析出其在集团其他下属企业的往来账目,有效规避了恶意欺诈的风险。

(2)财务预警系统。能够对所有下属企业按照预先设定的异常评价方法进行风险评价,给出量化评分,按照异常程度采用红黄绿不同颜色标示。帮助管理者快速找到异常企业,可以深入分析异常指标,查找异常原因。

(3)智能分析系统。能够融合管理智慧,预制、完善财务分析模型,自动形成包含KPI、文字评价、数据表格、分析图形的Word形式的分析报告。

(4)历史资料系统。搭建了一个信息共享平台。不仅仅存放财务数据、分析资料,各部门的资料、分析报告等都可以通过上传到历史资料平台,进行共享。从而形成一个突破部门限制,突破专业限制,丰富的企业级的历史资料库。

(5)万能查询系统。提供了开放的查询开发平台。可以满足客户在应用中发现问题,及时分析问题的需求,可以帮助客户快速开发原先系统中没有的查询。

3.实施效果

(1)加快了信息收集的速度,增强了集团管理力度。通过实施上述系统,把下级企业经营信息的周期从月缩短到周;信息收集的范围从报表数据扩展到全部业务数据,从技术上保证了管理力度的加强。

(2)加快了异常预警的速度,增强了风险预告能力。把关键企业的关键KPI进行预警设置,可以实时对企业状况进行扫描,一旦发生异常,及时进行报警,并能对异常详情进行分析,及早规避风险。

(3)减轻了财务分析工作量,提高了财务分析的准确性。把各类企业的分析报告模板预制到系统中,可以根据企业的真实数据,自动形成图文并茂的分析报告,把分析人员从繁杂的寻找数据、整理数据的工作中解放出来。

(4)突破了部门、专业限制,建立了资料共享数据库。可以把各部门、各类信息,如财务的、融资的、审计的、考核的、销售的、生产的信息存放在统一的企业资料库中,为企业高层决策提供全面的支持。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈