首页 百科知识 数据仓库特点

数据仓库特点

时间:2022-10-18 百科知识 版权反馈
【摘要】:数据仓库是一种为决策支持/数据分析提供数据支持的工具与技术。所谓事务处理主要是指对数据库的日常操作,通常是对一组记录的查询、修改,其操作频率高而操作时间短。但是,数据仓库也有着其与数据库明显不同的特点。将数据仓库的第三、第四两个特性合并起来看,即可以得到:数据仓库中的数据以一定时间段为单位进行统一更新,如前面所提到的水情数据仓库中的水文信息是以“日”为单位统一更新。

16.2.2 数据仓库特点

数据仓库是一种为决策支持/数据分析提供数据支持的工具与技术。它与传统数据库是不同的。传统数据库技术是为事务处理提供数据支持的工具与技术。所谓事务处理主要是指对数据库的日常操作,通常是对一组记录的查询、修改,其操作频率高而操作时间短。人们关心数据安全性与完整性,关心其查询路径与响应时间等技术要求。而数据仓库则主要是为用户提供数据分析服务,它要求数据集成性高,处理时间长。因此,数据库与数据仓库均为应用提供数据支持,但是其处理要求与环境则完全不同,故需专门为数据仓库应用提供特定服务。当然数据库与数据仓库间也存在密切关系,首先数据仓库中的数据大多来源于多个数据库,并经过一定的加工处理而成。其次,数据仓库的数据模式一般也采用关系型的,同时数据仓库也提供相应的查询语言为应用访问数据仓库提供服务。但是,数据仓库也有着其与数据库明显不同的特点。Inmon对数据仓库的特点有一句名言,他说:“数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合。”在这句话中,他给出了数据仓库的四大特点,下面对其作具体的解释。

1)面向主题

数据仓库的数据是面向主题的,所谓主题(subject)即是特定数据分析的领域与目标,由此可知,所谓面向主题的意思即是为特定分析领域与目标提供数据支持。

所要指出的是,为特定分析领域提供的数据与传统数据库中的数据是不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。如国家水文数据库记录国内各水文站不同时刻水位,而在1998年夏天长江流域抗洪期间,为了使抗洪指挥部对水情作出正确的分析与决策,必须提供必要的水情数据,这就是水文数据仓库。这个数据仓库是以国家水文数据库中的数据为基本依据并经过一定抽取加工与整理所形成的,其主要加工原则如下:

(1)仅选取长江流域的水文站数据。

(2)仅选取1998年夏天当时、当前的数据。

(3)特别关注与警戒水位、历史最高水位有关联的那些水文站数据。

以国家水文数据库中的数据为出发点,提供给长江流域抗洪指挥部分析水情主题所建立的水情数据仓库是将国家水文数据库中的数据经过一定抽取加工与整理所形成的。

2)数据集成

数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较和鉴别。因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet上数据等,它们通过数据集成而形成数据仓库的数据。因此,数据仓库的数据一般是由多个数据源经过集成而成。

在上面所提到的水情数据仓库中,除提供水文信息外,还需要有其他数据库提供诸如气象、大堤抗洪能力、守堤抢险人员、抗洪物资供应等有关信息。

3)数据不可更新

数据仓库中的数据一般是由数据库中原始数据抽取加工而得,因此它本身不具有原始性,故一般不可更新。同时为了分析的需求,需要有一个稳定的数据环境以利于分析和决策。因此,数据仓库中的数据一般在一段时间内是不允许改变的,如水情数据仓库中长江各水文站水位是时刻在变化的,但是为方便分析起见,一般只取每天固定时刻水位。

4)数据随时间不断变化

数据仓库数据的不可更新性与随着时间不断变化性是矛盾的两个方面。首先,为便于分析需要使数据有一定稳定期,但是随着原始数据的不断更新,到一定时间后,原有稳定的数据已不能成为分析的基础,即原有稳定数据的客观正确性已受到破坏,此时需要及时更新,以形成新的反映客观的稳定数据。将数据仓库的第三、第四两个特性合并起来看,即可以得到:数据仓库中的数据以一定时间段为单位进行统一更新,如前面所提到的水情数据仓库中的水文信息是以“日”为单位统一更新。

数据仓库数据的上述四个特性是由它的数据分析目标所决定的,同时这些数据为数据分析提供服务。

由上面的分析可以看出在目前应用系统中存在着两种不同类型的数据,它们是由数据库所管理的事务性数据与数据仓库所管理的统计、决策型数据。它们间存在着明显的不同,这可从表16.1看出。

表16.1 两种不同数据的比较

img308

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈