首页 百科知识 数据的信度效度介绍

数据的信度效度介绍

时间:2022-06-20 百科知识 版权反馈
【摘要】:6.3 联机分析处理还记得我们之前提到过的多维数据模型吗?在数据仓库系统中,联机分析处理是重要的数据分析工具。根据OLAP理事会的定义,OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。下面逐一说明OLAP的分析动作。其中时间、地区、产品是3个维度,销售额是度量变量。

6.3 联机分析处理

还记得我们之前提到过的多维数据模型吗?我们选取时间轴为1月份的截面得到了表6-1。事实上,这一操作就是OLAP。

在数据仓库系统中,联机分析处理(online analytical processing,OLAP)是重要的数据分析工具。OLAP的概念在1993年由E.F.Codd提出。同时,Codd提出了OLAP的12条准则,分别是:OLAP模型必须提供多维概念视图;透明性准则;存取能力推测;稳定的报表能力;客户机/服务器体系结构;维的等同性准则;动态的稀疏矩阵处理准则;多用户支持能力准则;非受限的跨维操作;直观的数据操纵;灵活的报表生成;不受限的维与聚集层次。

根据OLAP理事会的定义,OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据直接转换过来的,它们以用户容易理解的方式反映企业的真实状况。

OLAP的目标是满足决策支持或多维环境下特定的查询和报表需求,其技术核心是“维”这一概念,因此OLAP也可以说是多维数据分析工具的集合。针对多维数据源,OLAP分析主要通过切片、切块、钻取、聚合、旋转等分析操作,使用户能够从不同的角度、不同的细节程度查看数据,从而了解数据背后蕴涵的规律。下面逐一说明OLAP的分析动作。

数据切片

对于一个n维数据集,如果在某一维度上选定一个值,则该数据集就从n维下降至n-1维,称n维数据集的子集(维1,维2,…,维i-1,维i+1,…,维n,度量变量)是n维数据集在维i上的切片。

图6-6是数据切片的示例。其中时间、地区、产品是3个维度,销售额是度量变量。在时间维上选定“Q4”,则形成在时间维上的一个数据切片,显示了第4季度各类产品在各个地区的销售额。类似地,也可以对其他两个维度进行切片操作。

数据切块

对于一个n维数据集(维1,维2,…,维n,度量变量),如果给定了若干维度(图形显示最多只能做到3维)的取值范围,从而形成该数据集的子集(维1,维2,…,a1<维i<b1,…,a2<维j<b2,…,a3<维k<b3,…,维n,度量变量),称这个子集是原始的n维数据集的一个数据切块。

图6-6 数据切片示例

图6-7是一个具体数据切块的示例。在该示例中,时间、地点、产品三个维度上都给定了取值范围。当然,针对其中两个维度给定取值范围,所得到的结果也是原始数据集的一个切块。

图6-7 数据切块示意图

数据钻取与聚合

维度是具有层次性的,如时间维可能由年、月、日构成,维度的层次实际上反映了数据的综合程度。维度的层次越高,所代表的数据综合度越高,细节越少,数据量越少;维度的层次越低,所代表的数据综合度越低,细节越充分,数据量越大。

数据钻取与聚合就是针对维的层次进行操作。其中,钻取是从较高的维度层次下降到较低的维度层次上来观察多维数据。而数据聚合实际上是钻取的逆向操作,是对数据进行高层次综合的操作。

表6-3和表6-4展示了一个企业在不同时间和地理上的销售量的分布情况。在表6-3中,时间的层次是“年”。如果所选择的时间维度向下钻取,就得到表6-4,显示的是此企业各年各季度在各个区域上的销售情况。显然表6-4中各个季度的销售量总和等于表6-3中一年的销售量。反之,如果由表6-4变换到表6-3,则是一个聚合操作。类似地,也可以在地理维等维度上进行钻取与聚合。

表6-3        时间维度为“年”的数据钻取

表6-4        时间维度为“季度”的数据钻取

数据旋转

通过数据旋转可以得到不同视角的数据。数据旋转操作相当于基于平面数据将坐标轴旋转。例如,旋转可能包含行和列的交换,或是把某一维旋转到其他维中去,如图6-8所示。

图6-8 数据旋转

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈