首页 百科知识 离散程度的度量

离散程度的度量

时间:2022-04-09 百科知识 版权反馈
【摘要】:集中趋势是数据分布的一个重要特征,它反映的是变量值向其中心值聚集的程度。根据所依据数据类型的不同,描述数据离散程度的测度值主要有异众比率、四分位差、方差和标准差等。异众比率主要用于衡量众数对一组数据的代表程度。平均差是各变量值与其平均数离差绝对值的平均数,通常用Md表示。总体方差用σ2表示,样本方差用s2表示。自由度指的是计算某一统计量时,取值不受限制的变量个数。

集中趋势是数据分布的一个重要特征,它反映的是变量值向其中心值聚集的程度。数据的离散程度是数据分布的另一个重要特征,它反映的是变量值远离其中心值的程度,因此也被称为离中趋势。集中趋势各测度值是对数据水平的一个概括性度量,其对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的程度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。离散程度的测度值就是对数据离散程度的描述。

根据所依据数据类型的不同,描述数据离散程度的测度值主要有异众比率、四分位差、方差和标准差等。

4.2.1 异众比率

非众数组频数占总频数的比率,称为异众比率(variation ratio),用Vr表示。异众比率的计算公式如下:

其中,∑fi是变量值的总频数,fm表示众数组的频数。

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适用于测度分类数据的离散程度。当然,顺序数据和数值型数据也可计算异众比率。

4.2.2 四分位差

上四分位数(QU)与下四分位数(QL)之差,称为四分位差(quartile deviation),也称为内距或四分间距(inter‐quartile range),通常用Qd表示。四分位差的计算公式为:

Qd = QU -QL (4.5)

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据四等分,与这3个点位置上相对应的数值称为四分位数,分别记为下四分位数(QL)、中位数和上四分位数(QU)。

四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值影响。

4.2.3 方差和标准差

测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差等,其中最常用的是方差和标准差。

4.2.3.1 极差

极差也叫全距,是一组数据的最大值与最小值之离差,即

R= max(xi)-min(xi) (4.6)

极差是描述数据离散程度的最简单测度值,它计算简单,易于理解。但它只是说明两个极端变量值的差异范围,因而不能反映各单位变量值变异程度,易受极端数值的影响。

4.2.3.2 平均差

数值型数据的离散程度可用平均差(mean deviation)来衡量。平均差是各变量值与其平均数离差绝对值的平均数,通常用Md表示。由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。

对未经分组的数据资料,平均差的公式如下:

根据分组数据计算平均差,公式如下:

【例4‐5】 利用表4‐4的职工生产零件数据计算平均差。

表4‐4 平均差计算示例

一般情况下,平均差的数值越大,则其平均数的代表性越小,说明该组变量值分布越分散;反之,平均差的数值越小,则其平均数的代表性越大,说明该组变量值分布越集中。

4.2.3.3 方差和标准差

平均差的实际意义清晰,容易理解,但由于计算过程中对离差取了绝对值,这给计算带来了不便,在实际中应用较少。如果采用平方的方法消除离差的正负号,可便于数学处理。这样计算的离差平均数称为方差。

方差(variance)是各变量值与其平均数离差平方的平均数。总体方差用σ2表示,样本方差用s2表示。方差是实际中应用最广泛的离散程度测度值。

对未分组的数据资料,样本方差计算公式如下:

分组数据的样本方差计算公式如下:

样本方差是用样本数据个数或总额数减去1去除离差平方和,其中样本数据个数减1 (即n-1)称为自由度(degree of freedom)。自由度指的是计算某一统计量时,取值不受限制的变量个数。当样本数据的个数为n时,若样本平均数¯x确定后,附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。按照这个逻辑,如果对n个观测值附加的约束个数为k个,那么自由度就是n-k。

方差的平方根称为标准差(standard deviation)。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在实际使用时,标准差被更广泛地采用。标准差相应的计算公式如下:

未分组数据的样本标准:

分组数据的样本标准差:

【例4‐6】 利用表4‐5的职工生产零件数据计算标准差。

表4‐5 标准差计算示例

总体方差σ2的计算方法:

4.2.3.4 相对位置的度量

在计算了算术平均数和标准差之后,我们可以对一组数据中各个数值进行标准化处理,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有异常值。标准分数(standard score)是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数

设标准分数为z,则有:

标准分数给出了一组数据中各数值的相对位置。例如,99对应的标准分数为1.93,我们就知道该数值高于算术平均数1.93倍标准差。通常,一组数据中高于或低于算术平均数3倍标准差的数值很少,即在算术平均数加减3个标准差的范围内几乎包含了全部数据,而在3个标准差之外的数据,统计上称为离群点。例如,16对应的标准分数为-3.60,它就是一个离群值。

标准化后数据就没有量纲了,但不会改变其在原序列中的位置。在对多个具有不同量纲的变量进行处理时,常常需要对变量数值进行标准化处理。

【例4‐7】 如果有几个学生的考试分数是:99,85,73,60,45,16,计算其标准化数值。

解:假定已知算术平均数和标准差是:¯x=70.00,s=15.00,

然后根据公式(4.13)计算相应的标准化数值:1.93,1.00,0.20,-0.67,-1.61,-3.60。

阅读案例

高考采用标准分数的利弊

对于广东高考模式,华东师范大学张敏强教授表示,使用标准分肯定比原始分更为合理,因为它不但反映了考生在考试中的得分,还能反映出一个考生在当年所有考生中成绩所处的位置,从而更真实、全面地反映出这个学生的水平。

比如说,一个学生数学考了60分,语文考了80分,其总分为140分。但该次考试,全省的数学平均分只有50分,语文平均分有85分。可见该名考生的数学成绩虽然很低,但从全省来看已经算高的了;语文分数虽高,但从全省来看反而是低的。对高校来说,数学专业的老师要录取优质生源,肯定要录取这样的学生。标准分就能够从这个平均分的参照点反映出考生适合读什么学科。

但华东师范大学附属中学教务处吴清主任指出,由于标准分是在全体考生中比较得出的分数,这也使得考生在报考时可以投机取巧。比如,根据广东高考规定,报考体育、艺术专业的考生选考科目大多为历史,但这些考生的文化课分数比普通考生低,这样,在原始分转化为标准分时,历史科低分“垫背”的考生就多些,造成不少普通考生投机取巧,哪科容易得高标准分就报哪科,造成一些考生放弃了特长兴趣。

华东师范大学张敏强教授则认为,把“3+综合+ ×”中的“×科”也一起计算在内,就会产生问题。由于考生选考的×科的科目不同,×科报考的学生人数也不一,使得标准分排序计算失去了意义。近年来,广东报考物理的考生由以往的10多万人迅速降到五六万人。报考的人数不同,计算的密度点就会不同,这样,不同的学科,处于同样的位置,其标准分会产生差异。

资料来源:上海财经大学《社会统计学》省级精品课程网站(有改动)。

4.2.4 离散系数

前面介绍的极差、平均差和标准差都是反映数据分散程度的绝对值,其数据的大小一方面受原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的,离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。

因此,对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数。离散系数(coefficient of variation)是一组数据的标准差与其相应的平均数之比,也称为变异系数

离散系数(Vs)是测度数据离散程度的相对统计量。离散系数通常是用标准差来计算的,因此也称为标准差系数,其计算公式如下:

【例4‐8】 某地两个不同类型的企业全年平均月产量资料如表4‐6所示,计算离散系数。

表4‐6 离散系数比较分析

解:炼钢厂的标准差比纺纱厂大,但我们却不能直接断定炼钢厂的平均月产量的代表性就比纺纱厂的小。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂是性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表4‐6中最后一列的两个企业的离散系数表明,炼钢厂的平均月产量的代表性就比纺纱厂的大,生产比较稳定。其结果与用标准差判断的结果正好相反。

反映离散程度的各个测度值,适用于不同类型的数据。选用哪一种测度值来反映数据的离散程度,要根据数据类型和分析目的来确定。分类数据主要用异众比率来测度其离散程度。顺序数据主要用四分位差来测度其离散程度,当然也可用异众比率。数值型数据虽然也可以使用异众比率、四分位差、极差和平均差等,但主要使用方差或标准差来测度其离散程度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈