首页 理论教育 变量数列分布离散程度的度量

变量数列分布离散程度的度量

时间:2022-03-14 理论教育 版权反馈
【摘要】:标志变异指标又称标志变动度,是反映总体各单位标志值之间离散程度的指标,它可用来说明平均指标代表性的大小。由于四分位差描述数列中间50%数据的距离,因此,避免了极端数值的影响,作为描述分布离散程度的指标具有较高的稳定性。
变量数列分布离散程度的度量_统计学教程

第二节 变量数列分布离散程度的度量

平均指标是对总体做出概括说明,用以代表总体的一般水平,它能反映一批变量值的集中趋势。但变量值之间还有差异的一面,我们把它叫做离中趋势,平均指标不能说明这一特性。如某车间有两个生产小组,每组都是10个工人,各人的日产量如下:

第一组:20、30、40、50、60、60、70、70、100、120

第二组:58、59、60、61、62、62、63、64、65、66

可以算出,两个生产小组的平均日产量都是62件。但是,第一组各工人之间的生产件数相差很大,第二组则相差较小,说明第二组工人的日产量比第一组的离散程度小。因此,在计算平均数的同时,还需要用标志变异指标测定总体各变量值的离散程度。

标志变异指标又称标志变动度,是反映总体各单位标志值之间离散程度的指标,它可用来说明平均指标代表性的大小。如上例中,两个生产小组平均日产量都是62件,但第一组工人日产量离散程度大,平均日产量的代表性小,第二组工人日产量的离散程度小,平均日产量的代表性比第一组大。标志变动度还可用来说明经济现象的均衡性与稳定性,如产品质量的某一标志值差异较小,说明质量较稳定。由此可见,将平均指标和标志变动度结合起来分析,能使我们对总体的认识更深入、更全面。标志变动度有全距、标准差、标准差系数,以及四分位差、异众比率等。

一、全距(极差)

一个总体中单位标志值最大数和最小数的差距称为全距(Range),用R表示,说明标志值波动的范围,其计算公式为:

R=Xmax-Xmin

如以上两个生产小组工人日产量的全距R(件)为:

第一组:120-20=100

第二组:66-58=8

全距越大,说明标志变动度越大,即变量的波动幅度大。全距计算简单,意义明白,常用它粗略地说明被研究对象的标志变动程度。但是由于它只考虑两个极端数值,若数列中存在一个特大数或特小数,则会影响全距大小,不能全面反映变量的离散程度。

二、标准差和标准差系数

(一)标准差

标准差(Standard deviation)又叫均方差,是各单位标志值对平均数的平均离差。由于img115,所以,在求平均离差时,采用平方的方法来消除离差的正负号,即首先计算离差平方的平均数,然后再开方,正平方根即为标准差。标准差越大,标志值的离差程度越大。标准差习惯上用σ表示,σ2称为方差(Variance)。

对于未分组资料:

img116

对于分组资料:

img117

例3-11:以表3-7中的资料为例,计算标准差。

首先计算完成生产定额百分数的平均数img118。再计算各组标志值(以组中值代替)和平均数的离差以及离差平方等(见表3-8)。从表3-8中所列数字可计算标准差如下:

img119

表3-8   标准差计算表

img120

标准差还可以根据方差的数学性质img121进行计算,即:

img122

式中:img123(未分组资料)

或  img124(分组资料)

仍以表3-7中的资料为例,计算标准差(见表3-9)。根据表3-9中的数字计算标准差如下:

img125

表3-9   标准差计算表

img126

(二)标准差系数

标准差是反映标志变动度的绝对指标,它的大小不仅取决于标志值的离散程度,还取决于数列平均水平的高低,因而对于具有不同平均水平的数列,就不宜直接通过标准差来比较其标志变动度的大小,而需要将标准差与相应的平均数对比,计算标准差系数(Variation coefficient),这样可以消除不同数列平均水平的影响,从而使不同的数列可以进行比较。标准差系数越小,标志值的离散程度越小;反之亦然。

标准差系数的计算公式如下:

img127

式中:Vσ表示标准差系数。

例3-12:设有两个工厂工人日产量资料如下:

表3-10   标准差系数计算表

img128

上例中,甲厂的标准差比乙厂要大得多,但不能由此断言乙厂的平均数代表性大于甲厂,这是因为两厂的日产量水平相差悬殊。计算了标准差系数后,表明乙厂的标准差系数大于甲厂,说明甲厂的平均数代表性大于乙厂。

三、四分位差和异众比率

(一)四分位差

所谓四分位差(Quartile deviation)就是将全部数据从小到大排序,再将数据四等分,分位点对应的数据称为四分位数,记作Q1、Q2、Q3,显然,Q2即为中位数,而四分位差就是Q1到Q3距离的一半,即:

img129

例3-13:根据表3-7中的资料,计算该厂工人生产定额完成百分数的四分位差。

计算四分位差,首先需确定Q1、Q3所在位置。由于一共有100个数据,四等分后,Q1应在第25个位置上,Q3应在第75个位置上,仿照中位数计算方法,可以求得:

img130

则:

img131

由上述计算过程可以看出,四分位差是以中位数为中心点,四分位差越小,意味着中间的数据越集中;反之,则说明中间的数据越分散。因此,四分位差是说明中位数代表性大小的指标。

由于四分位差描述数列中间50%数据的距离,因此,避免了极端数值的影响,作为描述分布离散程度的指标具有较高的稳定性。同时,对于存在开口组的组距数列,也不影响四分位差的计算。

(二)异众比率

异众比率(Variation ratio)是指分布数列中非众数组的频数与总频数的比率。仍以表3-7中的资料为例,总频数为100,众数组频数为27,则:

img132

异众比率的作用在于衡量众数对一组数据的代表性大小。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;反之则说明众数的代表性越好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈