首页 理论教育 离散趋势指标

离散趋势指标

时间:2022-05-06 理论教育 版权反馈
【摘要】:对数值变量资料的特征描述仅用集中趋势指标还不够,需用另一个描述变量间变异的离散趋势指标,这一点可从例6-8看出。常用的离散程度指标有:极差、四分位数间距、方差、标准差及变异系数。四分位数间距是一组变量中中间50%变量间的极差,因此比极差R要稳定,但仍未考虑到每个观察值的变异度。因此标准差有以下用途:①表示变量的离散程度:在均数相近和度量单位相同的条件下,标准差大表示变量值的离散程度大。

二、离散趋势指标

对数值变量资料的特征描述仅用集中趋势指标还不够,需用另一个描述变量间变异的离散趋势指标,这一点可从例6-8看出。

例6-8 有三组同性别、同年龄儿童的体重(kg):

img142

从集中趋势来分析,因三组均数相同,故三组儿童的体重没有差别,然而这三组数据的分布特征却各不相同,就是说各组的5个数据参差不齐的程度(即变异)是不一样的。因而仅用均数来描述这组资料显然不够全面,而必须考虑变量之间的离散程度。常用的离散程度指标有:极差、四分位数间距、方差、标准差及变异系数

(一)极差

极差(range)亦称全距,简记为R,是一组变量值中最大值与最小值之差。反映变量分布的范围,极差越大,说明变量间的变异大;反之,说明变异小。如例6-8中:

R=34-26=8(kg)

R=36-24=12(kg)

R=34-26=8(kg)

甲组、丙组的极差小,乙组的极差大,说明甲组、丙组的体重比乙组集中。但甲组与丙组的极差相同,而变量的分布却不同,这反映了用极差表示变异的缺点。①不灵敏:仅反映最大值与最小值之间的差异,当组内其他数据变动时,极差仍然不变。②不稳定:当样本例数增加时,获得过大或过小变量值的可能性增大,因而极差可能变大。故极差虽然简单明了,但不是一个描述变异的理想指标。

(二)四分位数间距

四分位数(quartile)是两个特定的百分位数,即P25、P75,P25称为下四分位数,记为QL,P75称为上四分位数,记为Qu。四分位数间距(inter-quartile range)简记为Q。

img143

四分位数间距是一组变量中中间50%变量间的极差,因此比极差R要稳定,但仍未考虑到每个观察值的变异度。它常用于描述偏态分布资料的离散程度。

例6-9 仍以例6-7的资料为例,计算潜伏期的四分位数间距。

用例6-7的P25,P75代入式(6-6),得

Q=10.28-5.74=4.54(天)

(三)方差和标准差(Variance and standard deviation)

极差和四分位数间距只利用了个别百分位数,因而出现了极差或四分位数间距相同,但变量值的分布不同的缺点,我们必须考虑全部变量值的离散程度。就总体而言,应考虑每个变量值x与总体均数μ之差,称为离均差。由于(x-μ)有正有负,显然,∑(x-μ)=0即离均差总和为0,这样不能反映变异程度,故将离均差平方后再相加,即∑(x-μ)2,称为离均差平方和(sum of square,简记为SS),但∑(x-μ)2的大小,除与变异程度有关外,还与变量值的个数N有关,因此可取离均差平方和的均数,这就是总体方差(也叫均方),用σ2表示,即

img144

因方差单位是原度量单位(如cm,kg等)的平方,为了恢复成原单位,所以又将方差开平方,这就是总体标准差。

img145

然而在实际工作中常常得到的是样本资料,总体均数μ往往未知,只能用样本均数img146作为μ的估计值,因此可用img147代替(x-μ)2,用样本例数n代替N。但直接代入式(6-8)算得的结果总比总体标准差低(有偏估计),英国统计学家W.S.Gosset提出用n-1代替n代入式(6-8)即得样本标准差s的计算公式(6-9),式中n-1为自由度(degree of freedom)记为ν。s2即样本方差。

img148

例6-10 仍以例6-8为资料,计算三组资料的标准差。

img149

s>s,即甲组的变异大于丙组,从而克服了极差的缺点,精确地区分出三组变异的大小。例6-11 仍以例6-1资料计算身高值的标准差。

img150

方差和标准差的意义都可以说明正态分布或近似正态分布资料的变异程度。算出的数值越大,说明变异程度越大,反之亦然。因此标准差有以下用途:①表示变量的离散程度:在均数相近和度量单位相同的条件下,标准差大表示变量值的离散程度大。均数对这组变量的代表性越差;反之标准差小,表示变量值的离散程度小,均数的代表性也好。②结合均数可以描述服从正态或近似正态分布资料的分布特征,计算参考值范围(见本节“四”的内容)。③用于计算变异系数(见下面的内容)和标准误(见第二节“一”的内容)。

(三)变异系数

变异系数(coefficient of variation)简记为CV,它是一个相对变异指标,可适用于比较度量衡单位不同或均数相差悬殊的多组资料的变异程度。其公式为

img151

例6-12 某地20名19岁女大学生,其身高均数为158.9cm,标准差为5.3cm;体重均数为55.2kg,标准差为6kg。试比较身高和体重的变异何者为大。

img152

由此可见,该地19岁女大学生体重的变异大于身高的变异。

例6-13 有某地两个不同年龄儿童组段的身高均数与标准差,1~2月儿童组的身高均值为56.3cm,标准差为2.1cm,5~5.5岁儿童组的身高均值为107.8cm,标准差为3.3cm,试比较这两个年龄组段的变异大小。

img153

由此可见,1~2月儿童组的身高变异大于5~5.5岁儿童组的身高变异。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈