首页 理论教育 集中趋势指标

集中趋势指标

时间:2022-05-06 理论教育 版权反馈
【摘要】:尽量保证所取的组数能反映资料的分布特征,避免出现频数空白的组段。组段的确定首先要了解组段的含义,对于连续性资料,一个组段的含义是包括组段的下限而不含组段的上限。因此,第一个组段的下限可以略小于或等于最小值,最后一个组段的上限要略大于最大值。但要精确地描述这两个特征,需用下面介绍的集中趋势和离散趋势指标。分布的类型不同,统计描述时所选择的统计指标也不同。适用条件是资料呈正态分布或近似正态分布。

一、集中趋势指标

资料的分布类型不同,统计描述的指标也不同,因此在对资料描述之前首先要弄清资料的分布类型,可通过对原始资料制作频数分布表(table of frequency distribution)或分布图来了解。

(一)数值变量资料的频数分布

1.频数分布表的制作步骤 下面以例6-1的数据说明频数分布表的制作步骤:

例6-1 某地某年140名20岁正常男子的身高资料如表6-1,试编制频数分布表。

表6-1 某地某年140名20岁正常男子的身高值(cm)

img124

(1)计算极差或全距:找出观察值中的最大值和最小值,二者之差为极差或全距(range),常用R表示。本例中最大值为188.5cm,最小值为160.8cm,故本例全距R=188.5-160.8=27.7(cm)。

(2)决定组数、组距和组段:根据观察值例数决定组数,一般取8~15组。观察值例数较多时,组数也取多一点,反之亦然。尽量保证所取的组数能反映资料的分布特征,避免出现频数空白的组段。组距常用i表示img125。本例组数取10,则组距img126,为了制表的简便,组距常取整数或一位小数,故i≈3(cm)。组段的确定首先要了解组段的含义,对于连续性资料,一个组段的含义是包括组段的下限而不含组段的上限。因此,第一个组段的下限可以略小于或等于最小值,最后一个组段的上限要略大于最大值。本例第一组段的下限取160cm,以下组段依次加上组距3cm,见表6-2的第(1)栏。

(3)列表划记并写出频数(f):划分组段后,将原始数据用划记法得各个组段的频数(f),见表6-2的第(2)、(3)栏。

表6-2 某地某年140名20岁正常男子身高值的频数分布表

img127

2.频数分布图 将身高值的组段作为横轴,以相应的频数作为纵轴,画出如图6-1的频数分布图即直方图,以每个直条的面积代表各组段的频数。通过对频数分布表6-2或频数分布图6-1的观察,可以直观地看出资料的分布有两个重要的特征:其一为集中趋势(central tendency),身高的测量值虽然高低不等,但向中间集中,中等身材(172~175cm)的人数最多;其二为离散趋势(tendency dispersion),即随着身高测量值逐渐变大或变小,人数越来越少,向两端分散。但要精确地描述这两个特征,需用下面介绍的集中趋势和离散趋势指标。

3.频数分布的类型 从图6-1可以看出,图形中间的直条最高(高峰在中央),两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布(normal distribution)或近似正态分布。若高峰位于左侧,被称为正偏态分布(skewed positively distribution),如某种疾病的潜伏期的分布;若高峰位于右侧,被称为负偏态分布(skewed negatively distribution),如某种慢性病的年龄分布。分布的类型不同,统计描述时所选择的统计指标也不同。

(二)集中趋势指标

集中趋势指标也叫平均数(average),是一组用于描述数值变量资料平均水平(或集中趋

img128

图6-1 某地某年140名20岁正常男子身高值的直方图

势)的指标。根据资料的分布类型不同统计上常用算术均数、几何均数及中位数这三种平均数。

1.算术均数(arithmetic mean) 算术均数也简称为均数。总体均数用希腊字母μ(读作 mu)表示,样本均数用 img129(读作x·bar)表示。适用条件是资料呈正态分布或近似正态分布。计算公式为

img130

公式中∑为求和的符号(读作sigma),xi为各观察值,n为例数。

例6-2 某地10名19岁正常女大学生的体重(kg)为48,50,52,53,53,55,58,58,59,62,求平均体重。

img131

例6-3 对例6-1的资料计算其平均身高值。

img132

2.几何均数(geometric mean) 几何均数用G表示,适用条件是资料呈倍数关系或对数正态分布。计算公式为

img133

例6-4 有8人的血清滴度为1∶2,1∶4,1∶8,1∶16,1∶32,1∶64,1∶128,1∶256,求其平均滴度。

将各滴度的倒数代入公式(6-2)得:

img134

血清的平均滴度为1∶23。

计算几何均数时应注意:①变量值中不能有0,因为0不能取对数。②同一组变量值不能同时有正、负值。③若变量值全为负值,可在计算时将负号除去,算出结果后再冠以负号。

3.中位数和百分位数(median and percentile) 中位数简记为M,是把一组观察值按大小顺序排列,位置居中的那个数值。百分位数简记为Px,读作第x百分位数,是将一组观察值从小到大排列后,分成100等份,第x等份处的变量值即为Px,理论上有x%的观察值比Px小,有(100-img135)%观察值比Px大。显见中位数即第50百分位数,用P50表示。

百分位数适用的条件是:偏态分布资料,分布类型未知的资料,有极端值的资料,一端或两端无确定数值的资料。

计算方法有直接法和频数表法。

(1)直接法:适用于例数不太多的资料。将n个变量值从小到大排列,当n为奇数时,位置居中的那个数值就是M;当n为偶数时,位置居中的两个数值的平均数就是M,公式为

img136

例6-5 某地7人伤寒患者的潜伏期(天)为2,3,5,8,9,10,16,求其平均潜伏期。

本例数据已从小到大排列,n=7为奇数,则中位数为

M= img137(天)

例6-6 某地10名杆菌痢疾治愈者的住院天数如下:9,5,4,7,7,12,20,24,21,>50,求其平均住院天数。

先将观察值从小到大排列为4,5,7,7,9,12,20,21,24,>50,n=10为偶数,则中位数为

img138

(2)频数表法:当变量值个数较多时,先编制频数表,然后按公式(6-4)计算中位数,按公式(6-5)计算百分位数,其中公式(6-4)是公式(6-5)的特例。

img139

式中:L为中位数或百分位数所在组段的下限;

i为中位数或百分位数所在组段的组距;

fm,fx分别为中位数和百分位数所在组段的频数;

∑fL为中位数或百分位数前一组段的累积频数。

因此,计算中位数或百分位数时关键是找出中位数或百分位数所在的组段,可由频数表计算累计频数或累计频率,累计频数略大于n/2或累计频率略大于50%的组段即中位数所在组段;累计频数略大于nx%或累计频率略大于x%的组段即为百分位数Px所在的组段。具体步骤见例6-7。

例6-7 某地205名伤寒患者的潜伏期资料如表6-3,试求平均潜伏期和潜伏期的P25,P75百分位数。

表6-3 某地205人伤寒患者的潜伏期

img140

先计算累计频数或累计频率,见表6-3的第(3)栏与第(4)栏,从而找到中位数、p25及p75的组段为8~10、4~6及10~12,将相应的数值代入式(6-4)与式(6-5)得

img141

本例平均潜伏期为8.22天,有25%的患者潜伏期在5.74天以下,有75%的患者潜伏期在10.28天以下。

应用中位数和百分位数注意事项:①中位数和百位数的计算对资料没有特殊要求,所有资料均可计算中位数和百分位数。一般情况下,在例数较多时,分布在中间的百分位数较稳定,靠近两端的百分位数,仅在样本含量足够大时才趋于稳定,所以当样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围。②中位数只受位置居中的变量值影响,与两端的极端值无关,因此在对极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。③百分位数常用于描述偏态分布资料的离散趋势,如P75-P25称为四分位数间距(见本节“二”中第(二)点的内容),还可用于确定偏态分布资料的正常值范围(见本节四中内容)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈