首页 百科知识 集中趋势的度量

集中趋势的度量

时间:2022-08-24 百科知识 版权反馈
【摘要】:集中趋势的度量指标主要为平均数、众数和中位数。算术平均数是集中趋势中最主要的测度值,适用于数值型数据,但不适用于分类数据和顺序数据。简单算术平均数其数值的大小只与变量值的大小有关。算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础。众数是一组数据中出现次数最多的那个变量值,通常用M0表示。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比算术平均数要好。

集中趋势(central tendency)反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行测度就是寻找数据一般水平的中心值或代表值。集中趋势的度量指标主要为平均数、众数和中位数。

4.1.1 平均数

平均数又叫平均指标,是同质总体各单位某一数量标志值在一定时间、地点、条件下达到的一般水平,是反映现象总体综合数量特征的重要指标。平均数有两种形式:算术平均数和几何平均数。

4.1.1.1 算术平均数

算术平均数(arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号¯x表示。算术平均数是集中趋势中最主要的测度值,适用于数值型数据,但不适用于分类数据和顺序数据。其基本公式是:

算术平均数= 某数量标志的总和/对应的个体总数

由于所掌握的资料形式不同,算术平均数有不同的计算形式和计算公式。

根据未经分组整理的原始数据计算算术平均数,即简单算术平均数。设一组数据为x1, x2,… ,xn,则:

【例4‐1】 某个生产小组10名工人按计件领取报酬,他们的工资各不相同,分别是1000元、1480元、1540元、1600元、1650元、1650元、1740元、1800元、1900元、2500元。求这10名工人的平均工资

解:平均工资=1000+1480+1540+…+1900+250010 =1686(元)

加权算术平均数适用于分组整理并编制出频数分布的数据资料。设原始数据被分成k组,各组的组中值分别为M1,M2,… ,Mk,各组变量值出现的频数分别为f1,f2,… ,fk,则:

分组数据计算加权算术平均值,应先计算出每组的组中值,以此作为各单位标志再进行计算。应该指出的是,利用组中值作为各组变量的代表值计算算术平均数带有一定的假设性,即假定各组变量值在组内是均匀分布的。但实际上完全均匀的分布是不可能的。因此,分组数据的加权算术平均值只是一个近似值。

【例4‐2】 某行业40个企业的产品销售收入数据如表4‐1所示,请计算企业的平均销售收入。

表4‐1 企业销售收入分组表 单位:万元

从以上计算过程可以看出次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。

简单算术平均数其数值的大小只与变量值的大小有关。加权算术平均数其数值的大小不仅受各组变量值大小的影响,而且还受各组变量值出现的次数即权数大小的影响。

算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,平均数是一组数据的重心所在,是数据误差抵消后的结果。

算术平均数的两个重要性质:

(1)各变量值与其平均数离差之和等于零,即

(2)各变量值与其平均数离差平方之和等于最小值,即

4.1.1.1 几何平均数

几何平均数(geometricmean)是n个变量值连乘积的n次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通常用¯x G表示。几何平均数的计算公式如下:

其中,∏ 是连乘符号。

【例4‐3】 某市从1990年以来的14年,各年的工业增加值的增长率资料如表4‐2所示,计算这14年的平均增长率。

表4‐2 工业增加值的增长

解:平均发展速度:

再还原成平均增长率:

平均增长率=平均发展速度-100% =109.45% -100% =9.45%

4.1.2 中位数

中位数(median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用Me表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。

中位数是一个位置代表值,因此它不受极端变量值的影响。中位数主要用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据。

当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例如:根据7,6,8,2,3这五个数据求中位数,先按大小顺序排成2,3,6,7,8。在这个序列中,选取中间一个数值6,小于6的数值有两个,大于6的数值也有两个,所以6就是这五个数值中的中位数。

当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例如,一个按大小顺序排列的序列2,5,7,8,11,12,其中位数的位置在7与8之间,中位数就是7与8的平均数,即:Me=7.5。

【例4‐4】 某班同学按年龄分组,资料如表4‐3所示,求中位数。

表4‐3 学生年龄数据

解:年龄中位数的位置为=25.5,说明位于第25与第26位同学之间,根据累计次数可确定中位数为第三组的变量值19岁。

中位数是从中间点将全部数据等分为两部分。与中位数类似的概念还有四分位数、十分位数和百分位数等。它们分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。

4.1.3 众数

众数(mode)是一组数据中出现次数最多的那个变量值,通常用M0表示。众数具有普遍性,在统计实践中,常利用众数来近似反映社会经济现象的一般水平。例如,说明某次考试学生成绩最集中的水平。说明城镇居民最普遍的生活水平等。

众数是个位置代表,它不受数据中极端值的影响。从分布的角度看,众数是具有明显集中趋势的数值。一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在。如果有连个或多个最高峰点,也可以有两个或多个众数。如图4‐1所示。

众数主要用于分类数据集中趋势的测度。当然也可以作为顺序数据或数值型数据集中趋势的测度值。一般来说,只有在数据量较大的情况下,众数才有意义。

众数的确定要根据掌握的资料而定。未分组资料或单项数列资料的众数比较容易确定,不需要计算,可直接观察确定。即在一组数列或单项数列中,次数出现最多的那个变量值就是众数。如表4‐3中,19岁出现的人数最多,为26人,所以19岁就是众数。

4.1.4 众数、中位数和算术平均数比较

众数、中位数和平均数是集中趋势的三个主要测度指标,它们具有不同的特点和应用场合。

4.1.4.1 众数、中位数和算术平均数的关系

大部分数据都属于单峰分布,其众数、中位数和算术平均数之间具有以下关系:如果数据的分布是对称的,则M0= Me= ¯x如图4‐1(a)所示;如果数据是左偏分布,说明数据中偏小的数较多,这就必然拉动算术平均数向小的一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为M0> Me> ¯x ,又叫负偏,如图4‐1(b)所示;如果数据是右偏分布,说明数据中偏大的数较多,必然拉动算术平均数向大的一方靠,则M0< Me< ¯x ,又叫正偏,如图4‐1(c)所示。

图4‐1 众数、中位数和算术平均数的关系

4.1.4.2 众数、中位数和算术平均数的特点与应用场合

众数、中位数和平均数各自具有不同的特点,掌握它们之间的关系和特点,有助于在实际应用中选择合理的测度值来描述数据的集中趋势。

众数是一组数据分布的峰值,是位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比算术平均数要好。其特点是具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。

中位数是一组数据中间位置上的代表值,也是位置代表值,其特点是不受极端值的影响。对于具有偏态分布的数据,中位数代表性要比算术平均数好。

算术平均数由全部数据的计算所得,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响,对于偏态分布的数据,算术平均数的代表性较差。

阅读案例

千万问清楚是哪个平均数

我相信你不是一个势利小人,而我也并不做房地产生意。但请让我们假定,此刻你正在一条我熟知的街上看房子。对你的情况进行了初步判断后,我巧舌如簧、费尽心思地让你相信附近居民的平均年收入大约有10000英镑。也许这坚定了你要在此居住的信心,不管怎样,买卖最终成交了,那美妙的数字也被牢记在你的脑海。而且,既然你已经买下了房子———你有那么一点势利,当与朋友聊天时,你就会不经意地流露出你居住的地点:我住在一个相当棒的高收入小区。

一年左右过后,我们又见面了。作为某纳税者委员会的成员,我正在四处奔走,为降低税率、降低财产估价或降低公共交通费用而呼吁。我的理由很简单,我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。也许你会加入到我们委员会的工作中来———你不仅势利,而且还挺吝啬。但是,当听到那可怜的2000英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还是一年前撒了谎?

其实这两次你都无法怪罪于我,利用统计撒谎的妙处被展现得淋漓尽致。无论是10000英镑,还是2000英镑,它们都是正规的平均数,计算方法也完全正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是相同的,但显然其中有一个数据令人误解,足以与弥天大谎相媲美。

我的花招就是两次分别使用了不同的平均数,“平均数”这个词宽泛的含义帮了大忙。当一个家伙希望用数据影响公众观点,或者向其他人推销广告版面,平均数便是一个经常被使用的伎俩,虽然偶尔是出于无心,但更多的时候是明知故犯。所以,当你被告知某个数是平均数时,除非能说出它的具体种类———均值,中位数,还是众数,否则你对它的具体含义仍知之甚少。

在希望数值较大时,我使用的10000英镑是均值,也就是附近居民收入的算术平均数。你只要将所有家庭的收入加起来并除以家庭总户数便可得到这种算术平均数。数值相对较小的是中位数,它告诉我们一半家庭的年收入超过2000英镑,另一半家庭的年收入不及2000英镑。我还可以利用众数———所有家庭收入序列中出现次数最多的那个收入。例如,附近的居民中年收入为3000英镑的家庭数是最多的,那么收入的众数就是一年3000英镑。

资料来源:上海财经大学《社会统计学》省级精品课程网站(有删改)。

提示:当你被告知某个数是平均数时,除非能说出它的具体种类———均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈