首页 百科知识 变量数列分布中心位置的度量

变量数列分布中心位置的度量

时间:2022-03-14 百科知识 版权反馈
【摘要】:第一节 变量数列分布中心位置的度量对变量数列的分布,中心位置的度量能够指出总体单位标志值的集中趋势,而中心位置是以平均数表示的。(二)加权算术平均数当资料已经加以分组得出频数分布数列时,须先求每组的标志总量并加总,求得总体标志总量,然后再计算算术平均数。凡是变量的连乘积等于总比率或总速度的现象,都可以用几何平均数计算平均比率或平均速度。
变量数列分布中心位置的度量_统计学教程

第一节 变量数列分布中心位置的度量

对变量数列的分布,中心位置的度量能够指出总体单位标志值的集中趋势(Central tendency),而中心位置是以平均数表示的。因为就多数经济变量数列分布情况来看,通常是接近平均数的标志值居多,远离平均数的标志值很少,而且与平均数离差越小的值频数越多,离差越大的值频数越少,形成正离差和负离差大体相等。整个变量数列以平均数为中心而左右波动,所以平均数反映了总体分布的集中趋势。同时,平均数抽象掉各总体单位标志值之间的差异,反映总体特征的一般水平。

平均指标一般有两类,即数值平均数和位置平均数。数值平均数是由分布数列所有变量值来确定的,这类平均数由于计算方法不同,有算术平均数、调和平均数、几何平均数等;位置平均数是先将各单位标志值按一定顺序排列,然后取某一位置单位的标志值作为反映一般水平的代表值,这类平均数也由于确定的方法不同,有中位数、众数等。

一、算术平均数

算术平均数(Arithmetic mean)是最常用的一种平均指标,其计算的一般方法是,由某一总体的标志总量(各单位标志值的总和)与总体单位数对比而得。例如,职工平均工资是由企业职工的工资总额与职工总人数对比而求得。因此,其计算公式应为:

img51

利用该公式计算算术平均数时,应注意:分子、分母为同一总体的两个总量指标。

由于所具备的资料不同,算术平均数有两种计算方法,即简单算术平均数与加权算术平均数。

(一)简单算术平均数

当标志总量是由各单位标志值简单加总而来的,这样计算出来的平均数称为简单算术平均数。其计算公式为:

img52

式中:img53表示算术平均数;X表示单位标志值;∑表示求和的符号;n表示总体单位数。

例3-1:某生产班组有11个工人,每人日产某零件数为:15、17、19、20、22、22、23、23、25、26、30。则每人平均日产量(件)为:

img54

计算结果22件就是该班组11个工人的人均日产量,反映该班组工人的一般生产水平,是抽象掉具体工人日产量之后的一个代表值。在计算过程中,个别高数值和个别低数值互相抵消了,因而具有集中趋势的作用。

(二)加权算术平均数

当资料已经加以分组得出频数分布数列时,须先求每组的标志总量并加总,求得总体标志总量,然后再计算算术平均数。

例3-2:某车间200个工人按日产量分组资料见表3-1。

表3-1   某车间工人按日产量分组表

img55

根据表3-1中的资料,应先求出各组工人的日产量总数,加总后再除以车间工人总数,就是该车间工人的平均日产量,具体计算如下:

img56

上式用公式表示,可写为:

img57

式中:X表示各组变量值;f表示各组频数,也称权数。

这种平均数称为加权算术平均数,它的大小不仅决定于各单位标志值X的大小,而且也决定于各标志值频数f的多少,频数多的标志值对平均数的影响要大些,而频数少的标志值对平均数的影响相应地小些。标志值频数的多少对平均数的大小具有权衡轻重的作用,所以被称为权数,而标志值与频数相乘,则称为加权。

加权算术平均数也可用频数的比率img58(也称作权重)来计算,即:

img59

如例3-2用权重计算,则:

img60

在组距式分布数列的条件下,计算平均数的方法与单项式数列基本相同,只是首先需要计算组中值,并以组中值作为各组的代表值,而后进行加权计算。

例3-3:某车间200个工人按日产量分组资料见表3-2。

表3-2   某车间工人按日产量分组表

img61

img62

应该注意的是,用组中值作为各组的代表值,是以假定该组数据是均匀分布为条件的,实际上不可能完全均匀。因此,不可避免地存在着误差,计算出的平均数是近似值。

计算加权算术平均数时,选择权数应保证权数与标志值相乘具有经济意义,能够构成总体标志总量,符合算术平均数的基本公式。

例3-4:某市15个企业产值计划完成情况的分组资料见表3-3。

表3-3   某市15个企业产值计划完成情况分组表

img63

根据表3-3中的资料,计算15个企业平均计划完成程度,由于计划完成程度乘以企业数没有实际意义,不能构成总体标志总量,因此,企业数不能作为权数,而计划任务数能够满足权数的要求,其计算公式如下:

img64

(三)算术平均数的数学性质

1.各变量值与其算术平均数的离差之和等于零,即img65。证明如下:

img66

加权算术平均数证明如下:

img69

2.各变量值与其算术平均数的离差平方之和为最小。

img73

img76

以X0为中心的离差平方之和为:

img77

由于  img78

所以  img79

由于  c2≥0

所以  img80

因此  img81

二、调和平均数

调和平均数(Harmonic mean)是变量值倒数的算术平均数的倒数,又称倒数平均数,有简单调和平均数和加权调和平均数两种。在经济统计中,主要使用的是权数为特定形式(m=Xf)的加权调和平均数,这时,调和平均数是作为算术平均数的变形来使用,其计算公式如下:

img82

下面举例说明。

例3-5:某工业公司所属12个企业生产同种产品,其单位成本分组资料见表3-4。

根据表3-4中的资料,要计算全公司12个企业生产该种产品的平均单位成本,用产量作为权数,计算如下:

img83

表3-4   某公司12个所属企业同种产品平均单位成本计算表

img84

如果我们掌握的资料不是各组产品产量,而是各组总成本,那就需要用调和平均数计算了。如表3-5所示。

表3-5   某公司12个所属企业同种产品平均单位成本计算表

img85

根据计算平均单位成本的基本公式,img86,则:

img87

计算结果与按加权算术平均数计算相同。

由上可知,对于不同的资料要正确选择计算平均水平的方法,最重要的是符合平均指标的基本公式。

三、几何平均数

几何平均数(Geometric mean)是n个变量值乘积的n次方根。在经济统计中常用它来计算平均比率和平均速度。凡是变量的连乘积等于总比率或总速度的现象,都可以用几何平均数计算平均比率或平均速度。其计算公式为:

img88

例3-6:某发电厂其发电量的各年发展速度资料见表3-6,求平均发展速度。

表3-6   某电厂1999~2003年发电量资料

img89

img90

以上所求的几何平均数,各个变量值的频数是相同的,称为简单几何平均数。当每个变量值的频数不相同时,可用加权几何平均数计算。其计算公式为:

img91

例3-7:投资银行某笔投资的年利率是按复利计算的,15年的年利率分别是:2年为5%,3年为5.6%,4年为7%,2年为8%,4年为10%,求平均年利率。

计算平均年利率必须先将各年利率加100%换算为各年本利率,按几何平均数求出平均年本利率,再减100%得平均年利率。其计算如下:

img92

即15年的平均年本利率为107.37%,平均年利率为7.37%。

四、中位数

将标志值按照大小次序排列起来,处于中间位置的数值叫中位数(Median)。中位数不受数列中极端数值的影响,可用来代表总体某一标志值的一般水平。

对于未经分组的资料,确定中位数的方法是,先将数值按大小顺序排列起来,再按下列公式求中位数的项次:

img93

如果标志值的项数是奇数,则居于中间位置的那个变量值就是中位数。

例3-8:某生产班组11个工人,某日产量按顺序排列如下:

15、17、19、20、22、22、23、23、25、26、30

img94。数列的第6项,即日产量22件为中位数。

对于组距式的分组资料确定中位数的方法要复杂一些,现举例说明。

例3-9:某厂工人按完成生产定额百分数的分组资料见表3-7。试确定中位数。

表3-7   某厂工人生产定额完成百分数分组表

img97

2.计算向上累计频数,看出中位数在累计频数为57的组内,即在110~120这一组内。

3.确定中位数(近似值)。假定频数在组内的分配是均匀的,可采用插入法计算。其方法如下:

以中点位置减去上一组的累计频数,例中为50-30=20,故有20人在110~120这一组,即中位数位置应在110~120这一组的下限至上限的20/27处。由于组距等于10%,中位数与该组实际下限相距:

img100

于是可计算得100名工人生产定额完成百分数的中位数:

110%+7.4%=117.4%

以上是从下限开始计算的。如果是从上限开始计算,即向下累计,其方法相同,只是以中点位置减去该组下一组的累计频数。例中为50-43=7,故有7人在110~120这一组,中位数位置应在110~120这一组的上限至下限的7/27处。由于组距等于10%,中位数与该组实际上限相距:

img101

于是可计算得100名工人生产定额完成百分数的中位数:

120%-2.6%=117.4%

可见,从下限算起与从上限算起结果相同。该算法可用公式表示如下:

img102

式中:Me表示中位数;L表示中位数所在组的下限;fm表示中位数所在组的频数;Sm-1表示中位数所在组以下的累计频数;∑f表示总频数;h表示中位数所在组的组距。

将上例代入公式为:

img103

式中:U表示中位数所在组的上限;Sm+1表示中位数所在组以上的累计频数。

将上例代入公式为:

img104

五、众数

众数(Mode)是在总体中出现频数最多的那个标志值,也是最常见的数值。众数不受极端数值的影响,有时可以通过众数反映经济现象发展的一般水平。在实际工作中,应用众数可以说明现象的普遍程度,如了解农贸市场某种商品价格水平,可用该商品市场上最普遍的成交价代表一般行情。而在许多场合,只有众数才适合作为总体一般水平的代表值,如消费者需要的衣服、鞋袜的号码等。

众数的确定有两种情况:

其一,对于单项变量数列的众数就是出现频数最多的那个变量值。例如,从表2-2资料中可以看出,50户中,每户3口人的户数最多,所以3人为所求的众数。

其二,对于组距变量数列,确定众数的方法也是用插补法。仍以表3-7的资料为例加以说明。首先找出频数最多的那一组作为众数组,本例中最多的工人数为27,因此,110~120是众数组。然后再计算众数的近似值,从表中可以看出,众数组以下一组的人数是14,以上一组的人数是20,显然,众数不在众数组的中点位置即115%,而是偏向于以上一组。可以按下式计算:

img105

式中:Mo表示众数;L表示众数组下限;U表示众数组上限;f表示众数所在组的频数;f-1表示众数所在组以下一组的频数;f+1表示众数所在组以上一组的频数;h表示众数所在组的组距。

例3-10:试根据表3-7中的资料,确定100个工人生产定额完成百分数的众数。

代入下限公式,得:img106

代入上限公式,得:

img107

在实际中,算术平均数、中位数和众数三者中,算术平均数的应用最为广泛,但在某些特殊场合使用中位数和众数比较合适。中位数的确定仅取决于它在数据序列中的位置,因此,不受少数特大数或特小数的影响,在这一点上它优于算术平均数。一般说来,在分布数列有较明显的偏斜度时,用中位数来反映分布的集中趋势比算术平均数更具有代表性。

众数仅受其左右相邻两组频数大小的影响,不受一系列数值中极端数值的影响,即便是有开口组的分组资料,也可以求众数。在实际中,众数也有它特殊的用途。

算术平均数、中位数和众数在钟形分布数列中的位置关系,有以下几种情况:

1.在分布数列呈完全对称分布时,则三者必重合于一点。即img108Mo,如图3-1(a)所示。

2.分布数列呈右偏时,算术平均数在众数位置的右边,中位数在算术平均数和众数之间,如图3-1(b)所示。

3.分布数列呈左偏时,算术平均数在众数位置的左边,中位数仍在两者之间,如图3-1(c)所示。

img109

图3-1 X、Me、Mo之间的关系

根据经验,在分布的偏斜程度不太显著时,三点大致构成一个较固定的关系,即中位数与算术平均数的距离约等于众数到算术平均数距离全长的1/3,而中位数与众数的距离约等于众数与算术平均数距离的2/3。于是可得到以下关系式:

img110

img114

所以,工人完成生产定额的分布为右偏。

上述集中趋势指标如果依据组距数列计算,则存在需要近似计算的问题。如果将观察值绘制成茎叶图,由于茎叶图保留了观察值的原始信息,均值等数值平均数可直接用原始数据计算,不必再用组中值来近似计算,中位数等位置平均数也只需在相应的树叶中寻找确定。如图2-6中共30个观察值,中位数位置应为(n+1)/2=(30+1)/2=15.5,中位数为第15和第16个观察值的平均数,即Me(%)=(106+106)/2=106。众数在茎叶图中为出现频数最多的树叶,如本例中108%出现频数最多,即为众数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈