三分位差与四分位差的区别

时间：2022-10-21 百科知识版权反馈

【摘要】：离散趋势也叫离中趋势，是指一组数据相互之间的离散程度。要想全面了解一组数据的次数分布情况，不仅需要了解其集中趋势，而且需要了解其离散趋势。对一组数据来说，离散趋势与集中趋势关系也很大。一般而言，计算算术平均数为代表值的离散程度，最直接的方法是计算该组数据的平均差。在实际调查中符合这些条件的资料并不多。离散系数是标准差与算术平均数的比值，用百分数表示。

离散趋势_现代社会调查方法

三、离散趋势

离散趋势也叫离中趋势，是指一组数据相互之间（特别是相对于集中趋势量）的离散程度。它是与集中趋势相对应的次数分布的另一个重要特征。要想全面了解一组数据的次数分布情况，不仅需要了解其集中趋势，而且需要了解其离散趋势。

对两组数据分布来说，我们只有既了解其集中趋势，又了解其离散趋势，才能比较其分布的异同。它们有时集中趋势相同而离散趋势不同，有时离散趋势相同而集中趋势却不同，见图10-1。

图10-1　两组数据分布比较图

例如甲乙两车间工人月平均工资都是600元。但甲车间工人最高工资为700元，最低工资为500元，而乙车间工人最高工资为1 000元，最低工资为350元。显然，这两个车间工人工资分配差异较大。

对一组数据来说，离散趋势与集中趋势关系也很大。离散趋势值越大，则集中趋势值的代表性越小；反之，离散趋势值越小，集中趋势值代表性越大，所以认识离散趋势有助于对集中趋势的理解。只有既研究和了解数据分布的集中趋势，又了解其离散趋势，才能全面认识数据分布状况。

代表数据分布的离散趋势的统计值主要有异众比率全距、四分位差、标准差等等。

1.异众比率（VR）

在用众数作为一组资料的代表值的情况下，这一众数的代表性如何，我们可以用异众比率来反映。

所谓异众比率，就是指非众数的次数与总体内全部单位数的比率。其公式为

N:总次数　　f _mo:众数的次数

例如在表10-7中，众数为良好，f mo＝46，N＝80，则

这说明该班同学成绩中非良好成绩的人数占42%。

异众比率的意义在于指出众数所不能代表的那一部分个案数在总体中的比重到底有多大。异众比率愈小，则众数代表性愈大；异众比率愈大，则众数代表性愈小。

2.全距（R）

全距是测量总体各单位变量数值差距的最简单方法。它指一组数据的最大值与最小值之间的距离，也就是两个极端值之差，全距可以用最大值减去最小值求得。其公式为:

其中:X _max为最大值

X _min为最小值

显然，全距越大，说明离散程度也越大；全距越小，说明离散程度越小。

由于全距的测定仅仅依靠两个极端值，故这种方法很不精确。它对于大量处于两个极端值之间的数值分布情况，以及它们在中心点周围的集中情况，都无法提供有价值的信息。

3.四分位差（Q）

为了避免全距的弱点，可以采取四分位差的方法。所谓四分位差，是指舍去一组数据的极端数据，而采用对数据的中央部分求全距的方法来测定离散程度，也即第三个四分位数Q 3与第一个四分位数Q 1之差的一半。其计算公式为Q＝具体做法是:把一组数据按大小顺序排成序列，然后分成四个数据数目相等的段落，各段落分界点上的数叫四分位数。第一个四分位数（Q 1）以下包括了25%的数据，第二个四分位数（Q 2）是中位数，第三个四分位数（Q 3）以下包括了75%的数据。然后我们舍去资料中数值最高的25%数据和数值最低的25%数据，仅就属于中间的50%数据的一半求其离中数值，就是四分位差。

下面，我们举例说明四分位差的求法。

（1）由原始资料求四分位差

图10-2　四分位数位置示意图

以前面的例4为例。先要找出Q 1和Q 3的位置。

然后从7位职工工龄序列中找到处在Q ₁位置上的数据是5，Q ₃位置上的数据是13。

则四分位差

这说明，这7位职工中，有一半人的工龄在8±4年这个范围内，或者说这一半人工龄在4年至12年之间。

（2）由单项分组资料求四分位差

以前面的例5为例。先找出Q ₁和Q ₃的位置。

Q₁的位置＝（当n很大时，加1与不加1均可）

Q₃的位置＝

然后从累计频数中找出第15和第44分别落在累计频数为34和50这两组内，由此可以得出Q ₁＝20，Q ₃＝22。

则四分位差这一计算结果说明，如果用中位数（本题中M d＝21岁）来估计某年某乡结婚女青年的年龄，则有一半人的年龄在21±1岁这个范围内，即有一半人的年龄在20岁至22岁之间。

（3）由组距分组资料计算四分位差

此时求Q 1、Q 3的公式是

其中:L下1、L下3分别为第一个四分位和第三个四分位点所在组的下限。cf下1、cf下3分别为比第一个四分位和第三个四分位点所在组小的各组的累积次数，f Q1、f Q3分别为第一个四分位和第三个四分位点所在组的次数；i为组距。

例8　以表10-9资料为例。

表10-9　某乡农户年收入分组统计

首先求Q ₁、Q ₃的位置，并找出其所在组的下限。

查表10-9得知，Q₁在7 000—9 000元组，其下限为7 000元。Q₃在9 000—11 000元组，其下限为9 000元。则:

这个计算结果告诉我们，如果用中位数（本题中M d＝8 485.7元）来估计和预测该乡农民家庭户均年收入时，全乡一半家庭的年收入在8 485.7±1 771.5元这个范围内，即该乡有一半家庭的年收入在6 714.2元至10 257.2元之间。

四分位差弥补了全距的不足，不受极端值影响。一般当我们用中位数表示集中量时，就用四分位差表示差异量。但它未能充分利用所有数据，因而不能反映数据分布的全部差异情况，所以要慎重使用。

4.标准差

标准差，是指一组数据中各个数值与算术平均数相减之差的平方和的算术平均数的平方根。一般而言，计算算术平均数为代表值的离散程度，最直接的方法是计算该组数据的平均差。但由于在计算平均差时，采用了绝对值，不便于代数运算，所以为了避免平均差的弱点而采用另一种能使离差之和不等于零的方法，即先将离差（X－）平方以取消正负号，再开方还原。这样计算离差平方的算术平均数的算术平方根，就是标准差，记为σ（如果不开方还原，就是方差）。标准差是最重要、最常用的差异量指标。其计算公式为:

其中Xi为各个数值，X为算术平均数，n为总体单位数。根据数据资料的形式不同，标准差仍分为两种计算方法:

（1）由原始资料计算标准差

根据原始资料计算标准差时，使用上面给出的公式即可。

例9　对甲乙两班各抽5名同学进行随堂测验，所得成绩如下:

甲班:68　69　70　71　72＝70

乙班:45　62　70　78　95＝70

两班的平均成绩都是70分，但是要判断哪班分数的差异小，平均数的代表性高，就要用计算标准差来解决这一问题。

可见甲班同学分数差异小（1.41），则平均分70的代表性大；乙班同学分数差异大（16.6），则平均分70的代表性小。

（2）根据分组资料计算标准差

①由单项分组资料计算标准差。计算公式为:

我们仍使用表10-3资料（平均数为3.5人）。列表计算标准差如下:

这一实际结果的意义是，这个地区的家庭人口相对于家庭平均数3.5人来说，其标准差是1.19人。

②由组距分组资料计算标准差。

计算公式为

这里的X _mid是指各组的组中值。我们按下表资料（平均数为2 785.7）来计算。列表计算标准差:

这一结果说明该单位职工工资的标准差是958.3元。

综上所述，异众比率全距、四分位差、标准差都是说明总体中某一数量标志的差异程度，反映了个别现象的变异性、偶然性和分散性等，而平均数代表社会现象的一般性、同质性、必然性，因此，平均数与标准差在统计学中简单明了地描述了实际生活中的一般与特殊、本质与表象。

5.离散系数

前面所讲的离散程度都属于绝对差异量，它们可以直接比较两组数据资料的差异程度，但必须要求这两组数据的集中量数大致相同，单位相同，两组数据的总体单位相近，才可比较。在实际调查中符合这些条件的资料并不多。相对差异量数则可以不受这些条件的限制，它使我们能够对两种不同单位的数据的离散程度，或者对两个不同总体的离散程度进行比较。

离散系数是标准差与算术平均数的比值，用百分数表示。在算术平均数不为零的情况下，离散系数越大，数据的离散程度越大，集中趋势值的代表性越小；反之，数据的离散系数越小，则离散程度越小，集中趋势值的代表性越大。计算公式为