研究资料的初步整理

时间：2023-03-03 理论教育版权反馈

【摘要】：资料的初步整理是相对于下一章的推论统计分析而言的，它主要包括：数据的统计分类和统计图表的制定等。因此，计算一个代表一组数据的代表数值是非常必要的，而集中趋势的度量就是指确定一组数据的代表值，其结果称为集中量数，包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等，由于几何平均数和调和平均数在心理与教育研究中极少运用，在此不再介绍。

资料的初步整理是相对于下一章的推论统计分析而言的，它主要包括：数据的统计分类和统计图表的制定等。数据的统计分类与本章前述资料的分类、汇总有所重复，因此本节不再赘述。经过初步整理，数据的基本特征和性质已经粗略地反映出来，但要对数据进行深入的统计分析，还必须通过描述统计进一步分析数据的特征。数据的特征主要包括集中趋势和离散趋势及双变量关系。

一、心理与教育统计中的基本概念

心理与教育统计学中包括许多概念，先了解这些概念是很有必要的。其中最常用的和最基本的概念包括下列一些。

（一）总体、样本、个体

总体（population）是指具有某种特征的一类事物的全体，构成总体的每个基本单元称为个体（individual），从总体中抽取的一部分个体称为总体的一个样本（sample）。很显然，这三者是紧密相关又有区别的三个概念。首先，总体是由个体构成的，没有个体，就无所谓总体，而且每个个体的性质对总体的性质有着直接的决定性影响。其次，样本是总体中的一个组成部分，没有总体，就没有样本，样本是相对于总体而言的。再次，样本的代表性不仅取决于样本量的大小，而且还与样本中的个体的性质有直接关系，一般情况下，同样的样本量，个体间越同质，样本的代表性越低。

（二）统计量与参数

在心理与教育统计学中，描述数据统计特征的指标，也有总体与样本之分。表示样本统计特征的统计指标叫统计量（statistic），表示总体统计特征的统计指标叫参数（或总体参数、母数）（parameter）。为了区分统计量与参数，同一概念用不同的符号来表示（参见表16-3）。

表16-3　统计量与参数的表示符号

pagenumber_ebook=530,pagenumber_book=530

（采自　申继亮，1995）

由于样本是总体中的一个组成部分，因此统计量与参数是密切相关的。当总体的大小已知并与实验观测的总次数相同时，统计量与参数指的是同一个统计指标；当总体为无限时，统计量与参数不同，在这种情况下可以用统计量来推断参数。

（三）统计图表简介

由于统计图表的制定在心理与教育统计学专书中另有专门论述，因此此处仅对统计图与统计表进行简单介绍，不再专门论述两者的制定问题。

统计图就是依据数字资料，应用点、线、面、体、色彩等描绘制成整齐而又有规律、简明而又知其数量的图形。心理与教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图等等。所有的统计图都应包含图号、图题、图目、图形和图注几个方面（具体实例请参考有关统计学书籍，此处不再列出）。统计图能把事实或现象的全貌形象化地呈现出来，便于理解和记忆。但统计图有其不足之处，即图示的数量不易准确，若制图不当反而掩蔽事实真相，使用时应倍加注意。

统计表是用表格的形式呈现研究的数量化结果的方式之一。统计表的种类很多，主要包括原始数据表、次数分布表和分析结果表。其中，分析结果表最为常用。标准的统计表其构造一般包括序号、名称、标目、数字和表注几部分（具体实例请参考有关统计学书籍，此处不再列出）。

二、集中趋势的度量

在心理与教育科学研究中，所获得的数据是离散的，数值大小也不尽相同，依靠原始数据很难把握一组数据的特征，也难于进行不同组数据间的比较。因此，计算一个代表一组数据的代表数值是非常必要的，而集中趋势（central tendency）的度量就是指确定一组数据的代表值，其结果称为集中量数（central tendency measure），包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等，由于几何平均数和调和平均数在心理与教育研究中极少运用，在此不再介绍。

（一）算术平均数

算术平均数（arithmetic mean，简称AM）是应用最普遍的一种集中量数，它是观测数值的总和除以观测数值的个数所得的商。算术平均数一般又简称平均数（或均数）（mean），只有与几何平均数、调和平均数、加权平均数相区别时才把它称为算术平均数。算术平均数的代表符号通常以变量的符号上面加一横线来代表。例如，如果用变量X1，X2，X3，…，Xn代表各观测数值，N代表观测数值的个数，则算术平均数的计算式子为：

在大多数情况下，算术平均数是真值的最佳估计值。但由于每个数据都参与了算术平均数的计算，观测数据中任何一个数据的变化都会影响到算术平均数的变化。因此，在计算算术平均数时应特别注意检测有无极端数值，即过大或过小的数据，一旦有极端数值出现，就不宜再用算术平均数作为集中量数。此外，在计算算术平均数时还应注意数据的同质性。所谓同质数据（cohort data）是指使用同一个观测手段，采用相同的观测标准，能反映某一问题的同一方面特质的数据。如果使用不同质的数据计算平均数，则该平均数不能作为该组数据的代表值。例如，对一个班学生的身高与体重进行测量，身高的数据与体重的数据就不是同质数据，很显然我们不能把这两者放在一起计算平均数。

（二）中　数

中数（或中位数）（median，简称Mdn），它是指数据的次数分布上处于50%位置处的数值，即位于一组数据中较大一半与较小一半中间位置的数。中数既可能是原始数据中的一个，也可能不是原有的数据，例如一组数据：2，7，8，9，10，12，12，13，13，21（N＝10）的中数为11。中数可用原始数据计算，也可用频次分布（或次数分布）计算，关键在于抓住数据组中间位置这一特点。中数的计算非常简便，但反应不灵敏，对于极端数据不如算术平均数敏感。因此常被用于偏态分布、极端数据、模糊数据的分布中表示集中趋势。中数受抽样的影响较大，稳定性不如算术平均数，而且不能作进一步的代数运算。因此，在一般情况下，中数不被普遍应用。

（三）众　数

众数（mode，简称Mo）是指在次数分布中，出现次数最多的那个数的值。众数可以通过观察的方法直接得到，也可以采用积分的方法求取。众数的概念简单明了，容易理解，但它不稳定，受分组的影响，亦受样本变动的影响，且不能作进一步的代数运算，因此众数不是一个良好的集中量数。但由于它较少受极端数据的影响，反应不够灵敏，常用于以下特殊情况：（1）在需要快速而粗略地计算时；（2）当一组数据出现不同质时；（3）当出现极端数据时。

以上三种集中量数在不同的次数分布中，所描述的情况及大小关系是有区别的。当数据的分布为正态时，三者相等；当数据的分布为正偏态时，平均数＞中数＞众数，当数据的分布为负偏态时，众数＞中数＞平均数。

（四）加权平均数

加权平均数（weighted mean）主要用于计算测量所得数据的单位权重不相等的情况。所谓权重或权数，是指各变量在构成总体中的相对重要程度。加权平均数的计算公式为：

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈