首页 百科知识 均值比较与检验

均值比较与检验

时间:2022-10-21 百科知识 版权反馈
【摘要】:Means过程是对指定变量综合描述统计,包括均值、方差、中位数、最大值和最小值等统计量的计算。Compare Means中专门提供了对均值进行假设检验的命令。这种相关或配对样本常常来自实验前后被观测的样本或者跟踪调查的样本等。放在同一层表示的是不同分组情况下,均值的差异情况。例11 假设某城市工人的平均月工资是3000元,随机抽取了427名工人进行调查,得到data10.3的数据结果,统计样本的现在工资,并作假设检验,推论总体的工资情况。
均值比较与检验_社会调查与统计

第三节 均值比较与检验

均值分析是用样本均值来推论总体均值的方法,SPSS软件Compare Means菜单中提供了对均值进行计算和检验的过程。

1.Means过程

Means过程是对指定变量综合描述统计,包括均值、方差、中位数、最大值和最小值等统计量的计算。用Means过程求若干组的描述统计量,目的在于进行比较,但是各组之间的均值差异是否真的存在,则需要进行检验,Means过程提供了ANOVA方差分析的结果。

2.T test过程

Compare Means中专门提供了对均值进行假设检验的命令。均值的假设检验主要是Z检验和t检验,Z检验可以看做是t检验的特例,无论样本的大小如何,皆可用t检验法,t检验主要有三种形式:

(1)单个样本T检验(One-Sample T Test),主要是检验样本的均值与总体均值是否存在差异。

(2)独立样本的T检验(Independent-Samples T Test),是用两个不相关样本的均值来估计两个总体的均值是否相等的检验方法。

(3)配对样本T检验(Paired-Sample T Test),通过两个相关或配对样本两次测量结果的差异来检验两个总体的差异是否显著。这种相关或配对样本常常来自实验前后被观测的样本或者跟踪调查的样本等。

(4)One-Way ANOVA过程:单因素方差分析,用于检验多个独立样本的均值差异是否显著。

一、Means过程

Means模块的功能是计算指定变量的描述统计量,包括均值、标准差、总和、中位数、最大值、最小值、方差等一系列单变量描述统计量,并可以给出方差分析表和线性检验结果。

1.Means分析与检验过程

(1)点击Analyze→Compare Means→Means,打开对话框,见图10-39。

img268

图10-39 Means分析对话框

(2)Dependent List:因变量选择项。

Dependent List是因变量窗口,要分析的变量作为因变量进入该窗口。因变量可以选择一个,也可以选择多个。

(3)Independent List:分组变量的选择项。

Independent List是分组变量#自变量窗口,对因变量的计算将按照分组变量进行分组统计。将要分组的变量放入该窗口,同时激活Next按钮。自变量可以是一个也可以是多个,自变量可以放在第一层,也可以放在不同层。放在同一层表示的是不同分组情况下,均值的差异情况。放在不同的层,则表示建立了一个控制层,显示的结果是在控制某一变量的情况下,比较均值,如我们分析民族不同的男女的受教育年数,这时将受教育年数放在“Dependent List”窗口,民族放在“Independent List”窗口,点击“Next”进入“Layer 2 of 2”,表示可以建立第二层了,这时将性别变量放入“Independent List”窗口。这时统计的结果是不同民族男女的受教育年数的均值(见表10-19)。

表10-19 基本描述统计量

img269

(4)Options:选择输出的统计量。单击Options按钮,打开如图10-40的对话框。

img270

图10-40 Means分析的统计量

该对话框包括了三个方面的统计量:

①Statistics:列出了Means可求的统计量。包括:中位数(Median)、分组中位数(Grouped Median)、均值的标准误(Std.Error of Mean)、观测值的总和(Sum)、最小值(Minimum)、最大值(Maximum)、全距(Range)、第一个观测值(First)、最后一个观测值(Last)、方差(Variance)、峰度(Kurtosis)、峰度的标准误(Std.Error of Kurtosis)、偏度(Skewness)、偏度的标准误(Std.Error of Skewness)、调和均值(Harmonic Mean)、几何均值(Geometric Mean)、每组总和占总和的百分比(Percent of Total Sum)、每组中观测量占总观测量数N的百分比(Percent of Total N)。

②Cell Statistics:选中的统计量。以下三个统计量是系统默认统计量:算术平均值(Mean)、个案数(Number of Cases)和标准差(Standard Deviation)。除了这三个统计量,如果还需要对其他的统计量进行统计,则可以在Statistics窗口中选择即可。

③Statistics for First Layer:第一层统计中的两个统计量。

●Anova table and eta:对分组变量进行单因素方差分析,并计算两变量相关eta值。

●Test for linearity:检验线性相关。这个选项主要用于分组变量为定序变量的情况。

上述选项完成后,单击Continues按钮返回主对话框。

(5)提交运行。点击OK按钮。在结果窗口中可以看到统计结果。

2.实例分析

例10 用data10.3数据分析男女被调查者现在工资的差异情况。

打开数据文件data10.3后,执行下述操作:

(1)点击Analyze→Compare Means→Means,打开Means对话框。

(2)从左侧的源变量窗口中选择“现在工资(a4)”进入Dependent list窗口。选择“性别(a1)”到Independent list窗口。

(3)单击“Options”按钮,选择输出的统计量。

①从Statistics窗口中选择Median、Minimum和Maximum,使之进入到Cell Statistics窗口中,其他默认。

②在Statistics for First Layer框中选择Anova table and eta,对分组变量进行方差分析,计算eta。单击Continues按钮。

(4)单击OK按钮,提交运行。可以在输出结果窗口中看到表10-20、表10-21、表10-22、表10-23的结果。

表10-20 均值分析的统计概要

img271

表10-20是对样本个案数的简要介绍,分析的个案数为427,缺失为0。

表10-21 均值分析的结果

img272

表10-21是均值分析的结果,分别了列出女性、男性以及调查样本的工资的均值、个案数、标准差、最小值和最大值。

表10-22 方差分析结果

img273

表10-22是方差分析的结果,其中F值为106.215,由于显著性水平Sig.为0.000,小于0.01,认为各组之间平均值的差异是显著的,也就是说0.01的显著性水平下,男性和女性的工资是存在差异的。

表10-23 相关测量结果

img274

表10-23是“性别”和“现在工资”两变量的相关测量结果。Eta为0.447,Eta的平方为0.2,也就是说用性别来预测现在工资差异时,可以减少20%的误差。

二、单一样本的T检验(One-Sample T Test)

One-Sample T Test过程是检验单个变量的均值是否与给定的常数之间存在差异。

1.单一样本T检验的过程

(1)点击Analyze→Compare Means→One-Sample T Test,打开如图10-41的对话框。

img275

图10-41 One-Sample T Test检验对话框

(2)Test Variable(s):选择分析变量。将左边源变量窗口中的要分析的变量引入Test Variable(s)窗口,要分析的变量可以是一个,也可以是多个。

(3)Test Value:确定待检参数。在Test Value窗口中输入要检验的总体参数值,也就是假设检验中原假设的值。

(4)Options:确定置信度和缺失值。单击Options按钮,打开如图10-42的对话框。

img276

图10-42 t检验的置信度和缺失值选择项框

其中,①Confidence Interval:检验置信度。系统默认值为95%,即在原假设成立的条件下,样本均值出现的概率如果小于5%,则不能接受原假设。

②Missing Values:设置缺失值的处理方法。

●Exclude cases analysis by analysis:只剔除分析变量为缺失值的个案。这是默认选项。

●Exclude cases listwise:剔除含有任何缺失值的个案。

上述选项做完以后,单击Continue按钮,返回单个样本T检验主对话框。

(5)单击OK按钮,提交运行。在输出结果窗口中输出t检验的结果。

2.实例分析

例11 假设某城市工人的平均月工资是3000元,随机抽取了427名工人进行调查,得到data10.3的数据结果,统计样本的现在工资,并作假设检验,推论总体的工资情况。

打开数据data10.3,执行下列操作:

(1)点击Analyze→Compare Means→One Sample T Test,打开单个样本T检验对话框。

(2)从左侧源变量窗口中选择“现在工资(a4)”进入Test Variable(s)窗口。

(3)在Test Value窗口中输入3000。

(4)点击Option按钮,取各选项默认值,即显著度是95%和只剔除分析变量为缺失值的个案。

(5)单击OK按钮,提交运行。可以在输出结果窗口中看到如表10-24和表10-25的结果。

表10-24 基本描述统计量

img277

上表显示,调查的427人的月平均工资为3405.7505,标准差是1671.85,标准误为80.91。

表10-25 单一样本T检验的结果

img278

t检验的结果,即假设工人现在月工资是3000元的情况下,计算得t值为5.015,自由度df为426,双尾t检验的概率值p小于0.05,所以可以否定原假设,也就是该城市工人的平均月工资已经不是3000元,可能已超过了3000元。

三、独立样本的T检验(Independent-Samples T Test)

独立样本的T检验,要求被检验的两个样本相互独立,没有配对关系。检验的目的是通过比较两个样本均值的大小来确定两个样本的均值是否存在差异。检验之前,要用F检验对两个样本进行方差齐性即等方差的检验,确认两个总体的方差相同之后,用t检验法对这两个样本的均值进行检验。

1.独立样本T检验的步骤

打开数据后,执行下述操作:

(1)点击Analyze→Compare Means→Independent-Samples T Test,打开如图10-43的对话框。

img279

图10-43 独立样本T检验对话框

(2)Test Variable(s):选择分析变量。从左边的源变量窗口选择要分析的一个或多个变量放入分析变量窗口Test Variable(s)。

(3)Grouping Variable:确定分组变量。从左边的源变量框中选择一个变量作为分组依据进入Grouping Variable窗口,同时激活Define Groups按钮。

(4)单击Define Groups按钮,打开分组对话框,见图10-44。

img280

图10-44 分组对话框

由于独立样本的T检验是对两个总体的均值差进行检验,所以作为分组依据的变量只能取两个值。

①如果指定的分组变量是定类变量,在Define Groups对话框中选择Use specified values,按照变量的值进行分组,在Group1和Group2中输入定类变量值。如果选择的变量是字符串变量,单击Define Groups按钮,则出现如图10-45的对话框,直接在这两个窗口中输入变量值即可。

img281

图10-45 分组对话框

②如果指定的分组变量是连续变量,或取值较多的离散型变量,则可选择Cut point选项。选择该项后,在后面的矩形框中输入一个值,将观测量分成大于该值和小于该值的两个组,比较两个组的均值是否存在显著性差异。

(5)Options:确定置信度和缺失值。与单个样本T检验选项对话框完全相同。

(6)单击OK按钮,提交运行。在输出结果窗口中输出检验结果。

2.实例分析

例12 根据data10.3,分析男性和女性工人的月收入差异情况。

打开数据文件后,执行下述操作:

(1)点击Analyze→Compare Means→Independent-Samples T Test,打开对话框。

(2)从左边的源变量中选择“现在工资”放入Test Variable(s)窗口。

(3)选择“性别”放入Grouping Variable窗口中。

(4)单击Define Groups按钮打开对话框,选择Use specified values项,在Group1和Group2窗口中分别输入1和2。单击Continues按钮,返回主对话框。

(5)单击OK按钮,提交运行。可以在输出结果窗口中看到如表10-26和表10-27的结果。

表10-26 简单描述统计量

img282

表10-26是分男女的基本情况的描述统计。

表10-27 独立样本t检验的结果

img283

Levene's Test for Equality of Variances是方差齐性检验。采用t检验的方法对两个总体的均值进行检验的前提条件是两个总体分布的方差必须相等。对于大样本可以不做这样的要求。通过F检验来确定总体的方差是否相等,从而来确定可以接受的t值。Equal variances assumed表示方差相等,Equal variances not assumed表示方差不相等,如果Levene's Test for Equality of Variances检验中总体的方差是相等的,在确定t检验时就选择Equal variances assumed方差相等一行对应的t值;如果检验结果是两个总体的方差不相等,则确定t检验时,应采用Equal variances not assumed方差不相等一行对应的t值。

从表10-27的检验结果看,F值为103.855,显著性水平为0.000,远小于0.05,虽然可以否定两个方差相等的假设。方差不相同时t检验的结果为-10.875,显著性水平为0.000,所以可以说,在95%的显著性下,不同性别的工人的收入是有显著差异的。

四、配对样本的t检验(Paired-Samples T Test)

配对样本的t检验,要求被比较的两个样本有配对关系,指的是对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。均值的配对比较是常见的,如对一个人工资变化情况的比较,前后两次测量的血压进行比较等。

1.配对样本检验过程

打开数据后,执行下述操作:

(1)点击Analyze→Compare Means→Paired-Samples T Test,打开如图10-46的对话框。

img284

图10-46 配对样本T检验对话框

(2)Paired Variable:配对变量。Current Selections显示选择的两个变量,Paired Variables显示已经配对的变量。从左边的源变量框中选择两个变量,选择的两个变量会在Current Selections中显示出来。将选择的变量放入Paired Variable窗口中,形成配对变量。

(3)Options:确定置信度和缺失值。

(4)提交运行。单击OK按钮,提交运行,在输出结果窗口中输出配对样本t检验的结果。

2.实例分析

例13 根据data10.3,分析工人工资的变化情况。

打开数据文件data10.后,执行以下操作:

(1)点击Analyze→Compare Means→Paired-Samples T Test,打开对话框。

(2)从左边的源变量窗口中选择“现在工资”和“原来工资”变量放入Paired Variable窗口中。

(3)单击OK按钮,提交运行,在输出结果窗口中看到如表10-28、表10-29、表10-30的结果。

表10-28 配对样本的分组描述统计

img285

表10-28是配对样本的基本描述统计,显示了调查的427名工人原来工资和现在工资的均值、标准差和标准误。

表10-29 配对样本的相关表

img286

表10-29显示的是现在工资和原来工资的相关测量结果,相关度为0.876,相关度较高,表示现在工资与原来工资有较大关系。

表10-30 配对样本的t检验结果

img287

表10-30是配对样本t检验结果。表中的Mean是两个变量差的均值,Std.Deviation是标准差。Std.Error Mean是标准误。95%Confidece Interval of the Difference是差值的95%的置信区间。t是t检验的计算结果,df是自由度,Sig.(2-tailed)是双尾检验的显著性水平。从结果来看,t=33.636,df=426,p<0.05,说明该城市工人的工资有了显著变化。

五、单因素方差分析

方差分析也是使用较多的统计分析方法之一,用来分析一个影响因素的不同水平对观测量的影响,主要的目的是想知道当影响因素取不同水平时,分析变量是否存在差异,均值比较主要针对的是影响因素分成两组时,均值的差异情况,如果影响因素多于两种情况,就要用方差分析。使用方差分析时,要求因变量在影响因素的各水平上的分布必须服从正态分布。方差分析在Means过程中已经有所涉及,其分析思想虽然不难理解,但过程比较复杂,这里只简单介绍SPSS软件中单因素方差分析的常用统计量。单因素方差分析指的是影响因素只有一个,也称一元方差分析。

1.单因素方差分析的操作过程

(1)点击Analyze→Compare Means→One-Way ANOVA,打开如图10-47的对话框。

img288

图10-47 单因素方差分析对话框

其中,Dependent list是分析变量窗口。Factor是影响变量窗口。从源变量窗口中选择一个或多个变量放入Dependent list窗口,选择一个变量作为影响变量放入Factor窗口。

(2)Contrasts:均值的多项式比较。

该窗口对平均数的变动趋势进行趋势检验,研究者根据需要进行某些比较。

选中Polynomial选项,激活Degree窗口,单击Degree参数框中的向下箭头展开阶次菜单,可选Linear线性,Quadratic二次,Cubic三次,4th四次,5th多项式。

Coefficients为多项式指定各组均值的系数。将各组系数输入窗口,单击Add添加。因素变量有几组,输入几个系数,多出的无意义。

(3)Post Hoc:均值的多重比较选择项。研究者可根据需要选择进行多重比较的方法。

(4)Options:其他统计量。打开Options对话框,见图10-48,可选择以下统计量:

img289

图10-48 Options对话框

①Statistics:输出统计结果的选项栏。

●Descriptive:输出描述统计结果。选择该项将在输出结果中输出:个案数、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95%的置信区间。

●Fixed and random effects:输出确定性影响因素和随机影响因素的选项。

●Homogeneity-of-variance:进行方差齐性检验的选项。选择此项将输出方差齐性检验结果。由于方差分析的前提条件是因变量在影响因素的各个水平上的分布具有等方差性,因此只有方差齐性检验接受了等方差的假设,方差分析的结果才有意义。

●Brown-Forsythe检验:采用Brown-Forsythe分布的统计量进行各组均值是否相等的检验。Brown-Forsythe分布近似于F分布,采用Brown-Forsythe检验对方差齐性没有要求。

●Welch检验:采用Welch分布的统计量进行各组均值是否相等的检验。Welch分布也近似于F分布。Welch检验对方差齐性也没有要求,所以当被分析变量的分布不满足方差齐性要求时,采用Welch检验比方差分析更稳妥。

②Means plot:输出均值分布图。选择此项将在输出结果中输出根据各组均值描绘的因变量的分布情况。

③Missing Values:设置缺失值的处理方法的选项栏。Exclude cases analysis by analysis是剔除分析变量为缺失值的个案,这是系统默认状态。Exclude cases listwise是剔除任何含有缺失值的个案。

(5)上述选项做完以后,单击Continue按钮,返回方差分析主对话框。单击OK按钮,提交运行。在输出结果窗口中输出简单方差分析的结果。

2.实例分析

例14 根据data10.3,分析不同受教育年数工人现在工资的差异情况。

分析过程如下:

(1)点击Analyze→Compare Means→One-Way ANOVA,打开对话框。

(2)将“现在工资”放入Dependent List对话框,“受教育年数”放入Factor窗口。

(3)单击Options按钮,选择Descriptive、Homogeneity-of-variance、Means plot选项。

(4)单击Continue按钮,返回方差分析主对话框。单击OK按钮,提交运行。在输出结果窗口看到如表10-31、表10-32、表10-33的结果。

表10-31 基本统计量

img290

表10-31分别对不同受教育年数被调查者现在工资情况的均值,标准差,标准误,95%的置信区间,最小值和最大值结果进行了说明。

表10-32 方差齐性检验

img291

这是方差齐性检验的结果,从表10-32中可以看出F值为13.924,显著性水平为0.000,自由度分别为9和417,自变量各个不同影响上的分布是不等方差的。

表10-33 方差分析结果

img292

表10-33是方差分析的结果,其中F值为84.323,显著性水平是0.000,由于显著性水平远远小于0.05,可以认为不同受教育年数的工人的工资是有差异的。

图10-49是不同教育年数工人现在平均工资的分布图,从图中可以看出,受教育年数19年的工人的工资最高,受教育年数较少的工人的收入较低。

img293

图10-49 均值分布图

本章小结

SPSS统计分析软件以其友好的界面,方便的操作,强大的数据存储和分析功能,在现代社会研究中得到了越来越广泛的应用。SPSS软件基本的统计功能包括描述性统计分析、交互分类、相关分析、均值的比较与检验等。

单变量的描述统计是认识研究调查对象的第一步。SPSS软件提供的基本统计量主要包括对样本分布情况的描述、变量集中趋势的测量及变量离散程度的测量。这一部分的统计功能主要集中在Analyze菜单下的Descriptive Statistics和Multiple Response分析模块中,如Frequencies(频数分析)、Descriptives(描述统计量分析)、Explore(探索分析)以及多选变量的频数分析等。

均值分析就是样本均值来推论总体均值的方法,均值分析是最简单,也是使用频率最高的统计分析方法。Compare Means菜单中提供了多种对均值进行计算和检验的过程。

社会科学的研究不仅是关注单变量的基本状况,更重要的在于探索现象之间的关系,揭示社会现象的发展规律。两个变量关系的分析是社会研究中应用最多的统计方法之一。两个变量的分析主要包括交互分类表(交叉表分析)和相关分析。交互分类表深入的描述样本资料的分布状况和内在结构,相关分析则通过一个相关系数值将两个变量之间复杂的关系表示出来。但是调查样本的统计结果是否能反映总体的情况?SPSS软件不仅提供了对两个变量关系进行统计的功能,并可对其结果进行假设检验。

关键术语

Frequencies(频数分析)  Descriptives(描述统计量分析)  Explore(探索分析)  Compare Means(均值比较)  Crosstabs(交互分类)  Correlate(相关分析)

思考题

1.熟悉掌握单变量描述统计方法,掌握集中趋势分析和离散趋势分析的意义,并能对统计分析结果进行解释。

2.根据各变量测量层次的不同选择合适的相关分析方法,并能对相关分析和假设检验的结果进行准确说明。

3.对自己手头的数据进行统计分析,熟练掌握各命令。

【注释】

[1]http://news.sina.com.cn/o/2006-01-01/09407872158s.shtml;http://survey.idea360. net/news/N-ODEx.html.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈