首页 理论教育 用描述变量的分布

用描述变量的分布

时间:2022-10-25 理论教育 版权反馈
【摘要】:SPSS描述样本数据中变量的分布情况,可以借助于频数表、直方图、盒型图、茎叶图以及对数据进行正态性检验。根据情况在左侧的源变量框中选择一个或多个变量作为分组变量进入Factor框中;分组变量的选择可以将数据按该变量的取值的类别进行分组分析。要求输出基本描述统计量。这样可以比较同一因变量在分组变量值的不同水平上的分布情况。

二、用SPSS描述变量的分布

SPSS描述样本数据中变量的分布情况,可以借助于频数表、直方图、盒型图、茎叶图以及对数据进行正态性检验。

(一)频数表和直方图

执行分析的主要过程和步骤如下:

第一步,按Analyze—Descriptive Statistics—Frequencies顺序逐一单击鼠标键,打开Frequencies频数分布对话框。

第二步,在左侧的源变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Variable(s)框中。

第三步,选中Display frequency tables复选项,将显示频数分布表。

第四步,单击Statistics按钮,在对话框中确定将要在输出结果中出现的统计量。

1.Percentile Values输出百分位数

(1)Quartiles复选项,输出四分位数,显示25%、50%、75%的百分位数。

(2)Cutpoints for□equal groups复选项,将数据平分为所设定的相等等份,在参数框中所设置的数值范围必须是2~100间的整数。例如,键入4,输出第25、50、75百分位数。

(3)Percentile(s)复选项,由用户定义的百分位数,在参数框中键入数值的范围是在0~100之间。键入数值后单击Add按钮。也可以重复此操作过程,键入多个百分位数;如果要剔除已定义的百分位数,在百分位数框中选择一个数值,然后单击Remove按钮。

2.Dispersion离差栏

选择此栏中各复选项计算的统计量如下:

(1)Std.Deviation标准差。

(2)Variance方差

(3)Range全距,即最大值与最小值之差。

(4)Minimum最小值。

(5)Maximum最大值。

(6)S.E.mean均值的标准误差

3.Central Tendency中心趋势栏

(1)Mean算术平均值。

(2)Median中位数。

(3)Mode众数。

(4)Sum算术和。

4.Distribution分布参数栏

(1)Skewness正态分布的偏度,同时显示偏度的标准误差。如果数据为标准正态分布,那么此值等于0。如果此值为正数,左偏,数据的分布具有较长的右尾;如果此值为负数,右偏,数据的分布具有十个较长的左尾;如果此值大于1,就可以肯定数据的分布不呈正态分布。

(2)Kurtosis正态分布的峰度,及其标准误差。标准正态分布的Kurtosis值为0,如果Kurtosis大于0,变量值分布要比标准正态峰高;Kurtosis为负数时,变量值分布曲线要比标准正态峰低。

5.选中Values are group midpoints

在计算百分位数值和中位数时,假设数据已经分组,则用各组的组中值代表各组数据。

第五步,单击Charts按钮,在对话框中对图形的类型及坐标轴等进行设置。

1.Chart type栏,选择图形类型

(1)None选项,不输出图形,这是系统默认状态。

(2)Bar chart选项,输出条形图,各条高度代表变量各分类的观测量数。频数为0的分类不显示在此图中。

(3)Pie charts选项,输出饼图,饼图中各块代表变量各分类的观测量频数。频数为0的分类不显示在此图中。

(4)Histograms选项,要求作直方图,此图仅仅适用于连续的数值型变量。如果选择了直方图还可以选择With normal curve复选项,即直方图中带有正态曲线。

2.Chart value栏,纵轴表达的统计量

只有选择了条形图和饼图,该选项才有效。

(1)Frequencies选项,纵轴表示频数。

(2)Percentage选项,纵轴表示百分比

第六步,单击Format按钮,在对话框中设置频数表输出的格式。

1.Order by排序栏,在该栏中选择频数表中排列顺序

(1)Ascending Values选项,按变量实际值的升序排列,这是默认的方式。

(2)Descending Values选项,按变量实际值的降序排列。

(3)Ascending counts选项,按变量各种取值发生的频数的升序排列。

(4)Descending counts选项,按变量各种取值发生的频数降序排列。

如果设置了直方图或百分位数,那么频数表将按变量值升序排列,而忽视用户的设置。

2.Multiple Variables多变量栏,选择多变量输出表格设置

(1)Compare variables选项,将所有变量的结果在一个图形中输出,以比较。

(2)Organize output by variables选项,为每一个变量单独输出一个图形。

3.Suppress tables with more than□categories复选项

控制频数表输出的分类数量,在参数框中的默认值为10。例如:如果数据中年龄范围在13~17岁之间(共5类),并且设定的组距为1,在这个复选项中的参数框中键入3,此时虽然SPSS仍按5类分组进行计算,但只输出3类频数统计结果。

第七步,提交运行,所有选择完成后,单击OK按钮提交运行,进行频数分布分析。Reset按钮重新设置选择项,Cancel按钮取消选择设置并关闭对话框,Help按钮可以获得帮助信息,Paste按钮可以将有关所设定的统计过程以及选择项的语句粘贴到语法窗口中。

(二)数据探索

数据探索主要是用“Analyze”菜单的“Explore”命令完成,分析步骤如下:

第一步,建立或读入一个数据文件到数据窗中。

第二步,按Analyze—Descriptive Statistics—Explore顺序,打开Explore对话框。

第三步,选择分析变量。从左侧的源变量框中,选择一个或多个数值型变量作为因变量进入Dependent框中。此时单击OK按钮即可获得默认的统计分析,这其中包括盒型图、茎叶图以及基本的描述统计量。默认情况下缺失值将会被排除到分析过程之外。

第四步,指定分组变量。根据情况在左侧的源变量框中选择一个或多个变量作为分组变量进入Factor框中;分组变量的选择可以将数据按该变量的取值的类别进行分组分析。分组变量可以是字符型变量。分组对数据进行分析不会发生交叉。

第五步,选择标识变量。在源变量表中指定一个变量作为标识变量,并将其选入Label Cases by框中。当输出涉及到各个观测量时(例如:奇异值的输出),使用该变量值标识各观测量。

第六步,在Display栏中选择输出项。

Both选项,输出图形以及描述统计量(默认)。选择此项后激活Statistics和Plots两个功能按钮,以便进一步选择。

Statistics选项,只输出描述统计量。选择后激活Statistics功能按钮。

Plots选项,只输出图形。选择此项后激活Plots功能按钮。

第七步,选择具体的描述统计量。

在主对话框中选择Both或Statistics项,均要求输出描述统计量,此时Statistics按钮变亮,单击Statistics按钮,打开Statistics对话框,在对话框中确定具体要输出的统计量。

1.Descriptives复选项

要求输出基本描述统计量。选择此项将输出平均值、中位数、众数、5%的调整平均值、标准误差、方差、标准差、最大值、最小值、范围、等距四分位数、峰度与偏度以及它们的标准误差。

Confidence intervals for mean□%参数框,即均值的置信区间。在参数框中键入不同的数值,将输出对应的置信区间,选择的范围从1%~99%,常用的数值为90%、95%、99%。95%为默认值。

2.Outliers复选项

输出显示5个最大值与最小值,在输出窗口中它们被标明为极端。

3.Percentiles复选项

输出显示5%、10%、25%、50%、75%、90%以及95%的百分位数。

第八步,统计图形及其参数的进一步选择(Plot)。

在主对话框中选择Both或Plots项后,可以单击Plots按钮,展开Plots对话框。在对话框中对输出的统计图及其参数做进一步的选择。

1.Boxplot盒型图选择栏

在主对话框中指定了不止一个因变量时,Boxplot栏中的(1)、(2)设置才有效。

(1)Factor Levels together选项,每个因变量生成一个箱图。这样可以比较同一因变量在分组变量值的不同水平上的分布情况。

(2)Dependents together选项,所有因变量生成一个箱图。这样可以比较按分组变量同一水平的各因变量的值的分布情况。

(3)None选项,不显示盒型图。

2.Descriptive描述图形栏

(1)Stem-and-leaf复选项,生成茎叶图,这是默认选择项。

(2)Histogram复选项,生成直方图。

3.选中Normality Plots with tests复选项

输出显示正态概率与离散正态概率图。同时输出Kolmogorov-Smirnov-Smirnov统计量中的Liliefors显著水平检验,如果观测量的数目不超过50,将计算Shapiro-Wilk比统计量。

检验数据的正态分布方法是输出正态概率图(Q-Q图),图中的斜线是正态分布的标准线。散点图的点组成的曲线与各个观测量的点越趋近于直线,数值分布就越接近正态。如果大量的散点偏离了斜线,只有少部分的点接近图中的斜线,则认为数据不是正态分布。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈