首页 理论教育 教育科学研究资料的定量分析

教育科学研究资料的定量分析

时间:2022-03-03 理论教育 版权反馈
【摘要】:把定量分析作为一种分析问题的基础思维方式始于伽利略。研究结果数据资料的定量描述是对原始数据资料的分布形态和数据特征进行刻画的过程,包括对数据资料的分类整理、统计图表的编制、集中量数和差异量数的刻画、相关关系的描述等过程。

定量分析是对社会现象的数量特征、数量关系与数量变化的分析。把定量分析作为一种分析问题的基础思维方式始于伽利略。作为近代科学的奠基者,伽利略第一次把定量分析全面展开在自己的研究之中,从动力学到天文学,伽利略抛弃了以前人们只对事物原因和结果进行主观臆测成分居多的分析,而代之以实验、数学符号、公式,可以这样说,“伽利略追求描述的决定是关于科学方法论的最深刻最有成效的变革。它的重要性,就在于把科学置于科学的保护之下。”而数学是关于量的科学。可以这样说,一门科学只有在成功的运用了数学的时候,才能称得上是一门科学。从理性的发展过程来看,伽利略提出的以定量代替定性的科学方法使人类的认识对象由模糊变得清晰起来,由抽象变得具体,使得人类的理性在定性之上又增加了定量的特征,而且由于这种替代,那些与定量无关的概念,如本质、起源、性质等概念在一定的领域内和一定的范围内被空间、时间、重量、速度、加速度、惯性、力能、能量等全新的概念替代。因而,定量分析作为一种古已有之但是没有被准确定位的思维方式,其优势相对于定性分析是很明显的,它把事物定义在了人类能理解的范围,由定量而定性。

早期的教育研究多采用哲学思辨的方法,从个人经验出发,用抽象的逻辑推理方法探讨教育问题。19世纪后期,自然科学的研究方法逐步引入教育科学研究中,在欧洲和美国,人们率先将实验和统计方法用于教育问题的科学研究活动中,研究结果的定量描述分析成为教育科学研究工作的新内容和方法。20世纪初期,德国教育家拉伊和梅伊曼创立的实验教育学说,进一步推动教育科学研究方法体系的更新,确立了实验、统计方法和系统观察等方法在教育科学研究中的重要地位,定量分析成为教育科学研究的一种重要手段和方法。

定量分析(quantitative analysis)是指研究者借助于数学手段,对收集到的随机数据资料进行统计分析,即利用多种统计技术手段对所收集到的数据资料进行描述、解释,并在一定条件下由样本特征推断相应总体特征,揭示事物数量特征的过程。

定量分析在教育研究中主要运用于以下三个方面。

1.数据描述

即将数据进行整理,用有意义的图表描述数据的分布情况,并利用一定的统计手段描述出数据的集中趋势,离散趋势或相关关系分布特征。

2.数据判断

这是利用概率及其分布的理论和方法,由样本特性推断出总体特征并估计出误差范围,从而得出科学的结论。

3.数据的综合分析

这是指利用系列数据相互之间的数量关系综合分析数据特征,并预测和解释变量之间的关系或从众多变量中提取出共同的因素,为数据资料的归纳提供数量上的支持。

第一,统计分析手段的条件性。正确恰当运用统计分析方法要依赖于使用者对各种统计技术的需求、条件、用途及与之相联系的特定公式等的了解、掌握和适当选择,否则便是无效的。

第二,统计推断的概率特征。统计推断依据数据的概率特征都会有一定的误差,不会绝对精确。统计分析结果的显著性有时也不能代表真正教育意义的显著性。

第三,教育现象的复杂性导致数量分析的模糊性。

定量分析是用科学的方法处理数据资料的过程,是一种严密、系统的过程,它要求分析数据必须准确可靠。因此,定量分析的前提是对数据资料进行审核,主要从以下几个方法进行。

第一,数据资料的完整性。即收集的资料是否齐全,包括数据资料的形式和内容的完整性。

第二,数据资料的客观性。即资料必须是真实、客观、科学的。

第三,数据资料的有效性。即数据资料必须真正反映研究课题,必须与研究课题的目的一致。

定量统计分析方法的选择合理、恰当,是决定分析效果的关键因素,选择的依据主要有以下几个。

1.研究课题的性质

适合统计分析的研究课题有推论性课题和描述性课题两大类。

在描述性课题中,研究者只需了解研究对象的基本数据特征,如频数或次数(如平均数、中数、众数等)和常用差异量数(如高差、标准差、方差等)或相关系数等统计指标,不需作进一步统计分析。一般表现为教育调查的数据分析。

在推论性课题中,研究者需要依据样本的特性,推断出总体的特征,或者比较两个总体是否有差异,这就需要采用参数估计、假设检验等方法。大多数教育实验课题都属于推论性课题。

2.数据资料的类型

不同类型的数据资料适用的方法不尽相同,因而数据资料类型是选择统计分析方法的依据之一。

3.统计分析方法的适用条件

统计分析方法的使用有着严格的条件限制,不是都能适用的,选择方法时一定要弄清各种方法的具体适用条件,防止误用或不适当运用。

在教育科研中,对研究结果作定量描述的数学工具是教育统计。主要是对各种研究方法,如观察法、访谈法、行动研究法、实验法、测验法、问卷法等收集到的研究数据进行初步整理、编制统计图表、计算各种统计特征量、由样本统计量推论总体参数,对研究假设进行检验等,对变量之间关系或规律性的分析、推论,形成量化描述,增加了对教育问题解释的科学性和有效性。

研究结果数据资料的定量描述是对原始数据资料的分布形态和数据特征进行刻画的过程,包括对数据资料的分类整理、统计图表的编制、集中量数和差异量数的刻画、相关关系的描述等过程。

1.研究结果的初步整理

(1)对研究结果的数据资料进行分类

在定量分析中,收集的信息都是用某种数字来表示。对教育科学研究中获得的数据资料进行分类,了解数据类型和水平,对选用恰当的统计方法至关重要。不同类型的数据所适用的统计方法不同。根据不同的分类标准,教育科学研究中的数据可以区分为不同的类型。

从数据的观测方法和来源划分,研究数据可区分为计数数据、测量数据和人工编码数据。计数数据(count data)是指点计事物个数而获得的数据。测量数据(measurement data)是指借助一定的测量工具或测量标准而获得的数据。人工编码数据是指为区分标志对象而人为编码规定的数据。

按照数据是否具有连续性,可以把数据分为离散数据和连续数据。离散数据(discrete data)又称为不连续数据,是指在量尺上任意两个点之间只能取得有限个数的数据,也就是在两个单位之间不能再划分成细小单位的数据。连续数据(continuous data)是指在量尺上任意两个点之间可以细分出无限多个大小不同的数值的数据。

在对这些数字进行处理、分析时,首先要明确这些信息资料是依据何种尺度进行测定、加工的。史蒂文斯(S.S. Stevens)将尺度分为四种类型,即名义尺度、顺序尺度、间距尺度和比例尺度。根据这些测量尺度获得的数据可区分为称名变量、顺序变量、等距变量和比率变量四种类型。称名数据(nominal data)只说明某一事物与其他事物在属性上的不同或类别上的差异。顺序数据(ordinal data)是指可以就事物某种属性的多少或大小,按次序将各个事物加以排列后获得的数据资料。等距数据(interval data)是指除了能表明量的相对大小外,还具有相等单位,但没有绝对零的数据。比率数据(ratio data)是指具有量的大小、相等单位和绝对零点的数据。区分测量的层次和数据的类型十分重要,因为对不同类型的数据将采用不同的统计方法来处理。

(2)对研究结果的数据资料进行统计分组

通过各种教育研究方法收集到的研究材料中包含大量信息,为了获得研究的科学事实,需要对数据进行分类。

在对数据进行分类或分组之前,首先需要对数据进行预处理,包括数据的审核、筛选、排序等。

数据是进行统计分析的原始资料,必须真实可靠。对数据进行审核,主要是为了保证数据的质量,对于通过直接调查取得的原始数据,主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。对于第二手资料,除审核数据的完整性和准确性外,还应从数据的来源、背景和实践性等方面来审核数据的适应性和时效性。

数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合条件的数据予以剔除。

数据排序(sort或order),就是按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列。排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势。

其次,确定分组的依据,即分类标志。分类标志要以研究目标、任务的需要为依据,要从概念上对研究对象的本质特征作出明确严格的界定。教育科学研究中收集到的数据资料一般分为品质标志和数量标志。品质标志是以个体的属性或性质来表现的标志,如性别、操行、优劣、成绩好坏等。数量标志是以数据取值大小表现的标志。如考试分数、智力水平、学生年龄等。分类标志要注意前后一致,能将全部数据包含在内,要考虑到不同品质标志数据所使用的统计方法不同。

最后,就是进行统计分组,统计分组是对数据进行归纳、整理、简化、概括的第一步,就是根据研究的目的任务,把所获得的反映总体或样本特征的数据按一定标志区分为若干个组成部分,这些组成部分就叫“组”或“类”。其作用在于:第一,划分现象的类型;第二,说明现象的内部结构;第三,展示现象间的相互关系(数量关系)。通过分组,将数据中蕴藏的信息显现出来,从而方便提取和使用。按一定标志分组应该注意以下问题:第一,选择个体具有本质意义的特征作为分类的特征;第二,对分类标志要有明确、严格的界定;第三,要自始至终用一定标志作为分组的依据;第四,按一定标志分组应能容纳所有数据而无遗漏或重复,为此要做到:任意两组之间是互不相容的,即没有公共部分,任何一个个体或数据必定居于某个给定的小组。

(3)编制统计表

统计表是用来表明统计指标与被说明事物之间数量关系的表格。统计指标是对数据分类后,所得的各种数量结果。它具有简明、清晰、准确的特点,表中的数据易于比较分析。

统计表一般由表号、标题、标目、线条、数字、表注等部分组成。统计表的编制有一定的要求:第一,标题简洁,应能正确地表述表中内容;第二,标目应清晰,分横标目和纵标目;第三,数字准确,采用阿拉伯数字,填写对齐,没有空格,缺数字处应画“—”;第四,应有表注,一般用小一号字体放在表的下方。

统计表一般包括简单表、分组表、复合表、次数分布表等几种类型。简单表一般只列出研究对象(或变量)的名称、地点、时序或统计指标名称。分组表是指只按一个标志分组的统计表。复合表则是指按两个或两个以上标志分组的统计表。次数分布表是将一组大小不同的数据画出等距的分组区间(称为组距),然后将数据按其数值大小列入各个相应的组别内,反映数据分布规律的表格。编制频数分布表是对数据进行初步整理的结果,它有助于了解一组数据的分布情况、平均水平、差异情况等非常有用,并可利用此表计算许多统计量。它不仅是用少量数字有效地概括了大量的原始数据,揭示它们的意义,还可以节约呈现数据的时间。所以,编制频数分布表是对连续变量进行整理的主要步骤。编制良好适用的频数分布表可以为作统计计算奠定重要的基础。

(4)绘制统计图

统计图是依据教育研究中收集的数字资料,用点、线、面、体、色彩等描绘数据的全貌和分布特征,制作成的整齐而又规律,简明而又知其数量的图形,直观形象地反映所研究对象的特征、内部结构、相互关系和对比情况等。统计图是整理数据的一种重要方法,一张简单的统计图形,就可以把一大堆数据中的有用信息概括地表现出来。图形比数字更为具体,能把事实或现象的全貌形象化地呈现出来,给人以清晰、深刻的印象,因而便于理解和记忆。统计图还有一定的艺术性,它可以表现得生动、有趣。但它也有缺点,那就是图示的数量不易精确,如果制图不当,反而会掩蔽事实真相,因而在使用时应倍加注意。

统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y,除直角坐标外还有角度坐标(如圆形图)、地理坐标(如地形图)等。统计图的要素包括图号、标题、图目、图尺、图形、图例、图注等。

根据图形可以把统计图分为描述离散型变量的条形图、圆形图,描述连续型变量的线形图、直方图,描述两个变量之间相关关系的散点图等多种类型。不同的统计图有相应的绘制要求。条形图是以条形长短表示各事物间数量的大小与数量之间的差异情况。条形图所用的条形形状各不相同,名称也有多种:如直条图(或者矩形条图),梯形条图,尖形条图等,但直条图应用最多。圆形图主要目的为显示各部分在整体中所占的比重,以及在各部分之间的比较。所要显示的资料多以相对数(如百分数)为主。圆形图的图尺部分为圆周,分度是将圆周等分为100份,每百分之一相当于3.6°,它的基线是在圆的上方或下方的半径。线形图常用来表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形,用线形图表示是较好的方法。这是教育与心理学实验报告中最常用的图示结果的方法。直方图是以矩形的面积表示频数分配的一种条形图,是统计学中常用而又有特殊意义的一种统计图。散点图是以圆点的大小和同大小圆点的多少或疏密表示统计资料数量大小,以及变化趋势的图。它是以圆点分布的形态表示两种现象间相关程度的。

2.数据集中趋势的描述

集中量数是反映一组数据分布集中趋势的量数,它可以用来描述和代表研究对象的一般水平,为进一步统计分析打基础,也可以用它与同质的另一研究对象作比较。一般我们用平均值作为集中趋势测度值,有时也使用众数和中位数。

(1)算术平均数

算术平均数(arithmetic average)是一组同质数据的总和除以数据总个数所得的商。它是数据分布的重心。算术平均数是集中量数中性能最好,应用最普遍的一种集中量数,它是“真值”渐近、最佳的估计值。在教育科研活动中,人们进行观测是想知道被观测事物真正的值是多少,如,使用某种测验,是想测量某个人或某些人的真实的能力水平到底有多高。但是由于主客观各种随机因素的影响,如仪器的精密程度,测量方法,实验情境,人的观测能力及观测标准等都不能做到尽善尽美,因此想获得真值是不大可能的,人们只能用平均数这类集中量数作为它的估计值。

(2)中位数

中位数(median)是一组数据按大小顺序排列后,处于中间位置上的那个数值。中位数是根据观测数据计算而来,不能凭主观臆断。计算简单,容易理解,中位数的概念简单明白。但它也有些不足,如:它反应不够灵敏,两极端数目变化,对中位数不产生影响;计算中位数时,不是每个数据都加入计算,受抽样的影响较大,不如平均数稳定;中位数乘以总个数与数据的总和一般都不相等;中位数不能作进一步代数运算等。因此,在一般情况下,中位数不被普遍应用。但在一些特殊情况下,它的应用受到重视。这些特殊情况是:①当一组观测结果中出现两极端数目时;②当次数分布的两端数据或个别数据不清楚时,只能取中位数作为集中趋势的代表值;③当需要快速估计一组数据的代表值时,也常用中位数。

(3)众数

众数(mode)是一组数据中出现次数最多的那个数值。众数的概念简单明了,容易理解,但它不稳定,受分组的影响,亦受样本变动的影响,计算时不需每一个数据都加入,因而较少受极端数目的影响,反应不够灵敏,观察众数,不是严格计算而来,用计算方法所得众数亦是一个估计值。同时众数不能作进一步的代数运算。众数也不是一个优良的集中量数,应用也不广泛。但在下述情况下也常有应用:①当需要快速而粗略地寻求一组数据的代表值;②当一组数据出现不同质的情况;③当次数分布中有两极端的数目;④当粗略估计次数分布的形态时,有时用平均数与众数之差,表示次数分布是否偏态的指标。

(4)平均数、中位数、众数之间的关系

在一个正态分布中,平均数、中位数、众数三者相等,因此在数轴上三点重合。在正偏态分布中M>Md>Mo,在负偏态分布中M<Md<Mo。一般偏态情况下,Md离平均数较近、而距众数较远,皮尔逊研究其经验关系推导出:Mo=3Md—2Mo。一组数据中,只有总个数乘以平均数与各数据的总和相等;只有平均数与各数据之差的总和为零,因而也只有各变量与平均数之差的平方和为最小。即每个数据与任一常数包括中位数或众数之差的平方和都大于每个数据与平均数之差的平方和,这一点也决定了平均数是较Md与Mo都应用广泛的一个集中量数。

3.数据离中趋势的描述

教育科学研究中,全面了解被研究对象特点的数量特征,不但要了解其一般水平,还要了解它们的分散和变异情况。差异量数就是反映一组数据分布的差异情况和离散程度的量数,它反映数据分布的离中趋势。差异量越小,表示数据分布越集中,变动范围越小。差异量数一般包括全距、平均差、标准差和方差,其中以标准差和方差最为常用。

(1)全距

全距(range)又称两极差,是一组数据的最大值与最小值的差,全距大说明数据分布比较分散。全距是描述数据离散程度最简单,也是最粗糙的差异量数,它只利用了数据的最大值与最小值,其他数值都未起作用,如果两极端有偶然性或属异常值时,全距不稳定,不可靠,也不灵敏,它明显地受取样变动的影响。因此,它只是一种低效的差异量数。它的用处一般只用于研究的预备阶段,用它检查数据的大概散布范围,以便确定如何进行统计分组。

(2)平均差

平均差(average deviation)是根据数据分布中所有原始数据与平均数绝对离差的平均值计算求得的,较好地反映了次数分布的离散程度。因为,平均数代表一组数据的集中趋势,把一组数据中的每个数据与平均数比较就可以知道每个数据与平均数偏离的程度,或者说与平均数差异的情况。如果把这组数据中的每个数据与平均数差异的情况加起来,那么所有数据的差异情况就一目了然。但是,计算时因为离均差的代数和为0,所以只能取离均差的绝对值。由于它在计算中要对离均差取绝对值,不利于进一步做统计分析,应用受到了限制,属于一种低效差异量数,在统计实践中不太常用。这不适合代数运算,以致使平均差的应用受到很大限制,在统计分析中应用较少。

(3)方差和标准差

方差与标准差是最常用的描述数据分布离散程度的差异量数。方差(variance)是各变量值与其算术平均数之差的平方和再除以总量数之商。它是度量数据分散程度的一个很重要的统计量,是测定等距和等比数据离散程度的最主要方法。标准差(standard deviation)是绝对差异量数中性能最好的一个统计量,是方差的平方根。

方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②由一定的计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。标准差比其他各种差异量数具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各几个标准差之内。

4.数据之间相关程度的描述

相关的概念是指两种变量之间的关系或联系程度,它表达的是一种不精确、不稳定的变化关系,相关系数就是用来表示变量之间这种相关关系的量的指标。在教育科学研究中收集到的数据资料的性质不同,所选用的相关系数的计算方法也不同,常用的计算方法分为四种类型。

(1)积差相关

积差相关是英国统计学家皮尔逊(K. Pearson)在20世纪初提出的一种计算直线相关的最基本的方法,因而被称为皮尔逊积差相关,简称皮尔逊相关。积差相关适用于哪种资料呢?首先两列数据都是测量的数据,而且两列变量各自总体的分布都是正态的,即正态双变量。为了判断计算相关的两列变量其总体是否为正态分布,一般要根据已有的研究资料查询,若无资料可查,研究者应取较大样本分别对两变量作正态性检验。这里只要求保证双变量总体为正态分布,而对要计算相关系数的两样本的观测数据,并不要求一定为正态分布。其次,两列变量之间的关系应是直线性的,如果是非直线性的双列变量,则不能计算线性相关

(2)等级相关

等级相关处理的是等级资料变量间的相互关系。在教育科学研究中,有时收集到的数据只是具有等级顺序的测量数据,或是等距或等比的数据,但其总体分布不是正态,不满足求积差相关的要求。在这两种情况下,欲求两列或两列以上变量的相关就要用等级相关,这种相关方法对变量的总体分布不作要求,故又称这种相关法为非参数的相关方法。最常用的等级相关系数有斯皮尔曼等级相关和肯德尔和谐系数。

斯皮尔曼等级相关,是等级相关的一种,它是由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导出来的,因而人们把这种等级相关称为斯皮尔曼等级相关。当两列变量值是以等级次序排列或以等级次序表示时,且两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两变量之间的相关就需要计算其等级相关。等级相关方法适用的范围要比积差相关大,又对数据总体分布不作要求,但同一组能计算积差相关的资料若改用等级相关计算,精度稍差,因此,凡符合计算积差相关的资料,不要用等级相关计算。

肯德尔W系数又称和谐系数(the Kendall coefficient of concordance),是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。这种数据资料的获得一般采用等级评定的方法,即让K个被试(或称评价者)对N件事物或N种作品进行等级评定,每个评价者都能对N件事物(或作品)好坏、喜好、大小、高低等排出一个等级顺序。因此,最小的等级序数为1,最大的为N,这样,K个评价者便可得到K列从1至N的等级变量资料,这是一种情况。另一种情况是一个评价者先后K次评价N件事物或N件作品,也是采用等级评定的方法,这样也可得到K列从1至N的等级变量资料,这类K列等级变量资料综合起来求相关,可用肯德尔W系数。因而它又被称为评分者信度,在测验编制中使用非常广泛。

(3)质与量相关

质与量的相关是指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别,欲求这样两列变量的直线相关,称之为质量相关,包括:点二列相关,二列相关及多系列相关。

点二列相关是用于计算这样两列变量的直线相关,一列为等距或等比的测量数据且其总体分布为正态,另一列变量只是名义上的变量,而实际上是按事物的性质划分两类的变量。如性别可分男、女,选择答案的是、否等,这类变量被称作二分名义变量。有时一个变量是双峰分布,也可划分为名义变量,如,文盲与非文盲,文盲指识字极少,可规定一个界限,就识字量来说可能形成双峰分布状态。点二列相关多用于编制是非题测验时评价测验内部一致性等问题。这类测验题每题只有两个答案,答对得分,答错不得分,这时统计整个测验的得分,则得到一列等距或等比性质的连续变量,而每一题目的“对”“错”就成为二分名义变量,欲求每一题目与总分的相关(这称为每一题目的区分度),就要应用点二列相关。

二列相关适用的资料是两列变量均属于正态分布。但其中一列变量为等距或等比的测量数据,另一列变量虽然也呈正态分布,但它被人为地划分为两类。例如健康状态可视为正态分布,但将其分为健康与不健康两类。再如学习成绩也可视为正态分布,但仍可依一定标准将其划分为好、差两类或及格不及格两类等。二列相关在试验中常用于对项目区分度指标的确定。有时某一项目(或称某一题目)根据一定的得分划分为对、错或通过、不通过两类时,因某一项目可得不同的分数,这些分数的分布为正态,只是人为地依一定标准将它划分为两类。若是是非选择题的对错则应该用点二列相关。二者的区别主要是二分的变量是否为正态。

多系列相关适用的资料为两列正态变量,其中一列为等距或等比的测量数据称为连续变量,另一列正态变量被人为地分成多个类别,称为名义变量。例如学习成绩可视为正态变量,被人为地划分为优、良、中、差四类,思想品质也可视为正态分布的变量,划分为不同的类别等。如果正态变量被划分为四类,则称为四列相关,分为三类则为三列相关……多系列相关用于处理一列正态连续变量与另一列正态的名义变量之间的一致性分析,在测验中时常用于效度检验。亦可作为双列次数分布求相关系数的一种方法。

(4)品质相关

品质相关用于表示R×C(行×列)表的两个类别变量之间的关联程度。品质相关处理的数据类型一般都是计数数据,而非测量性数据。品质相关依据处理的数据资料的二因素性质及分类项目的不同,有不同的名称和计算方法。主要有四分相关、Φ相关、列联表相关等。

四分相关(tetrachoric correlation)适用于计算两个变量都是连续变量,且每一个变量的变化都被人为地划分为两种类型,这样的测量数据之间的相关。通常,计算四分相关的资料会整理成四格表。四格表是由两个因素,各有两项分类,做成的R×C表,因其只有四格,故名四格表。

Φ相关适用资料是除四分相关之外的四格表(计数)资料,当两个相互关联着的变量分布都是真正的二分变量,用phi系数(phi coefficient)解决此类“点分布”问题,因其系数用符号Φ表示,故而得名。它是指两个分布都只有两个点值或只是表示某些质的属性,如工作状态(有工作与无工作)、吸烟状况(吸烟者与非吸烟者)、婚姻状态、智能水平等。此时,可运用列联表(contingency table)计算,因而它又称列联系数(contingency coefficient)。

列联相关又称均方相依系数、接触系数等,一般用C表示。它是由二因素的R×C列联表资料求得,故称为列联相关。当数据属于R×C表的计数资料,欲分析所研究的二因素之间的相关程度,就要应用列联相关。

四分相关处理的数据资料都是人为的二分变量,Φ相关处理的则是两个真正的二分变量。列联系数处理的则是二因素的R×C列联表资料。不同品质相关,它们之间最大的区别是适合处理的数据资料不同。

数据的统计推断就是根据样本所提供的信息,运用概率的理论进行分析论证,在一定的可靠程度上对总体的分布特征进行估计和推测的统计方法。它能帮助教育科学研究由部分推断全体,由已知推断未知,从而发现心理、教育现象的规律。数据的统计推断包括总体参数估计和假设检验两个部分。

1.总体参数估计

教育研究中的总体参数估计就是利用所抽取样本得到的数据资料来推断总体参数数据。它特别适合无对照组的研究。总体参数估计可分为点估计和区间估计两种类型。

(1)点估计

点估计(point estimation)是指在进行参数估计时,直接用一个特定值(一般常用样本统计量的值)作为总体参数的估计值。当总体参数不清楚时,用一个特定值,一般常用样本统计量进行估计。通常认为,样本平均数、样本方差和样本标准差、样本相关系数和样本比率是相应的总体参数值的合理的点估计量。但无论如何,点估计总是以误差的存在为前提,而又不能提供正确估计的概率,因而点估计有不足之处。例如我们只能大体上知道样本容量比较大时多数的样本平均数靠近总体平均数,但大到什么程度,“多数”“靠近”到什么程度,还是不清楚。区间估计就可弥补这个缺点。

(2)区间估计

区间估计(interval estimation)是根据样本统计量,利用抽样分布的原理,在一定的可靠程度上,估计出总体参数所在的范围。它是用数轴上的一段距离表示未知参数可能落入的范围。它虽不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。可见,区间估计在点估计的基础上,不仅给出一个估计的范围,使总体参数包含在这个范围之内,而且还能给出估计的精确性并说明估计结果的误差大小,因此,它比点估计更准确、更科学。

2.假设检验

假设检验是指利用反证法的思路检验某假设,通过对该假设的拒绝或接受的检验来作出接受或拒绝另一假设的过程。

假设检验可分为参数检验和非参数检验两大类。参数检验,如Z检验、t检验、F检验等;非参数检验,如χ2检验、符号检验、秩和检验等。非参数检验的统计精度、分析效度不如参数检验,但应用范围较参数检验广泛,在参数检验条件不满足时,非参数检验值得应用。

数据的综合分析是利用系列数据相互之间的数量关系,综合分析数据特征,并预测和解释变量之间的关系或从多变量中提取出相同的因素,为数据资料的归类提供数量上的支持。

对数据资料进行综合分析的方法很多,主要包括:方差分析、因素分析、主成分分析、聚类分析、判别分析、多元回归分析,等等。

1.什么叫定性分析?什么叫定量分析?

2.教育研究中的定性分析有什么特点?

3.定性分析中的信度和效度有什么特殊性?

4.定量分析在教育研究中的作用和局限分别是什么?

5.教育研究中定量分析的前提是什么?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈