重视测评系统内部的一致性

时间：2023-03-29 理论教育版权反馈

【摘要】：无论是多种技术的综合使用，还是一致性表现，或是连续性特征，测评系统的整体特征都很明显。特别在认知、观察和解释三者之间的内在联系所体现的一致性上，两个国际大规模数学测评都充分体现出相互联系、相互依存的特点。这三者的一致性是反映学生学业结果上测评工具的有效性和可靠性的基石。在上述认知模型与统计模型的匹配性上，TIMSS数学测评与PISA数学测评相比，存在着一些不足。

重视测评系统内部的一致性_国际视野下大规模数学测评研究

本书初始，基于“测评三角”—— 认知、观察和解释，对两个国际数学测评的框架进行了比较分析。这里有一个基本的认识，首先测评是一个系统，其次上述三方面作为测评系统构成的三要素，三者各有其功能但相互联系。本书主要关注量尺的形成、相应基准或精熟度层次的形成，以及在这过程中IRT统计模型的运用解释。

无论是多种技术的综合使用（比如系统的综合性体现），还是一致性表现（比如认知、观察和解释三者之间内在联系所体现的一致性），或是连续性特征（比如对各国在不同测评轮次上的学习结果进行纵向比较），测评系统的整体特征都很明显。

特别在认知、观察和解释三者之间的内在联系所体现的一致性上（撇开管理因素，这在测评开发中很重要，但不是本书论述的重点），两个国际大规模数学测评都充分体现出相互联系、相互依存的特点。这三者的一致性是反映学生学业结果上测评工具的有效性和可靠性的基石。从证据推理需求的角度来说，数据和学生的表现要成为推理的证据，这需要三者具有高度的一致性。

首先，在测评目标及目标分析框架制定上，如上所述，两个测评都由各自的测评管理机构，协同各国及相应数学专业机构或人员等各方利益涉及者，来共同协商确定的。这为后面的两项工作奠定了共同的基础。

其次，在蓝图设计及试题使用上，不仅涉及目标的体现，同时兼顾结果的解释。在题型的使用上，不仅力求保证覆盖原有目标分析框架的不同维度，还考虑了各维度上的权重比例；不仅考虑了学生表现的结果，还考虑了过程的呈现。同时，在试题编码系统设计上，考虑到统计模型的使用及学生实际认识过程表现的归纳和调整，这有助于证据的形成，为结果解释及量尺分层描述奠定了基础。

在PISA数学测评和TIMSS数学测评中，对学生的实际回答都进行了编码工作，即用数字符号对学生的回答类型进行了表征。它们共同采用了双位编码的方式，首位表示对、部分对或错，第二位表示所用的方法策略种类。这样做，不仅对学生的对错情况进行了评判，而且获取了更多学生在建构性试题回答过程中的相关信息。但对学生回答的编码与学生在最后的认知结构维度上的成绩没有直接的线性关系，该成绩是基于IRT模型经过非线性转化所得到的θ的逻辑值，其中θ表示所要测评的学生认知结构中的某一维度。

从一定意义上来说，两个测评在试题设计上呈现出结构需求的特征，即通过多道试题为某一认知结构维度服务。学生不是仅仅在一道或多道试题中表现好即可被视为表现优秀，而是必须考虑在同一认知结构维度上的试题表现。这凸显了编码对学生认知过程特征的显现，还有助于基于更充分的证据对学习结果量尺进行解释。

在结果解释上，主要体现于量尺的形成。IRT统计模型及相关原理的充分使用，有助于先内容、后认知的不同量尺形成过程，体现出两个测评在量尺形成上先易后难、先简后繁的开发顺序。这个过程不仅有利于试题的归类，不断简化内容或认知过程层面的划分，而且有利于体现在构建认知模型过程中学生认知结构的不断调整，以及与统计模型之间的匹配性。这也成为两个测评在设计和开发过程中的核心工作。

两个测评在三要素上充分表现出上述特征。值得进一步指出的是，测评作为基于证据的推断（特别是统计推断），上述两者的匹配，就成为整个系统内在一致性保证的真正核心所在。结果解释的有效和可靠性，或量尺的有效和可靠性，主要的依仗就是上述两者模型的匹配性。

心理测量理论发展至今，在认知模型和统计模型上的相互匹配一直是一个热点，也是一个难点。这个匹配性问题，如图5-12所示。

pagenumber_ebook=156,pagenumber_book=148

图5-12　认知模型和统计模型匹配示意图

这里的x表示学生在若干试题上表现出来的特征编码所得的变量。从测评系统三要素的角度来看，“认知”层面决定了θ，“观察”层面决定了x。式子①表示由认知走向试题设计及表征，即观察的过程；而式子②表示通过观察所得结果、数据和学生实际表现特征信息，对θ的分布和程度进行合理的推断和描述，即“解释”，这个过程用虚线表示了统计意义。显然，这两个箭头之间的合理性，决定了测评从目标走向最终解释的有效性。而测评的有效性是测评可靠性的充分非必要条件，即测评的有效性保证了测评的可靠性。

随着认知心理学的发展，数学思维（如概念、推理，具体到数学问题的解决）、相应表征及策略的运用也呈现出多元、多面、多层的特征。在试题设计及计分模式上，人们越来越清晰地意识到，行为主义所奉行的“刺激—反应”等简单甚至单一指向性的指导思想，越来越不能体现出学生认知的特点。上述θ表征、试题设计的针对性、编码归类和层次描述，以及基准描述或精熟度分层描述，这几方面的工作都是由两个测评的数学专家工作组成员承担，并通过试测阶段来进一步采集案例和数据实证。

在结果解释形成、统计模型拟合相应学生认知结构的过程中，需要经过很多步骤，需要各方面，特别是数学专业工作者的共同协商论证。论证的内容，简单来说就是学生认知结构在不同维度表征、试题设计表征、学生实际反应、结果描述之间的一致性。

在上述认知模型与统计模型的匹配性上，TIMSS数学测评与PISA数学测评相比，存在着一些不足。首先，TIMSS测评没有像PISA数学测评一样，获取到所有学生在内容及过程不同认知维度上的分层描述，而是仅仅对整体数据采用了基准及描述。其次，TIMSS数学测评所得的基准及描述，存在对试题和学生群体的依赖性问题，而且对不同基准之间在认知能力上的层级性表现乏力。这样的描述，最多能体现出不同基准上最低限度的局部表现，其有效性和可靠性容易遭到质疑。而PISA数学测评则利用“学习指标”的方法对相应的量尺进行解释分析，从确定不同精熟度层次的分界点（类似TIMSS数学测评的基准点），到确定不同层次上学生在内容领域或认知过程领域不同维度上的表现，都充分基于IRT理论中确立的试题回答正确概率与试题难度、学生潜质（对于PISA数学测评而言，指内容的不同维度和认知过程的不同维度）三者之间的函数关系。PISA数学测评充分利用IRT理论，建立试题难度和学生结构维度同属的量尺。将表示学生不同维度量尺的数值与试题的难度放在同一个量尺上，整体性分析不同精熟度层次上的学生表现，避免了TIMSS数学测评基准表现描述中的局限性，体现出解释的全局性和整体性。

回顾两个测评在认知过程上的维度，PISA数学测评有着以核心能力为主线的学习结果水平描述特征，2012年则以问题解决过程的不同阶段为分类依据。而TIMSS数学测评有着以知识为主线的学习结果水平描述特征，2011年则以试题所引起的行为特征为分类依据，体现的是知道（问题解决所需基本事实或概念）、应用（常规性问题）、推理（非常规性问题）三大分类。从原始的认知结构维度设计来看，TIMSS数学测评在基准表现描述上对试题和群体的依赖性，以及解释的层次性，在目标设计中就埋下了隐患。这让我们进一步理解了，PISA数学测评为何在过程上最终抛弃了“能力分层”的做法。这里的统计模型运用和结果解释无法解决层次性的问题。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈