首页 百科知识 建模和测量技术的试验评价

建模和测量技术的试验评价

时间:2022-11-04 百科知识 版权反馈
【摘要】:另外,这种技术基于更新的研究进展。但是迄今为止,这种方法在心理学、预测或者人为因素研究方面都没有进行经验评估。本文的目的是首次提供对这种系统的应用或者情景意识建模和测量的生态学方法进行评估。每艘跟踪艇的速度用反映跟踪艇航路向量的长度表示。速度和航路偏差图例在图4中显示得更大。正如图5所示,距离和航路偏差增大都会导致探测概率降低。

关于情景意识的系统观点Ⅱ:建模和测量技术的试验评价

Richard Strauss,Alex Kirlik

针对试验室模拟条件下要求潜艇在不确定任务环境下做出秘密行动判断,我们提出了一种经验的关于情景意识(Situation Awareness,SA)建模和测量系统观点的应用评估。试验使用该模型比较基线和感觉增强界面条件发现,这种加强对于情景意识来说有利有弊(改进人感知获取信息的一致性,但同时也增加了回归的偏差,这表明支持可靠线索感知的同时会根据这些线索做出过分严格的评估)。这个模型也用做区分操作者水平高低的各种因素的事后诊断基础。这些因素既包括线索感知的一致性也包括协同应用任务知识的能力,但不是任务知识本身。在界面中介和不确定环境下,这些发现有助于验证系统的情景意识测量和建模方法的应用。

1 引  言

在一篇相关联的文章中(Kirlik&Strauss,2003),在界面转达和任务不确定的情况下,我们提出了一种基于系统的对认知和环境因素影响情景意识进行建模的方法。这种技术源自心理学判断的早期工作,最近的很多努力尤其专注在天气预测方面,用来建立在不确定环境下越来越多的诊断测量。另外,这种技术基于更新的研究进展。这些研究进展将环境建模和技术对情景意识贡献的正常建模与补充认知建模联系起来。

正如在那篇相关文章中阐述的,我们并不认为这种技术会触及情景意识的每个方面。但是同时,情景意识的重要方面会影响操作者根据技术界面的信息推断远处、不确定环境的状态或性质,在这种情形下,该技术可以丰富人为因素工具箱。但是迄今为止,这种方法在心理学、预测或者人为因素研究方面都没有进行经验评估。本文的目的是首次提供对这种系统的应用或者情景意识建模和测量的生态学方法进行评估。我们首先讨论开展这项研究的试验室工作环境。

2 试验任务

本次研究建立的试验仿真叫做SEXTENT,在美国海军和约翰霍普金斯大学应用物理试验室的指导下开展了3年多的时间。在SEXTENT中,参加者扮演潜艇上的船员或者本身角色,并且要执行秘密任务(此处,一个任务是一次试验)。秘密行动定义为自身潜艇不被作战区域中的其他舰艇发现。参与者的任务是根据情景显示器上的信息,快速、准确地评估他们的潜艇是否已经被探测到了。

2.1 仿真环境

每个任务都有潜艇本身和围绕着潜艇的3艘敌艇或者跟踪艇。每个跟踪艇有3个特征:(1)它离自身潜艇的距离(或者间距);(2)它的速度;(3)它的前进方向相对于自身潜艇的绝对偏差。距离和航路偏差如图1所示。这里跟踪艇(用圆圈表示)和潜艇(用方块表示)之间的距离不确定,包含3个航程偏差(30°,60°,90°)。注意,不考虑跟踪艇的方位(也就是相对于潜艇本身的角度位置),它们的航路偏差总是取正的绝对值。

img154

图1 跟踪艇和自身潜艇之间的位置关系

2.2 所需要的判断

对于任务中3艘跟踪艇的每个,需要参与者根据自身潜艇艇长的要求做出4项判断(即每项任务需要做出12项判断)。前3项判断和跟踪艇的特征相关。首先需要评估每个跟踪艇的距离(R),速度(S)和航路偏差(CD)。跟踪艇的这些特点构成了参与者据以做出第4项判断(跟踪艇探测到潜艇本身的概率)的线索。

2.3 战术状态显示

战术状态显示用图形描绘出了任务。特别是,战场场景用图形反映任务的几何边界、作战对象(即跟踪艇和自身潜艇)以及相关的线索。图2是1个样例显示。在这里,潜艇本身显示为方块,出现在中间,被3艘显示为3个带航向矢量圆圈的跟踪艇围绕。

跟踪艇的距离(R)和航路偏差(CD)信息在图2中的情景显示上得以描述。每艘跟踪艇的速度用反映跟踪艇航路向量的长度表示。箭头越长头部越宽,则跟踪艇的速度越快。

2.4 情景显示增强

同时建立了感知增强的SEXTENT。增强使用图示信息试图提高跟踪艇各个特征的感知性,从而增强情景意识。图3显示了3种形式的感知增强:(1)距离圈,(2)速度,(3)航路偏差图例。速度和航路偏差图例在图4中显示得更大。第3种形式的增强,距离圈预期可以用来支持距离的判断,这个范围圆圈以自身潜艇为圆心,60NM为半径。在它的右边标记有“60NM”。

img155

图2 SEXTENT的基本情景显示

img156

图3 感知增强型SEXTENT情景显示

img157

图4 增强显示的速度(a)和航路偏差(b)

2.5 SEXTENT任务:规定参数

发起者的输入涉及每种线索的典型变动范围和线索与判据(亦即自身潜艇被探测的概率)之间的典型方向(符号)关系,这部分决定了SEXTENT任务环境的规定参数。表1和图5对这些信息做了总结。表1说明3个线索中每一个的变化都受限于设定的范围。图5反映每个线索和判据之间所期望的方向关系。

表1 线索变动范围

img158

正如图5所示,距离和航路偏差增大都会导致探测概率降低。相反,速度增加会导致探测概率增加。这些关系的设定展现出3种可能情况——跟踪艇距离更近(亦即接近潜艇本身),航路偏差更小(亦即航路方向直指潜艇本身),速度更快,更可能探测到潜艇本身。

img159

图5 线索与判据之间的方向关系

线索-判据关系的设计:当设计模拟试验以促进研究结果转换到目标操作环境时,应该尝试模拟可用的线索、其范围、任务环境下存在的线索-判据相互关系等全部内容(Brunswik,1956;Hammond &Stewart,2001)。然而,在我们的情况当中,任务属性的输入受限于前文提到的3个线索,和涉及判据符号关系的定性信息。这些并非本研究的局限,因为本研究的目标是评估情景意识建模和测量的系统方法的效用,而不是找出特殊的航海设置。然而,我们必须对该任务有具体的认识,同时也是这样做的,与那些提供给我们的参数范围及其符号关系的信息保持一致。

为了创建一个保持线索及所需符号关系的任务环境,我们建立了一个线性模型:(1)保持每个线索和判据之间的方向关系;(2)在研究的线索取值范围内,当3个线索取值指示最大探测效果时,P(探测率)接近1,而当3个线索取值显示最差探测效果时,P(探测率)接近0。结果显示在方程(1)中,并且有R为1。因此当给定3个线索值时,这个环境模型可以很好地对判定准则进行预测(换句话说,判定准则、P(探测率)可以很好地根据3个线索进行预测)。

img160

不确定性:即使不是在大部分的情形也是在很多的情形下,包括此项研究中秘密行动的情况,都会存在不确定性,因此需要在SEXTENT任务环境中加入不确定性因素。于是,式(1)中的模型加入了一个均值是0,标准差是0.08的高斯噪声。噪声的引入使得模型的R2减少到0.8,并且因此使得探测概率以99%的置信区间(Confidence Interval,CI)限定在±0.24个百分点之间(3个标准差)。例如,加入噪声后,真实的探测率以99%的置信区间中心值为0.7,其上限和下限分别是0.94和0.46。在每个SEXTENT任务中,每艘跟踪艇的状态都是根据在表1中定义的参数间隔统一采样随机独立地产生的。

通过以这种方式排除参数之间的相互关联,我们希望参与者估计探测率时,使用全部3个线索。当然,如果实际行动环境有冗余的特点(例如,非零线索之间的相互关联),在仿真研究时应该考虑进去,从而有助于研究结果用于目标环境。但是,本研究的目的是为了评估情景意识建模和测量技术的效用,因此不限制建立任何特定的参数结构。

3 试验设计

试验的主要目的是建立一个数据集合,用来评估基于系统的情景意识建模和测量技术是否可以提供有用的信息,以诊断在受界面影响和不确定任务情况下对情景意识变化有影响的因素。尽管已经研究过很多可能的变化类型,但是在本研究中我们集中在两个方面:(1)由于使用原先的和感知增强的情景显示所带来的可预测的情景意识变化;(2)试验得分最高和最低的参加者之间情景意识变化的事后分析。

我们的逻辑思路是,通过分析第1个(显示诱导)变化的来源,确定建模和测量技术在何种程度上可以用来诊断设计因素对情景意识的影响。类似地,我们分析第2个(具体的参与者)变化源的目的,是为了评估这种技术在何种程度上可以用来诊断该任务中情景意识的个体差异来源。如果成功,具体参与者的情景意识变化分析应该会对培训的设计带来启示。这些培训以每个参加培训人员表现(可能会导致情景意识水平不高)的具体方面为目标。

3.1 参与者

16名参与者,其中10男6女,都是从大学招募的学生。每个参与者被随机分配到基本组(Group Baseline,GBL),显示条件或者是显示增强组(Group Display Augmentation,GDA)。显示条件,每组共有8人。这些参与者当中的14人将给予课程学分。其余2名参与者付给小时工资。所有的参与者均有正常或者矫正到正常的视力。作为激励,每个参与者都被告知每种显示条件下表现最佳者将会获得50美元的奖励。

3.2 程序

第一天用来培训参与者。每个参与者完成10次任务,每次任务需要对与他或她的试验组(即GBL或GDA)相符的3艘跟踪艇做出判断。在接下来的8天里,参与者每天完成20个SEXTENT任务,同样,每个任务需要对3艘跟踪艇做出判断。在这8天中,这个试验设计一共产生了160个任务,每个参与者做出的判断共计1920个(160个任务乘以3艘跟踪艇/任务再乘以4个判断/跟踪艇)。对于每个参与者来说,任务的顺序是随机决定的。根据环境模型的不同,使用随机数种生成跟踪艇特征,任务之间的区别只取决于随机数种的不同。

任务时间安排:在每次任务开始时,会发生两件事:(1)战术场景和信息面板出现在主显示上;(2)任务一开始计时器就记下秒数。如图6所示,信息面板位于SEXTENT情景显示的右侧。这个面板是用来线索参与者什么时候需要做出判断,并提供提交判断的方法,提交这些判断结果,参与者按下绿色确认按钮。

开始3秒钟后,信息面板上的状态区域变成红色,并且出现船长要求做出判断的要求。收到该要求后,参与者可开始对任一跟踪艇做出判断。在开始判断时,参与者首先用鼠标来选定1艘跟踪艇。这种选择会同时出现3种效果。第1,选择的跟踪艇会红色高亮度显示。第2,选择的跟踪艇的确认信息被放置在跟踪艇信息区域。第3,判定区域(如图6所示)中的四个部分被激活,然后变成白色同时可以提交判断结果(在选定之前,这些部分是不可用的)。在激活之后,参与者使用键盘在4个区域中输入4个判断结果(距离,速度,航路偏差和探测概率)。最后参与者按绿色确认按钮提交这些评估。

img161

图6 GT SEXTENT信息面板

反馈:检查是否存在非法字符,然后按“确认”按钮,正常提交了对跟踪艇的判断,在这些之后,参与者就会得到关于这艘跟踪艇的反馈。这个反馈出现在信息面板(如图6所示)的反馈区域。在试验第一天的训练任务中,参与者会得到9条反馈。这显示在图7左侧信息面板的反馈区域中。上面有4对显示条,底下有单独的1条。最上面3对显示的是参与者对跟踪艇参数(范围,速度和方向偏差)判断的反馈;第4对给出跟踪艇P值(探测率)判断的反馈,下面的单个显示条指示的是判断时间。每条对应1个数字来说明该条的长度。

对于4对中的每对,第1条描述执行判断的参数或指标的真实值,第2条给出参与者做出的判断。“真实状态”显示条的颜色较深,其数值标有“T”。

在第1天训练之后8天的任务中,参与者得到的是缩减形式的3条反馈。这3条反馈显示在图7的右侧,它是用于初始培训的9条反馈的子集。这个子集仅包括提交的探测概率(即指标)和输入4个判断所需时间的反馈。更多的关于SEXTENT任务和试验设计的信息参见Strauss(2000)。

img162

图7 (第1天的)9条和(第2到9天的)3条反馈

3.3 情景意识建模和表现测量

在相关联文章(Kirlik and Strauss,2003)中阐述的基于系统的情景意识测量和建模方法被用在表现建模和测量上。另外,使用详细的SEXTENT试验任务的结构知识,对一般模型进行修剪和提炼,针对研究的特定任务环境下结构细节提供1个模型的具体任务应用。

建模和测量技术的具体应用,在相关联文章中介绍了Murphy(1988)的技能评分法,分解以后得到式(2)。该文章说明了如何使用技能评分法测量参与者在保持情景意识方面的总体表现。

img163

对这一情景意识测量和建模技术的初步经验评估而言,我们不改变列在上式中第2项的环境因素,即信息系统的逼真度。因此,就像表2中第2项阴影部分划去的那样,我们只关注式(2)里7个参数中的6个。

表2 扩展透镜模型的7个部分

img164

我们本可以根据不同的技术逼真度设计试验任务,但是这会扩大该项工作的范围,超出情景意识和显示设计研究,同时进入到人与自动化装置交互领域(Parasuraman,Sheridan &Wickens,2000)。然而,式(2)清楚地表达了技术逼真度或者说“第二阶段自动化”如何影响情景意识在理论上的可达水平。

按照这种方式进行研究,从图8中可以看出我们这种缩简的基于任务的情景意识模型不同于相关文章中的完整模型。

img165

图8 原始的和精简的SEXTENT特定情景意识模型

但是在其他情况下,我们可以根据试验任务信息创建其他的量度来表达对完整情景意识的贡献。除了表2所列出的7个因变量外,对来自模型的其他5个表现量度也进行了计算,如表3所示。

表3 增补的因变量其他度量项

img166

在表3中,基于参与者判断和环境指标之间相关性的传统透镜模型成绩度量就是“成绩”(第8项)。而且,想到这种度量对量值和尺度的变化不敏感。但是,和更敏感的技能评分(SS)量值比起来,该项能够快速反映出基本比率偏差和回归偏差对于整个情景意识的相对贡献程度。二次环境预测能力(第9项)是在环境预测能力(第1项)广泛使用后形成的度量。第1项来自于初始线索和判定指标之间的相互关系,与之不同的是,二次环境预测能力值来自线索值的二次线索或者参与者判断线索值与判定指标之间的相互关系。因而,度量9提供环境预测能力测量是基于参与者对情景的感知,而不是基于情景线索本身。在ELM中其基础结构见图9。

img167

图9 二次环境预测能力(RO.U)的基础

表3中的测量(10)、(11)和(12)是仿照信息获取的一致性或是VU.X(表2中的第4项)而产生的。需要想到的是,VU.X是两种相关性相符的程度,第1种是参与者对于线索参数(即二次线索)的判断和指标之间的相关性,第2种是初始线索和参与者指标判断之间的相关性。式3是VU.X数学表达式。

img168

式3描述的VU.X是一致性(RY.X)和信息处理一致性(RY.U)的比值。这里,与初始线索比起来,一个参与者用二次线索有更好的指标判断,其表现会使得RY.U比RY.X大,因此VU.X就会小于1。例如,如果试验提示线索(R,S和CD)判断和探测率判断的相关性是0.9(RY.U),而线索真实值和探测率判断的相关性是0.75(RY.X),那么RY.X小于RY.U,同时VU.X将小于1。

当多种线索同时存在时,计算VU.X建立在多元相关性基础上,这样可以对信息获取给出一个全面的看法。相比之下,线索参数获取一致性(表3所示参数10~12)的详细度量建立在单个线索上,这样给出的是二元相关性。通过测量这些更简单的关系,观察到的单一线索的一致性可以测量,然后可以诊断初始线索和二次线索对情景意识的贡献。值得注意的是,那些补充的测度在原始的情景意识模型中都没有给出。但是创建这些测度的资源已经在该模型构架中提供了,同时指出了如何扩展和修剪情景意识建模和测量的一般框架,以检测在特定环境条件下执行具体任务的表现情况。

3.4 统计分析参数估计和假设检验

除了总的情景意识技能力评分外,在表2和表3中列出的每个参数都是相关的,通过使用Fisher从r到zr的变换调整其正态性以支持统计分析和检验(见Cooksey,1996)。再将所有这类参数变换回r值,用于下面的报告。反映嵌套因素(将参与者嵌套在显示组中)试验设计的MANOVA方法是假设检验的主要算法,使用MANOVA综合技术来调整作为假设检验数值函数的α值(例如多元表现度量),以避免使用如Bonferroni方法那样的分别调整。非参数检验中的图形说明变换后的统计量不能清晰地表现出正态性,但是可使用非参数检验来补充MANOVA方法。

3.5 试验结果

培训的第1天是星期一,该天的数据没有用在分析当中。接下来4天的试验发生在周二到周五,剩下4天试验是在下个星期的星期一到星期四。由于我们的目标不是检测任务中的学习过程,而是参与者学会任务之后稳定的表现,因此我们只研究最后4天收集到的数据。对所有时间段的整个分析感兴趣的读者可以看Strauss(2000)的文章。另外,得到的结果我们仅关注两个方面:情景意识的总体测度(SS)以及两个显示组或两个组内最高和最低得分的参与者之间有显著统计差异的那些参数。

最后4段显示学习和稳定性的结果:试验最后4天的测试显示,在技能评分(SS)测量的情景意识成绩中,时间(分块)以及分块×显示组均没有影响。这个发现说明在这个试验阶段参与者已经获得了稳定的表现水平。这个结果显然不是由于参与者没有学习如何执行任务造成的。因为,即使在前4天的试验阶段两个显示组的平均技能得分为0.353 1,该得分大于零(H0:SS 0;H1:SS>0;T12717.86,p<0.000 1),而技能得分为零表明这是随机造成的表现。到最后4天的试验阶段,由于从前4天到后4天的过程中参与者仍然在不断学习,两个显示组的平均能力得分从0.353 1上升为0.443 2,说明我们仅仅关注后4天试验的决定是对的。这一发现还证实,经验确实可以使参与者做得更好。

基本显示组和增强显示组的对比:稍微有些奇怪的是,使用后4天试验的数据,从反映总的情景意识的技能得分数据看,我们并没有发现GBL和GDA之间有明显的差别(GBL平均技能得分=0.454 5;GDA平均技能得分=0.431 9;F(1,14)=0.194 5,p=0.665 9)。仅仅从参与者的这一表现测度来看,很容易得出结论,在本次任务中感觉增强并没有对情景意识有所帮助。但是使用系统的建模和测量方法来分解这种表现测度可以得出一组截然不同的结论。

详细分析显示组的差异发现,感觉增强型显示在某些方面确实有助于提高参与者的表现,然而也会使另外一些方面受到显著不利的影响,结果导致总的情景意识成绩出现相互抵消的效果。

具体地说,我们发现不同显示组在测量二次环境预测能力,或者叫做RO.U(表3中的参数9)方面存在较大不同。GBL的RO.U平均值=0.856;GDA的RO.U平均值=0.876;F(1,14)=6.09,p=0.027。这个差异表明用感知增强型显示对GDA的有利影响是适度且可靠的。特别是,增强型显示会导致GDA参与者的环境线索感知与实际任务指标之间的相关性增加。换句话说,给定任务预测指标,比如P(探测率)的条件下,基于GDA的参与者对线索的感知将比基于GBL的参与者对线索的感知会更加精确。简言之,GDA的参与者对线索的感知与GBL参与者的感知更加真实和丰富。例如,与听从GBL参与者的情景评估相比,听从GDA参与者的情景评估(基于线索感知)潜艇艇长会做得更好,艇长就可以紧接着判断他或她的潜艇被发现的概率。

那么为什么GDA参与者和GBL参与者相比,在情景意识的技能得分上没有表现出优势呢?有趣的是,建模方法显示在一个参数上,GBL参与者要优于GDA参与者。具体来说,当检验支持回归偏差计算(表2,参数6)的数据时,我们发现这些数据明显不符合参数检验所依据的正态分布假设。因此我们使用了Kruskal-Wallis非参数检验,结果表明GBL参与者的回归偏差要比GDA参与者明显偏低(GBL回归偏差的中间值=0.025;GDA回归偏差的中间值=0.037;H(1)=5.02,p=0.025)。与指标值分布自身的标准差相比,回归偏差是用来表明任务指标判断的分布范围过小还是过宽(标准差)。这些数据表明GDA参与者的回归偏差为比GBL参与者的大[(0.037-0.025)/0.025]=48%。GDA参与者与GBL参与者相比,在高方向和低方向上提供更严格的P(探测率)估计。

从统计学来看,增强型显示的优点和缺点相互抵消了,导致了总的情景意识成绩没有差异。虽然很吸引人,但是我们显然不能得出结论说对于增强型显示,在观察到的优点和缺点之间有肯定的因果关系。但是我们注意到了其他研究人员已指出以牺牲无线索信息为代价,使用注意线索的显示干涉方法确实提高了有线索信息的处理能力(比如,Yeh,Wickens和Seagull,1999;Yeh和Wickens,2001)。在本试验中,“非线索”信息不是其他的显示信息,而是试验中获取到的反映任务生态特征(信息由每次试验后的反馈显示提供给参与者)的实际准则值分布的知识。

3.6 分析高分参与者和低分参与者之间的差别

在有关总体情景意识成绩(SS)和来自模型的表现测量的几乎所有统计测试中,“参与者”因素是非常重要的。例如,我们集中分析的后4天试验中,MANOVA显示横跨所有16名参与者SS有明显变化(F(14,42)=3.08,p=0.002 4)。研究大范围不确定任务领域中人的判断时,这样的研究结果是有代表性的,Brehmer和Brehmer(1988)给出的结论指出“所有政策感召力(判断建模和测量)的研究证明存在广泛的个体差异……”(P103)。

基于这个我们自己的试验结果也支持的一般性结论,我们决定以一种事后的方式弄清楚,使用系统的情景意识建模和测量方法,是否可以清楚地分辨出影响SEXTENT任务中最高分参与者和最低分参与者的因素。我们注意到对于将SEXTENT任务中“高分表现者”和“低分表现者”等级之间的差异推广到一般结论的目的而言,以事后方式选择这两个参与者不符合标准假设检验的前提假定。因此,我们显然不会用这种方式来对后面结果进行解释。

为了减小在这点上误解的可能性,在下面的分析中,我们给出统计比例而非直接的P值,这可能会让读者觉得我们试图将结果解释为关于SEXTENT中“高分表现者”和“低分表现者”的一般性结论。相反,下面分析的目标是为了理解为什么这两个特别的参与者(高分和低分)在总体情景意识表现上会不同。虽然在这个意义上有所约束,我们确实认为支持这些分析的建模和测试工具非常重要。在将整个任务的目标放在个性化、操作者相关、培训干预上,建立关于整个任务特定要素的针对具体操作者的假设时,这些工具就会显得尤为重要。

在总的情景意识成绩中参与者差异:高分和低分参与者都来自于GBL显示组,我们用PH和PL来分别代表。PH和PL的平均SS是0.594和0.255,产生F(1,18)比率18.49。因为SS得分基于两个观测数据集之间的绝对Euclidean偏差,我们可将SS得分看成是比例类型数据,技能得分为零有随机性的意义(SS=0即为随机表现)。因此,可以合理地解释PH在任务中的表现至少是两倍好于PL的表现(0.594相对0.255),这在总体情景意识成绩中是一个很大的差异。

分析情景意识得分高和得分低的原因:可用图示描绘式(2)中的模型和表2及表3中的表现测度,说明技能评分成绩可逐次分解为贡献成分。图示表述参看图10。

标记为LME的虚线框表示的是传统透镜模型方程的范围。为了控制本图的复杂性以及分析的规模,我们不考虑线索获取一致性参数VU.X(见表2)还可以分解出3个线索获取参数的情况。

图10提供了一个概念方案,描述了我们继续分析PH和PL的情景意识成绩促成因素的方式。我们已经知道图10中顶部参数,即技能评分(SS),两者的表现有很大差异。我们的任务是移向图10的下部,分析哪个因素会造成这样重大的差异。

对分析的全部细节感兴趣的读者可以参考Strauss(2000)。这里,为简单起见,我们以类似图10的方式概括地给出我们的分析结论。通过加粗那些统计比例F显示PH和PL不同的表现测度图11给出分析结果。

从图11可以看出,我们首先排除条件(回归)和非条件(基本比例)偏差作为PH和PL之间情景意识成绩差异的潜在原因。这样就可以使我们集中注意力于反映相关性的透镜模型参数上或者说rYO上(PHrYO平均值=0.816;PLrYO平均值=0.605;F(1,18)=28.3)。在这一点上,我们在以下两个方面没有发现PH和PL之间的不同,一方面是环境预测参数(RO.T),另一方面是任务知识或者线索权重参数(对于PH和PL来说,G值非常高,分别是0.985和0.964)。但是,在信息处理的一致性(或者RY,X)方面,我们确实发现了PH和PL之间的差异(PH的RY,X平均值=0.925;PL的RY,X平均值=0.727;F(1,18)=56.07)。正如图11所示,我们可以将这种差异归结为信息获取一致性相对温和的效果,即VU,X(PH的VU,X平均值=1.00;PL的VU,X平均值=0.950;F(1,18)=8.93)以及信息处理一致性相对更大的效果,即RY,U(PH的RY,U平均值=0.927;PL的RY,U平均值=0.766;F(1,18)=30.66)。

img169

图10 技能评分分解的图示说明

img170

图11 高分参与者和低分参与者之间差异的分析结果

总的来说,系统的情景意识建模和测量方法允许我们去分析和隔离PH与PL情景意识表现之间相对来说比较大(2对1)的差异。该差异主要是由于一种更高的一致性,PH借助这种一致性能够根据任务环境(线索权重模式)的规则知识更好地进行情景评估。其次是感知评估评估环境线索的一致性。值得注意的是,该发现与Bisantz,Kirlik,Gay,Phipps,Walker和Fisk(2000)的发现是一致的。他们类似地发现在海军作战信息中心的战术判断任务中,高分参与者和低分参与者之间的主要差异是由于参与者在时间压力下协同执行与任务知识一致的判断策略的能力引起的,而不是由于任务知识自身水平不同引起的。

4 结  论

我们认为在涉及人为因素和认知工程的多种任务情况下,有一种现象是情景意识问题的关键:在技术界面中介做判断和不确定条件下人的判断。在本文中,我们给出了对这种现象进行建模和测量的结果。情景意识的表现归因于界面设计干预(感觉增强型情景显示)和个体差异(在试验任务中的高分参与者和低分参与者)。可以看到,该模型及其相关测度为隔离这些因素对情景意识表现的影响提供了一个很好的分析工具,借此我们展现了在这种情形下系统,或者生态学方法对于情景意识建模的效用。另外,建模和测量基本结构在这两方面的应用结果对这些现象不多的知识作了补充。

在文章的最后,我们想说,经验告诉我们的东西会潜在地限制追随Brunswik概率机能主义(Brunswik,1956)历史传统的任何一种建模方法的可接受性和效果。这个问题涉及一种观点,该观点认为,作为目前所用方法基础的环境和认知回归建模与新近的感觉或认知理论不一致。

就这个问题而言,需要关注的关键是,相关环境线索和判断标准确定后,虽然人们使用线性方法来处理线索权重和集成的假设通常是适当的(Brehmer &Brehmer,1988;Hammond &Stewart,2001),但是这完全不是基于系统或者说是生态学观点所要求的,也不能排除其他情景意识方面的理论考虑。例如,在Gibson看来情景意识是相对“直接”的感觉(1979),也可能只看成与单一线索有关或者是“不变量”(比如,Smith &Hancock,1995)。如果研究人员可以在确定所有可用感知信息源方面做得很好,那么就可以不使用回归模型(具体的例子见Bisantz and Pritchett,已付印)。

另外,除了回归以外的方法可以使用在线索指标关系的建模中,同时不牺牲采用系统观点来进行情景意识测量所带来的好处(Kirlik and Maruyama)。比如,Campbell,Buff和Bolton(2000)使用模糊规则描述了线索与指标的关系,Rothrock和Kirlik(已付印)使用非补偿性规则(如果/那么/并且/或者/非)对这些关系进行建模,Kirlik(1998)使用基于熵的方法而非回归方法对这种关系进行建模。实施情景意识测量系统方法所使用的只是根据线索信息对指标和人为评估进行预测的有效模型。在本文中所描述的用来估计很多情景意识表现参数的统计计算仅用于线索数值和模型输出,不会受到用来描述过程的不同建模方式的影响。经过这个过程,感觉到的线索可以变换成情景意识表现的各个等级。

在上面所说的基础上,我们希望人为因素和认知工程领域研究人员对本文提出的方法继续进行修改和扩展。这样的改善将在人机交互领域的为情景意识测量、理解和支持提供更多有用的方法。

参考文献

Bisantz,A.,Kirlik,A.,Gay,P.,Phipps,D.,Walker,N.&Fisk,A.D.(2001).Modeling and analysis of a judgment task using a lens model approach.IEEE Transactions on Systems,Man and Cybernetics-Part A:Systems and Humans,Vol.30,No.6.

Brehmer,A.&Brehmer,B.(1988).What have we learned about human judgment from thirty years of policy capturing?In B.Brehmer and C.R.B.Joyce(Eds.),Human Judgment:The SJT View(pp.75-114).Amsterdam:North-Holland.

Brunswik,E.(1956).Perception and the Representative Design of Psychological Experiments.Berkeley,CA:University of California Press.

Campbell,G.E.,Buff,W.L.&Bolton,A.E.(2000).The diagnostic utility of fuzzy system modeling for application in training systems.Proceedings of the 44th Annual Meeting of the Human Factors and Ergonomics Society.Santa Monica,CA.

Cooksey,R.W.(1996).Judgment Analysis:Theory,Methods,and Applications.San Diego,CA:Academic Press,Inc.

Gibson,J.J.(1979).The Ecological Approach to Visual Perception.Hillsdale,NJ:Lawrence Erlbaum Associates,Inc.

Hammond,K.R.,and Stewart,T.(2001).The Essential Brunswik:Beginnings,Explications,and Applications.New York:Oxford University Press.

Kirlik,A.(1998).The ecological expert:acting to create information to guide action.Fourth Symposium on Human Interaction with Complex Systems.Dayton,OH:IEEE Computer Society Press.http://www.computer.org/proceedings/hics/8341/83410015abs.htm

Kirlik,A.&Maruyama,S.(in press).Human-technology interaction and music perception &performance:Toward the robust design of sociotechnical systems.Proc.IEEE.

Kirlik,A.&Strauss(2003).A systems perspective on situation awareness I:Conceptual framework,modeling,and quantitative measurement.Ms submitted for publication.

Murphy,A.H.(1988).Skill scores based on the mean square error and their relationships to the correlation coefficient.Monthly Weather Review,116,2417-2424.

Parasuraman,R.,Sheridan,T.B.,Wickens,C.D.(2000).A model for types and levels of human interaction with automation.IEEE Transactions on Systems,Man,&Cybernetics-Part A:Systems and Humans,30(3),286-297.

Rothrock,L.&Kirlik,A.(in press).Inferring rule-based judgment strategies in dynamic tasks.IEEE Systems,Man and Cybernetics-Part A:Systems and Humans.

Strauss,R.(2000).A Methodology for Measuring the Judgmental Components of Situation Awareness.Unpublished doctoral dissertation,School of Industrial &Systems Engineering,Georgia Institute of Technology,Atlanta,GA.

Smith,K.,and Hancock,P.A.(1995).Situation awareness is adaptive,externally directed consciousness.Human Factors,37(1),137-148.

Yeh,M.&Wickens,C.D.(2001).Explicit and implicit display signaling in augmented reality:The effects of cue reliability,image realism,and interactivity on attention allocation and trust calibration.Human Factors,43(3).

Yeh,M.,Wickens,C.D.&Seagull,F.J.(1999).Target cueing in visual search:The effects of conformality and display location on the allocation of visual attention.Human Factors,41(4),524-542.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈