首页 百科知识 驾驶舱交通信息显示器上不完善的冲突告警系统

驾驶舱交通信息显示器上不完善的冲突告警系统

时间:2022-11-04 百科知识 版权反馈
【摘要】:此试验是评估驾驶员使用不完善的告警系统在驾驶舱交通信息显示器上检测交通冲突的能力。驾驶员似乎不会从自动化失效与错误的告警中受到有差异的伤害。驾驶员也表现出了极高的厌恶风险的行为。在目前的报告中,我们描述了当飞行员在不完善的冲突告警的帮助下,试验中飞行员的冲突检测和理解是建立在一系列的被记为“困难”和“容易”的几何体上。事实上,冲突检测的自动化已被广泛应用在驾驶舱和空中交通管制中。

驾驶舱交通信息显示器上不完善的冲突告警系统

Xidone Xu,Christopher D.Wickens,Esa Rantanen

摘  要

此试验是评估驾驶员使用不完善的(部分可靠性)告警系统在驾驶舱交通信息显示器上(CDTI)检测交通冲突的能力。可靠性为83%的自动化冲突检测系统被选中,模拟的不可靠性可能是这个系统的主要特征。提前预测出空中交通冲突,在一定概率的空域内,受动荡,不确定性,交通冲突中从告警时间到最优进近时间(Cloest Point of Apprach简称CPA,意思是指进近过程中最捷径的一点,本文中统一译为最优进近点)驾驶员控制行为等因素的影响。

24个持有驾照的驾驶员在2DCDTI上观看了一系列不同难度的动态相遇,受横向几何冲突(冲突的角度,速度,距离和至最优进近点的时间)的影响。在到达最优进近点前,驾驶员被要求多次估计最优进近的方向和时间。在83%的试验中,3级告警系统提供了一个正确的绝对误差距离(MD)估计。其余的17%告警均等的分为自动化失效和错误告警,规模或大或小。从这些驾驶员得到的数据被作为与相匹配的基线驾驶员(based pilot,即手动操作驾驶员也即初级驾驶员)做同样的试验而没有自动化告警装置的帮助下相比较的样本。

结果大致揭示了:半数以上的驾驶员依靠自动化并用它来改善自己的操作(精确的距离错误估计),相对于不依靠自动化的基线驾驶员(based pilot)来说。这些依靠自动化的驾驶员在更困难的交通试验中要承担更多,他们会尽可能在83%的正确的自动化试验中改善自己的操作,在17%的错误的自动化试验中不造成伤害(相对于非自动化组)。自动告警的出现看起来导致驾驶员更频繁地检查原始数据。驾驶员似乎不会从自动化失效与错误的告警中受到有差异的伤害。有一些证据表明自动化的出现,在坚持误差距离精确预测的前提下,会导致至最优进近点预留时间的低估。这些结果指出不完善的自动化作为CDTI的特性在战略警告中是有益处的,只要它的可靠性在比较高的水平(80%以上)。

1 绪  论

1.1 概述

用Xu,Wickens和Rantanen(2004)(3人介绍见附录A)的话来说,“我们研究了交通上飞机横向相遇的参数,对驾驶员使用驾驶舱交通信息显示器(CDTI)去检测空中交通冲突的能力和理解这些冲突的时空属性提出了挑战”。它揭示了更长的距离,较慢的速度,更多的时间直至到达最优进近点,都增加了空中交通冲突理解的难度。驾驶员也表现出了极高的厌恶风险的行为。

在目前的报告中,我们描述了当飞行员在不完善的冲突告警的帮助下,试验中飞行员的冲突检测和理解是建立在一系列的被记为“困难”和“容易”的几何体上。此自动化告警工具是不完善的,将会出现在现实世界的设备应用中。简单地说是因为在不确定空域中预测出未来轨迹具有挑战性。

1.2 冲突检测的自动化:概述

因为人的有限的空间工作记忆力和预测飞机未来情况的薄弱性,自动化应该帮助人类在冲突检测的预测中起着一个很重要的作用(Wickens,Mavor,Parasuraman,McGee,1998)。事实上,冲突检测的自动化已被广泛应用在驾驶舱和空中交通管制中。通常,冲突检测的自动化包括预测算法的使用,在一定的时间范围内提供冲突的自动化预测,并指出哪一架飞机会造成冲突,以及冲突发生的时间和地点。许多关于冲突检测的研究包括自动冲突检测工具用以提供一个二分的“冲突”或“非冲突”的预测(e.g.,Metzger,Parasuraman,2001)。但是一些提供的关于3个关键变量的信息是理解冲突检测的基础(Xu et al.,2004):最优进近点(CPA)的误差距离(MD),在最优进近点目标至飞船的方位(OCPA),至最优进近点所剩下的时间(TCPA)。这些参数在图1.1中以图形的形式示出(Merwin,Wickens,1996;Wickens,Gempler,Morphew,2000;Wickens,Helleberg,Xu,2002)。应当指出的是,在研究中有关误差距离(MD),在最优点目标至飞船的方位(OCPA),至最优进近点所剩的时间(TCPA)这些信息有助于帮助驾驶员避免交通事故,但是估计这些参数的值并不是驾驶员工作的一部分,驾驶员估计这些参数的数据并没有被收集和分析。

img51

图1.1 最优进近点目标至飞船的方位、距离

我们这里所研究的自动化的形式——[以警告和提示为特征的自动化第二阶段(信息分析和推测)的一个例子(Parasuraman,Sheridan,Wickens,2000)]——并不具100%的可靠性,即自动化失效和错误的告警会发生,正是这种不可靠性的暗示对我们有着吸引力。

1.3 飞行轨迹的不确定性和自动化的可靠性

大多数调查航空自动冲突检测的研究认为飞机飞行的未来轨迹是确定的,除了Metzger和Parasuraman(2001)和Wickens et al.(2000)。因此,自动冲突检测也通过确定性的方式表现出来。然而,在飞行环境下由于一系列因素导致未来飞行轨迹本身具有很多不确定性,也使得完美的预测是不可能的(Kuchar,2001;Thomas Wickens,Rantanen,2003)。关于这些不确定性因素的例子包括风向的变化、空气湍流、飞行员改变飞行计划的意图和预测时间的跨度(例:对未来的预测有多远)。未来不确定性的影响在图1.2中描述,以一定的速度在同等高度飞行时主飞机(ownship)和冲突飞机(intruder)的距离在趋近的航线上而不碰撞,以时间抛物线函数表示,到达最优进近点(TCPA)时刻时最小的误差距离(MD)如图中所示。

img52

图1.2 冲突风险与环境变化关系

图1.2中冲突风险(飞机和冲突飞机的距离)作为时间函数,其中的不确定性主要是由于飞行环境的变化。引自Rantanen,Wickens,Xu,Thomas(2003)and Thomas,Wickens,Rantanen(2003)。

图1.2亦表明了因为飞行环境的变化,在时间为0时可以预测的未来距离的不确定性在增加。标准或确定风险函数显示如果在两架飞机的位置确定的情况下,最小误差距离将会大于半径为5mile(英里)的保护区域(即非冲突)。然而,环境中不可预测的变化将会导致飞机位置的不确定性,大概有围绕飞机标定位置的正态分布(Magill,1997)。这种分布以最好情况和最坏情况为边界,被认为是代表95%的正态分布置信区间。此外,未来不确定性的程度作为时间函数被放大,最好的情况相对于正常的情况会更安全(更大的误差距离),最坏的情况相对于正常的情况会更危险(误差距离较小)。图1.2中最坏的情况所示在时间为TL(时间偏差)时有半径为5mile(英里)的保护区域偏差。

这些不确定的因素本质上组成了各种不可靠性的来源和本文中不完善的自动告警系统,导致了两种不同类型的错误:自动化失效(冲突未被预测)和自动化错误告警(安全分离被视为冲突)(Parasuraman,Hancock,Obofinbaba,1997;Wickens,Xu,2002)。如果驾驶员过分信任或者依赖这些错误的自动化结果,与本章开始描述的同等严重的后果可能会发生。然而,由于人类行为的适应性,错误告警的高发率和自动化失效的高发率都会导致驾驶员对这种系统的不信任,反过来将会对这种系统信任度降低甚至对系统的弃用(Dixon,Wickens,2004;Parasuraman,Riley,1997;Wickens,Xu,2002)。尽管注意力分配行为模式在被两种类型的自动化错误所诱导下可能会有一定程度的不同(Dixon,Wickens,2004;Meyer,2004)。更多的是,如图1.2所示随着时间的推移不确定性的增加。这些错误的严重性是预测范围的函数,随着预测范围的增加,失效和错误告警率都在增加(Wickens,Rantanen,Thomas,Xu,2004;see Appendix B)。

除了不确定性的增加和自动化错误伴随着预测时间范围的增加(偏爱较短范围),还有第两个因素权衡预测范围,即通过有效的利用时间来进行交通冲突规避演练(Kuchar,2001)。例如,更精确的预测和较小的预测范围,为演练留下更短的时间从而去避免假若存在的冲突。然而去确定和考虑基于CDTI(驾驶舱交通信息显示器)的更大的自动化预测范围的不可靠性的影响是非常重要的,预测错误是不可避免的(i.e.自动化的不可靠或不完善),必须在自动化错误和失效的警告之间由自动化设计者去权衡(Dixon,Wickens,2004)。

第三个影响这一情况的因素是这些事件发生的基本概率被检测-冲突。如果基本概率十分低(冲突非常少),警报阈值需要设置在一定的水平从而产生许多错误警告,这样做是为了避免较高的失效率(Parasuraman et al.,1997;Wickens et al.,2004)。

1.4 自动化可靠性对表现的影响

一个重要的问题是自动化告警系统有多大的可靠性去影响人和自动化作为一个整体系统的表现。自动化的可靠性可以规定为自动化任务中正确的自动化操作次数除以总的自动化操作次数。自动化告警系统变得非常可靠几乎是不可能的,原因即上文所述未来的不确定性,可靠性通常小于1.0。一般发现相对于非自动化或手动表现来说(e.g.,Dixon,Wickens,2003;Yeh,Wickens,2001),正确或精确的自动化改善和提高整体系统的表现。自动化的优势可能并不明显,特别是自动化任务很容易被手动执行时(Rovira,Parasuraman,2002),而当任务不容易以手动(non-automated)形式完成时,自动化的优势便显现出来(e.g.,Dixon,Wickens,2003,2004;Galster et al.,2001;Maltz,Shinar,2003;Yeh,Merlo,Wickens,&Brandenburg,2003)。另一方面,任务困难时不可靠自动化的成本往往比任务简单时(Dixon,Wickens,2003,2004;Maltz,Shinar,2003;Wickens et al.,2000)要高。这个问题在当前的试验中非常重要。这些成本和收益可以很容易地用调节自动化依赖程度这一概念进行解释。当人工形式使任务变得困难时,使用者便开始更多地依赖和通过自动化帮助他们(提高表现和减少工作量)。当自动化正确时,对自动化的依赖性将提供更多的好处,但是由于自满情绪(Parasuraman,Sheridan,Wickens,2000;Wickens Hollands,2000)造成情景意识减低和技能退化时所带来的失败将会造成更多的成本。[相比经常使用的“reliance”这个词语我们更喜欢用“dependence”,因为“reliance”这个词语是指自动告警系统具体的依赖类型(Meyer,2004)]。

操作者在先前被认为完善的系统中经历了第一个自动化失效的时候,性能表现大量递减(性能水平低于人工水平)归咎于已经观察到的自满情绪(e.g.,Metzger,Parasuraman,2001;Molloy,Parasuraman,1996;Yeh,Wickens,2001;Young,Stanton,1997;Wickens,2000)。

现在很清楚的是在第一次失败后如果继续依赖自动化,可能会继续遭受一系列的失败,即使知道自动化系统是不完善的(Molloy,Parasuraman,1996;Wickens et al.,2000;Yeh et al.,2003)。

相比第一次失败的例子说,这些随后的自动化失效产生的成本较小(Yeh et al.,2003)。

同等重要的是在随后的精确或准确的自动化试验中去检测不完善自动化的影响,在特定情况下,相对于第一次失败前完善的自动化而言,“正确的自动化”试验也遭受失败(Yeh,Wickens,2001)。这种现象被解释为自动化依赖的减少,结果是人工操作完成任务(如果完善自动化性能高于手动性能,则性能降低了)或者次最佳化策略的使用,即使保留了一些自动化的使用。相对于手动表现来说,这些正确的试验的结果是混合的。一些研究表明人工操作表现可以保留优势(Yeh et al.,2003,Kantowitz,Hanowski,Kantowitz,1997;Galster et al.,2001),一些说没有如此的好处(Yeh,Wickens,2001)。还有一些显示会有持续的成本(Dzindolet,Pierce,Beck,Dawe,1999),特别是总体可靠性很低的时候(Dixon,Wickens,2004)。

根据自动化可靠性能影响的文献,Wickens和Xu(2002)得到结论:相对于人工操作表现和自动化失效特别是第一次失效负面影响性能表现来说,正确的自动化改善表现。有关自动化可靠性怎样影响表现的不一致的发现和结果,不管怎么说,依然被发现了。

当谈到不完善自动化援助下的整体表现(在正确和不正确的自动化条件下),一定的可靠值或分界点看起来是需要的,为了使它相比于无自动化帮助或手动操作有益处。然而,文献中这些可靠值是不一致的。表1.1总结了不同自动化可靠性下,相对于人工操作表现来说,自动化帮助表现下的成本和收益。表1.1总结的所有试验包括了单一任务的表现,除Dixon,Wickens(2003;2004)和Rovira,Zinni,Parasuraman(2002)的试验包括多重任务表现,Dixon和Wickens(2004)指出了为什么在可靠性低于一定的值时,自动化帮助情况下的表现不如手动操作的原因,可能归功于在高负荷量的情况下任务相同时的资源分配策略。在高负荷工作量的环境下,驾驶员可能为了一个不必要的任务依靠不完善的自动化,尽管他或她可能并不十分相信自动化,所以更多的资源被分配到另一个任务上。这种策略将会降低自动化任务的表现甚至会加强人工操作相同任务的表现,Dixon,Wickens(2003)和Rovira et al.(2002)的发现和这种解释是一致的。表1.1出现的一种大众趋势,对当下试验的结构非常重要,是当任务非常困难和自动化可靠程度高于80%时,收益而不是成本(不包括第一次失败的影响),常常会出现这种趋势。

表1.1 不同自动化可靠性下,相对于人工操作实现、自动化帮助的收益和成本

img53

续表

img54

尽管人类的反映,在对上面所描述的不完善自动化在飞行冲突检测中的应用十分重要,看起来似乎只有两个试验探讨了这个问题,现在对每个试验进行详细描述。Metzger和Parasuraman(2001)所做的一个重要的研究首先是在手动操作条件下用航空器执行了冲突检测任务,然后是在相对可靠的自动化条件下,紧接着是两个不太可靠的自动化条件下。每个条件包含一或两个方案,反过来每个方案包含两个冲突和三次自我分离。那里的飞机将制造冲突而飞机不是先前的撤销演习的飞机,受试者被要求在自我避免冲突演习开始前检测它们。两种不可靠的自动化操作条件下和手动操作条件下包含着另外一种事故失败将会在下面描述。在三个自动化条件下,在飞机遗失分离轨迹或者飞机将要遗失分离轨迹(飞机并没有自我分离)6分钟前围绕两架飞机将会出现一个红色的圆圈。在人工操纵情况下,只有当分离轨迹遗失时才会出现红色圆圈。在不可靠的自动化条件下,一个自动化的失败当其中一架飞机偏离航道,并与另一飞机发生冲突,一种情况并没有被例行的自动化所检测到,也就是说,一个“自动化失效”。每两个不可靠的自动化情形下有一个这样的自动化失败,各自产生了第一个和第二个自动化失败,在真实的分离偏差出现前检测器仍然需要去检测正在进行的冲突。与不可靠自动化情况相比,人工条件下也包含了类似的事件。

自动化(援助冲突检测)改善和提高了操纵者在冲突检测过程中的表现而且在其可靠性达到100%时能够减少操纵者在相关手动操做中所需要付出的脑力劳动。然而,自动化的可靠性往往小于100%,自动化失效时,操纵者在冲突检测中的表现往往比手动操作更糟糕,由于自满的情绪,在所有完善的自动化试验中失败的事件都在滋生。自满情绪的证据从眼睛的运动中所揭示,操纵者没有检测到失败是因为相对于手动操作来说,在自动化操作过程中对雷达屏幕较少的注视次数和较短的停留时间。然而,在第一次失败的事件和第二次失败的事件中,检测率并没有什么不同。另外,相对于不可靠的自动化,在可靠的自动化中操纵者对自动化的信任程度明显要高,但是在两次失败的事件中,信任度没有什么不同。这表明当这些冲突都被自动化正确地检测到时,没有数据可以提供并用来比较操纵者在可靠自动化条件和不可靠自动化条件下的检测表现。

这些结果和一般的结论一致,完善的自动化有利于操纵者的表现。一次性能递减发生在第一次自动化失败中(在一段时间的完善自动化功能后),伴随着对自动化的信任度减少。有趣的是,在第一次和第二次自动化失败事件中,操纵者的表现和对自动化的信任并没有发生改变。其余一些重要的有关飞行器冲突告警自动化系统的研究由Wickens等人(2000)进行,他们仔细观察了不完善自动化系统对驾驶员使用CDTI(驾驶舱交通信息显示)的影响。在他们的第二次试验中,驾驶员被要求保证预先设计的飞行轨迹,在CDTI的帮助下检测并避免和其余的飞行器发生冲突,整体的可靠程度是83.3%。在错误的自动化试验中,飞行器改变方向或垂直速度(爬升和下降),但是冲突预测的线路将会继续指向基于开始飞行参数所确定的方向。发现相对于正确预测试验,当交通冲突简单时(例如,2-D交通问题),错误预测试验(时间花在偏差预测上,与预先设计的航道偏离)的成本是较少的。更困难的3D交通问题成本较大。另一个发现有关错误试验发生前所进行的试验和错误试验发生后所进行的试验,二者的安全措施没有什么不同(例如,时间花在预测上和真实的冲突上和飞行轨迹偏离上),指出在自动化的信任上没有临时的变化。然而,作者并没有比较不完善的自动化的整体性能和基线手动情形,这只是第一次试验的一部分,看看如果存在整体的收益或者成本。此外,研究人员并没有调查冲突检测本身。

根据Wickens等人(2000)的试验,这些结果表明相对于较容易的试验,驾驶员在比较困难的试验中更多依赖预测设备来帮助他们来避免冲突,原因是困难的试验与更加复杂的情况相联系。因此,当面对错误的试验时,更高程度的依赖性和试验中把更多的注意力分配在预测器上都会导致更多的问题。作者推断这些问题并不是因为自满情绪导致,因为在错误的试验发生后,驾驶员不能调节他们的行为,在注意力分配和真实可靠性水平之间应该用建议而不是合理的校准。

Metzger,Parasuraman(2001)和Wickens等人(2000)的发现共同说明了不完善的自动化在冲突检测中带来的成本,在第一次失败中会很高,如果第一次失败和接下来的失败间隔较长的话,成本仍会如此(Metzger,Parasuraman,2001)。如果驾驶员能够发现失败的一些规律性并能够在自动化和交通情况的原始数据间合理地分配注意力(Wickens等人,2000),成本往往不会很高。Wickens等人和其他的一些研究也发现收益和成本很可能出现在困难的条件下,这种情况将使人们更加依赖于自动化。

1.5 自动化错误告警的相关成本相比于自动化失效的相关成本

如上所述,当自动化指出了一种不正常的情况或者不存在这个世界上的失败或者比实际更严重的一些事情时,自动化错误告警发生。最新的一个关于自动化错误告警在空中交通冲突检测中的例子是自动化工具给驾驶员指出的误差距离(MD)比其实际值短。当自动化没有给驾驶员指出存在这个世界上的事件或者指出的此事件的严重程度比实际要低时,自动化失效发生。而且,在冲突检测中,当自动化冲突检测工具给驾驶员指出的误差距离(MD)比实际值更长时,自动化失效也将会发生。自动化错误告警和失效有不同的表现和行为结果。Meyer(2001,2004)分别把它们归咎于服从性降低和依赖性降低,都是潜意识的信任度降低。根据Meyer(2001,2004),自动化错误告警率影响驾驶者遵从自动化告警的程度,较高的错误告警率和较低服从性相联系。错误告警开始的结果是驾驶员对自动化建议作出无必要的反应,长远看的结果是(特别是有着高错误的告警率)驾驶员不相信自动化和不遵守自动化所给出的建议(Meyer,Ballas,1997),一种现象称为“狼来了综合症”(Breznitz,1983)。由TCAS(空中交通告警和防撞系统)的早期版本观察(Rantanen,Wickens,Xu,Thomas,2004)的。另一方面,自动化失效告警率影响驾驶者依靠自动化为其检测失败的程度,高的失效告警率和低的依赖性相关。高依赖性的短期结果是驾驶员自己没有找出自动化也没有发现的极少的失败。低依赖性的长远的问题(高自动化失效率带来的结果)将是更多地把注意力放在了原始数据上,很少把注意力分配给了同时存在的任务上(Dixon,Wickens,2004)。

仅有很少的一些研究检验了自动化错误告警降低了服从性对性能影响的影响是否比自动化失效降低了依赖性更大。基于民用和军事航空的安全性数据分析表明在一定的环境下,自动化错误告警相比于自动化失效来说造成了更多的事故和事故症候(Bliss,2003)。Maltz和Shinar(2003)调查了军事环境条件下,在服从性和依赖性上自动化错误告警和自动化失效的影响。

受试者寻找那些经过提示的少于100%可靠性的军事目标,并结合3错过率和3误报率产生的9个可靠性的条件。Maltz和shinar发现当错误告警率增加,目标检测性能下降和遵守程度(即根据提示)也下降了。然而,失效率的增加对性能没有显著的影响并且减少了对线索依赖程度的影响。作者解释了告警错误和失效产生不同影响的原因,可能是因为正确提示(命中率或“1-事实上错过率)”的真实百分率并不为观察者所知道,然而错误告警对他们来说更加明显,因此产生了更多的误导性。

在两个相似的试验中,Dixon和Wickens(2003,2004)研究了自动化失败告警系统不同阈值对驾驶员控制模拟无人机(unmanned air vehicle)的影响。与依赖和服从的区别保持一致,与倾向于自动化的失效相比,他们从倾向于错误告警的自动化中观察到了质的不同的行为模式。一些证据表明前者(自动化错误告警)更多的是整体瓦解,后者(自动化的失效)在同样的任务中造成了更多的成本。

当应用到交通冲突检测系统的时候,错误告警和告警失效的区别并不像在Maltz,Shinar,Dixon和Wickens的研究中那么清楚,因为这样的系统不太可能真的“错过”预测一个冲突。它们只可能会晚些时候发出警报,一个延迟的警报留给驾驶员较少的时间去应对(Kuchar,2001)问题。错误告警问题和延迟告警作对比,已经在地面交通(车辆交通)冲突检测系统中进行了研究(e.g.,Gupta,Bisantz,Singh,2001;Cotté,Meyer,Coughlin,2001),得到的一般结论是错误告警的系统比延迟告警系统更具有破坏性。然而,这个问题还没有在空中交通冲突检测中研究。

现做个总结,看起来总体而言,自动化错误告警相比于自动化失效来说,在性能表现上有着更大的负面影响。但是,在我们对文献审查的基础上,没有看到有文献研究调查了在飞行冲突检测告警中,自动化错误告警和自动化失效的相关影响。

1.6 自动化应用策略:自动化依赖

Maltz和Shinar(2003)描述了几种不同的理论和类型,这些理论和类型是关于人与不完善告警系统或与注意力指导自动化的相互影响,这里有3种相关的。一种自动化依赖风格是使用者完全依靠自动化,因它而做出反应。自动化正确时(说有“信号”和无“信号”)人的行为反应也将会是正确的。自动化错误时(自动化失效或自动化告警错误),人的行为反应也将会是错误的。因此人类的表现,由检测信号灵敏度参数来衡量,不会比自动化结果更好也不会更坏。以另一种方式来陈述,当自动化回答“是”时人类变化反应标准测试结果将会是冒险的(总是回答“是”),当自动化回答“否”时(Maltz,Shinar,2003;Meyer,2001)人类变化反应标准测试结果将会是保守的(总是说“不”)。

最佳的自动化依赖风格,是当自动化正确时,人类使用自动化来展现其优势,但是当它错误时也不能忽略它。举个例子,自动化产生了一个信号,使人们更密切地去检查原始数据,从而保证事实上有这么一个信号出现,因此提高了灵敏度,没有造成错误的告警,当自动化给出了错误告警时也这样去做。适应此种方式,现假定自动化沉默时,人类将会依赖自动化,因此告警失效率等于自动化告警失效率。在信号检测理论中,灵敏度提高,可能单独相对于人类或者自动化而言,响应准则受这种交互模式的影响很小。

一种怀疑态度的自动化依赖风格,人类使用者完全不重视自动化,因此,他们的表现和无自动化帮助下的表现没有什么不同,也有可能比自动化帮助表现下要糟糕,如果是后者则是很好的。Maltz和Shinar不完善目标提示功能的研究似乎产生混合式风格。

在另一个不完善目标提示的研究中,Yeh和Wickens(2001)区别了两种不同的风格,Maltz和Shinar(2003)的依赖和最优化风格相一致。依赖风格(偏见反应)引起使用者对任何形式的自动化目标提示作出反应,最优化和“敏感化方式”风格引起对自动目标指引下的原始数据(原始仪表参数)更密切的检查。这些结果指出,在第一次自动化失败(无目标提示)后,驾驶员的反应表现出了极端的偏见,然后,在一系列的失败后,行为往往更多地近似为怀疑和可依赖自动化观察的混合,几乎没有证据表明提高了灵敏度。更重要的是,驾驶员没有能够利用提示的优势,甚至70%的可靠性,帮助他们检测原始数据,提高他们的整体目标检测表现。现研究(试验2)最重要的一个好处将是比较3种风格的自动冲突检测帮助的应用。

总结如下,文献已经收集了相当大的关于自动化可靠性对性能影响的研究(Wickens,Xu,2002;Dixon,Wickens,2004),精确的自动化会提高和改善性能,但是不精确的自动化相对于精确的自动化的结果,性能较差。很多次比在没有自动化帮助下的性能还要差特别是,无自动化帮助下简单的任务比自动化可靠性低75%。这个案例也适用于自动化在冲突检测中的情形。同样,没有关于自动化冲突检测中的研究发现它所给出的MD(误差距离),OCPA(目标至飞船的方位)和TCPA(至最优进近点所剩的时间)的数值是准确的。如上所述,自动化的好处更多地出现在自动化任务较困难的时候(Dixon,Wickens,2003,2004;Galster et al.,2001;Maltz,Shinar,2003;Yeh et al.,2003),相比于手动操作(非自动化)的简单(Rovira,Parasuraman,2002)任务来说。人们还发现相比于简单任务,在困难任务下,在自动化失败情况下,性能将更加糟糕(Dixon,Wickens,2003,2004;Maltz,Shinar,2003;Wickens et al.,2000)。最后发现,文献中指出了自动化告警失败相比于自动化失效,对性能有更大的负面影响。

1.7 二分对战多级告警系统

正如上面简单提到的,许多冲突告警系统提供了一个二分的警告(冲突对非冲突)(e.g.,Metzger,Parasuraman,2001),空中交通告警和防撞系统(TCAS)。但是,采用了3级警戒。如果入侵飞机和该飞机的分离偏差在50s以内,交通咨询发出口头警告的形式“Traffic Traffic,”显示器上入侵者标的颜色将会变成黄色。如果分离偏差在25s以内,入侵者图标的颜色变成红色,口头上发出劝告的决定,以及一系列所要求的爬升/下降率指标,从而去避免分离偏差(Ho,Burns,2003)。多级告警系统或多层次的可能性告警(Sorkin,Woods,1985),相比于2级或二分的告警系统来说,是更精确或更准确的告警形式。据预测,一个不完善的多级告警系统,不太可能产生“糟糕的”错误且比不完善的2级告警系统更有容忍性。相比于2级告警系统,多级告警系统更被提倡(Rantanen et al.,2003;Sorkin,Kantowitz,Kantowitz,1988;Sorkin,Woods,1985;Wickens,2003)。令人惊讶的是,很少有研究真正的比较了多级告警系统的效率和二分的告警。Sorkin et al.(1988)观察了在多级可能性告警系统下,同样的任务有更好的表现,但是告警任务本身没有更好的改善。St.Johns和Mannes(2002)确实发现了告警任务的改善,尽管他们的研究并不属于冲突检测之一。在当前的研究下,我们使用了3级告警系统。3级由预测风险的程度来限定。风险是可操作的,由误差距离(MD)和最近进近距离来限定。

1.8 试验2概述

试验2的首要目标是在多大程度上,有关冲突预测的告警系统能够减少面对困难冲突问题(长时间和距离,慢速度)的不良表现和偏见,困难冲突问题来源于Xu,Wickens和Rantanen(见附录2)。第二个目标集中在自动化预测的可靠性怎样去影响表现?具体来说,我们调查了一个不完善的自动化告警系统(83%的可靠性)正确和错误的预测怎样去影响性能,相比于手动操作来说。自动化可靠性能的影响怎么被自动化依赖的差异性所调节,怎么样通过任务难度来调节,最后无论自动化错误的大小(中等对比更坏)和自动化错误的类型(错误告警对于告警失效)都对性能有影响。

2 方法

2.1 供试验用的航空器

8个飞行教官和16个得到认证的非教官飞行员(22个男2个女:年龄在18-25岁之间,平均年龄是19.83岁)从飞行学校被招募,飞行学校坐落在Urbana-Champaign的美国伊利诺伊大学。他/她的参加支付给试验用的航空器8/h。

2.2 模拟和显示

CDTI(驾驶舱交通信息显示器)在地图上描述了主飞机和冲突飞机(自上而下),见图2.1。主飞机在显示器上用白色三角形来代表,冲突飞机用蓝绿色的固体圆圈来代表。主飞机的标志在显示器中间的位置并贯穿整个试验,从而服从有关交通情况的一个自我为中心的观点,对于参加者来说,该飞机的标志似乎是静止不变的。该飞机和冲突飞机在相同的高度飞行,各自以一定的速度但不是相同的速度,在趋进的过程中。参加者各自观察一个冲突方案的发展15s,此后这个方案冻结。然后他们被要求脑力上预测冲突情形的发展,当他们估计CPA已经到达,轨迹还没有被冻结的关键时候,按下一个按钮,从而提供一个精确的TCPA预测,移动游标到他们所认为的最优进近点的位置,然后提供一个精确的MD(误差距离)和OCPA(在最优进近点目标至飞船的方位)的预测。正如Xu等人(2004,见附录A)空中交通冲突中冲突飞机可能是从左边或者是从右边,将会超过主飞机或落后于主飞机。将可能会超过45°,横越90°,以接近135°的冲突角度,以低速、中等,或较快的相对速度前进。

img55

图2.1 图示描述了试验示例的主要部分和独立变量

(对参加者来说,主飞机的标志是静止的)

自动化告警按如下所实施,试验的开始,冲突预测器自动提供3级误差距离(MD)告警。更为具体的是,如果误差距离的值大于3.5mile时,冲突预测器不会警告驾驶员。当误差距离的值大于1.5mile小于3.5mile时,提供有关误差距离的低级告警。当误差距离的值小于1.5mile时,提供有关误差距离的高级告警。

如图2.1所示,误差距离的3级告警由不同颜色的交通标识指出就好比不同的声音警告。根据误差距离的给定等级,交通标识的颜色在试验中自始至终保持不变,声音警告也出现一次。我们选择了3级告警有两方面的原因。首先,在一定程度上,它和当前战术冲突避免系统的告警算法(TCAS)保持一致,在本章的开始已经有所讨论。3级误差距离告警系统是多级“可能性告警”的一种形式,它被假定为比2级告警系统更具有优势的系统(Rantanen et al.,2003;Sorkin,Kantowitz,Kantowitz,1988;Sorkin,Woods,1985;St.Johns,Manes,2002;Wickens,2003)。

表2.1 3级误差距离告警

img56

去模仿一个不完全可靠的预测器,在一些试验中(每6个试验中有1个试验),自动化提供误差距离的错误预测。使用信号检测理论,有两种因自动化失败导致的常见的预测器错误类型,一种是预测器指出误差距离比实际值处在较大的分离类别(自动化告警失效),另一种是预测器指出的误差距离比实际值处在较小的分离类别(自动化错误告警)。图2.2所示,一半的错误试验是错误告警,另一半是告警失效。这两种错误类型每一种含有两个等级大小(例如中等和较坏的告警失效,中等和较坏的告警错误)。多级告警错误和多级告警失效概念和模糊信号检测理论一致(Parasuraman,Masalonis,Hancock,2000)。根据这个理论,信号和响应都是连续性变量(e.g.,for a signal with a probability of 0.8,there can be 0.8hit,0.1false alarm,0miss,and 0.1correct rejection),反过来在传统信号检测理论里,信号和响应都是二进制的(e.g.,for a non-signal,the response must be 0hit and 0 miss,and either 0false alarm/1correct rejection or 1false alarm/0correct rejection)。

img57

图2.2 由MD预测器提供的不同的输出结果

2.3 任务

驾驶员的任务和Xu等人(2004见附录A)试验中是一致的。也就是说,模拟方案冻结后,驾驶员去估计TCPA然后是MD和OCPA,通过把游标移动到预测中的最优进近点。然而,自动化MD(误差距离)告警系统可以帮助驾驶员进行判断。当MD告警系统所作出的指示是正确的,驾驶员看起来是从自动化帮助中受益。然而,当驾驶员认为预测器提供的是无用的MD预测时,驾驶员会忽略它并在自己的判断上作出他们的估计。

2.4 试验设计

当前的试验采用了重复测量设计。然而,试验中提供给驾驶员的数据通过自动化得到,在相同的冲突试验中,与一组相匹配的但没有自动化帮助的驾驶员那里得到的数据进行比较,正如Xu,Wickens,Rantanen(2004)的报告中所述。接下来,以前的基准数据(即非自动化)将被称为试验1,当前的从不完善自动化收集来的数据将被称为试验2。试验1的几何结构中产生了一些容易和困难的试验,被选中为试验2中任务难度创造因变量,随供试验用的航空器的不同而不同。如图2.3所描述的,为了制造两个不同难度等级的任务,试验1的试验首先根据至最优进近点的距离值(DCPA)分为3个不同的组:短的(1.33mile)、中等长度的(2.67mile)和长的(4mile)。短的(1.33mile)、中等长度的(2.67mile)和长的(4 mile)这3个组每一组中的108次试验。根据MD的等级再分为3项(﹤1.5mile的是短误差距离MD,1.5-3.5mile的是中等误差距离MD,﹥3.5mile的是长误差距离MD),每一项再根据加权性能衡量标准和[0.4×(绝对TCPA估计误差)+0.4×(绝对MD估计误差)+0.2×(绝对OCPA估计误差)]的分数差异,分为容易试验组和困难试验组(18个试验1组),在试验1中已有所述(见第二章对三种不同的估计误差分配不同的权重的解释,基本原理的解释)。也就是说,有18个试验在试验1中产生了较高的误差分数(例如,绝对TCPA,MD和OCPA的权重衡量,估计误差)划为困难试验,其余18个较低的分数划分为简单试验,误差分数从参加试验1的驾驶员中得到。然后从18个试验中随机地挑选出12个。因此,总共有36个简单和36个困难的试验,简单的试验至最优进近点的距离(DCPA)是1.33mile而困难的是2.67mile。困难试验和容易试验基于试验1中的性能水平进行划分。

img58

图2.3 制造两个不同任务难度等级的方法

对于到最近进近距离较长试验组来说,试验1中所有的72个试验都是为此试验服务(抽样调查不包括)。至最近进近距离为4mile的这72个试验根据3级误差距离(MD)告警再次分项,每项根据在试验1中的表现再次分为容易组和困难组,每一组包括18个试验。因此,在至最近进近距离是4.0mile时,一共有36个容易的试验和36个困难的试验。对每一个DCPA(至最优进近点距离)组来说,三个MD(误差距离)级别中容易的试验被划分为“容易”的几何类别,三个MD(误差距离)级别中困难的试验被划分为“困难”的几何类别。然而,平均意思上,基于试验1中参加者的表现,“容易”的几何类别假定为比“困难”的几何类别更容易。

另一个吸收到这个设计的独立变量是自动化的有效性(错误VS正确),这也随着供试验用的航空器的变化而变化。至CPA距离的每一水平,都有12个自动化错误试验和60个自动化正确试验,因此服从83%的自动化可靠性。在12个自动化错误案例中,有4个中等告警失效,两个严重告警失效,4个中等错误告警,两个严重错误告警,均等的由“容易“和”困难“的试验所代表(两个中等告警失效视为容易试验,其余的两个视为困难试验,一个严重失效视为容易试验,另外一个视为困难试验)。中等错误比严重错误多的原因是反映了统计(正常)分布,将期待从这样的诊断系统中得到。另外两个独立变量也从这些自动化错误试验中得到。一个是自动化错误的大小(中等自动化错误VS严重自动化错误),另一个是自动化错误的类型(告警失效对VS误告警),二者都随供试验用的航空器的变化而变化。

24个驾驶员根据至最近进近距离的三种不同类型进行了分组(每组8个人),驾驶员的飞行经验与试验1中驾驶员的飞行经验大致相同(即两个试验中供试验用的航空器1的飞行指导有着相似的级别和飞行小时数)。通过这种方法,两个试验中相配对的对象被创建了。注意到尽管不同试验航空器之间至CPA(最近进近距离)的距离是不同的,DCPA(至最优进近点的距离)并不是这个试验所要研究的一个独立变量。每个DCPA组的72个试验以类似随机的顺序展现给驾驶员。自动化错误的试验也类似随机的分布在所有的72个试验中。一些错误的试验引起的错误告警和另一些引起的告警失效反过来又类似随机的分布在这些错误的试验中,从而展现给驾驶员的顺序也是随机的。为了每个参加者,这些错误的试验也是类似随机的以不同的方式分布,从而使这些错误试验的发生在更广泛的几何冲突范围内。附录C为简单和困难的试验提供了实际几何冲突的清单。

2.5 依赖性措施

在这个试验中,5个独立变量(绝对和标记TCPA估计误差,绝对和标记MD估计误差,绝对和标记OCPA估计误差)被分析和收集。另外,为了下面所述的假说3A和3B试验,3个新的非独立变量被推导出来。更为具体的是,绝对MD(误差距离),TCPA(至最优进近点距离),OCPA(在最优进近点目标至飞船的方位)估计误差(绝对MD,TCPA,OCPA估计误差)中自动化诱导差异是通过试验2中MD,TCPA,OCPA减去相对应的试验1中的MD,TCPA,OCPA而得到。这些减法以试验2中每个试验飞行器间反复的试验为依据,试验1中相匹配的试验飞行器也面临着相同的几何参数。根据这个程序的结果,我们可以直接得到不完善自动化的收益和成本。怎样根据不同的任务难度和自动化正确程度用两个变量来调节收益和成本。

正如我们将注意到如下的注意事项,最大的注意力集中在了误差距离措施,对误差距离的估计代表了驾驶员对冲突风险的估计起着着决定性安全的一面。

2.6 程序

驾驶员参加一个试验会议去完成两组各36个试验,持续大约1h和2h,主要取决于测试对象被分配到哪个距离(DCPA)组。在参加试验会议之前,驾驶员参加了一个练习会议,在会议上驾驶员阅读说明,被告知了任务,得到了象征性的演示,从而熟悉模拟,并且毫不隐瞒地被告知预测器不是100%的可靠,可能预测错误的MD(错误距离)结果。然后他们进行了10个练习试验,包括用一个有效的预测器做了6个试验和一个无效的预测器做了4个试验(一个告警错误,一个严重告警错误,一个告警失效,一个严重告警失效),(被具体告知后4个试验的无效性)。在完成练习会议的基础上,驾驶员参加了试验会议去完成72个试验。驾驶员在两组试验之间有一个短暂的休息从而避免疲劳。在完成试验会议的基础上,驾驶员被要求说出对MD预测器可靠性的估计,并作为一个明确的信任自动化(Wickens等人,2000)的措施。通过这些方法得到的估计分别是1.3mile 85.28%可靠度,2.7mile 83.79%可靠度,4.0mile 81.17%可靠度。

2.7 假说

假说1:试验2中冲突检测或冲突意识表现优于试验1。这个假设基于一种假定,相对于人工操作表现(Dixon,Wickens,2004)而言,普遍有效(此试验中83%的可靠性)的自动化有较好的表现。

假说2:正确的自动化即有效的MD警报能改善性能表现(假说2A)。试验1中同等难度试验条件下,相对于人工操作表现来说,错误的自动化即非有效的MD警报会阻碍性能表现。

假说3:不断增加的试验难度能够扩大可靠性的影响。更具体的是,试验1中,对于正确的自动化而言,相对于人工操作表现来说,自动化提供更具优越性的性能表现尤其是在困难的试验中(假设3A)。试验1中,对于错误的自动化而言,相对于人工操作而言,困难的试验比容易的试验,自动化将导致更多的性能成本。

图2.4描述了假设3,这种假设与所发现的自动化在困难的试验中更具优越性相一致(Dixon,Wickens,2003,2004;Galster et al.,2001;Maltz,Shinar,2003;Yeh et al.,2003)。但是,人工形式的困难任务中,自动化失败的成本也是非常大的。两个发现联接着一个事实,任务难度的增加将导致对自动化更加依赖,如果是正确的自动化将有正面积极的结果,如果是错误的自动化将是负面消极的结果(Maltz,Shinar,2003)。

如图2.4所描述,我们可以下结论,在正确的自动化有益和错误的自动化无益之间,自动化依赖程度是不同的(Maltz,Shinar,2003)。容易和困难的任务条件或问题下,自动化依赖程度也是不同的。我们也可以看到在不同的试验飞行器之间,依赖性也是不同的,为我们的分析提供了重要的一方面。

img59

图2.4 假说3的描述

假说4:相对于中等的自动化错误来说,严重的自动化错误导致更多的性能成本。

假说5:相对于自动化告警错误来说,自动化告警失效导致更多的性能成本。

假说6:相对于很少依靠自动化的驾驶员来说,上述假设(1~5)的影响对较多依靠自动化的驾驶员来说,意义更大。我们将在下面来讨论此问题。

2.8 自动化依赖性

我们注意到假设1~5基于这样一种假定,参加者利用和依靠自动化,尽管依赖自动化的程度是不同的,因此,假设6。关于假说6,一个依赖自动化好的方法是,错误自动化条件下和正确自动化条件下不同的表现(见图2.5Maltz,Shinar,2003)。关于自动化高依赖性的更大的问题将被陈述。试验飞行器1和2相比试验飞行器3、4、5有较高的自动化依赖性,在自动化错误试验和自动化正确试验时的表现是不同的,试验飞行器1和2的表现要明显优于试验飞行器3、4、5。关于两个高依赖自动化的试验飞行器,相对于人工操作表现来说,当正确自动化相同的时候,试验飞行器错误自动化的成本要高于试验飞行器2的成本。试验飞行器1的表现(如果盲目地顺从自动化,带来的只有正确自动化的高收益和错误自动化的高成本)和信号检测理论术语(例,更像是报告“信号”)中,变换相似。然而在单一检测理论中(Yeh,Wickens,2001),试验飞行器2的表现(通过对原始数据更多的处理只能带来较小成本的好处)和灵敏度的增加相似。试验飞行器1和试验飞行器2代表了自动化依赖性模式和自动化最优化模式,各自被Maltz和Shinar(2003)所描述。

img60

图2.5 图解所述:不完全可靠自动化依赖的不同程度

3个低自动化依赖试验飞行器也有差异。试验飞行器3中,正确的自动化收益较少,错误的自动化成本也较少。试验飞行器4完全忽略是否自动化(从而无收益无成本)。Maltz和Shinar(2003)为代表对此表示怀疑。试验飞行器5来说,自动化错误可能较为明显,吸引驾驶员更密切地通过观察原始数据细察几何冲突的证据,从而比正确的自动化产生更好的表现。

这里指出,只有MD的预测是自动地出现在此试验中,我们所使用的自动化依赖性测量(automation dependence measure)基于错误的MD告警试验和正确的MD告警试验间绝对MD估计误差的不同。在接下来的分析中,这种不同为每一个驾驶员单独计算,根据这种自动化依赖性测量的重要性,使用中间分割法,把24个驾驶员分成两个依赖组(高和低)。在某种程度上差异绝对大时,自动化的依赖性很重,而值在绝对小或负面地大时,自动化的依赖性就很轻。对那些并不严重依赖MD警报的驾驶员来说,他们在错误自动化试验中的估计差错从重要性程度上来说比正确自动化试验中要小很多,因此否定两种试验类型估计错误差异的重要性。

3 结论

结果分为两个部分显现,一部分是驾驶员高度依赖自动化MD告警,将来涉及高度依赖自动化组。另一部分是驾驶员不是特别依赖自动化,将来涉及轻度依赖自动化组。正如文中图2.4和图2.5所描述的,自动化依赖测量的大小是根据正确的自动化试验和错误的自动化试验间绝对MD估计误差的差异而定(Maltz,Shinar,2003)。

为了每个驾驶员差异被分别计算,从而服从两种不同的自动化依赖程度(高和低),24个驾驶员根据不同的依赖程度通过使用“中位数分割(median-split)法”分成两组,每组12个人。图3.1为两组驾驶员的一些数据,关于错误自动化和正确自动化间绝对MD估计误差的不同。有着消极和积极观念的驾驶员分别归属于轻度自动化依赖组和高度自动化依赖组。注意到轻度依赖组自动化的驾驶员更可能遇到short DCPA试验(1.3miles),高度依赖自动化组的驾驶员更可能遇到medium(2.7miles)和long(4.0miles)DCPA试验,试验比short DCPA试验组更加困难。数据分析工作为不同依赖程度的试验组而独立进行,极大的重点放在了高度依赖组上。

img61

图3.1 两组驾驶员相关数据

对轻度和高度依赖自动化的驾驶员来说,正确自动化试验和错误自动化试验间绝对MD估计误差的不同(|绝对MD-真实MD|)。图示数字下方的字母“L”“M”“S”分别代表long,medium和short DCPA groups,注意在轻度依赖自动化组中较为容易的,short DCPA的普遍性

在图3.1中冲突意识的衡量方法中,(绝对TCPA,MD和OCPA估计误差)最为重要的是绝对MD估计误差,因为MD最好地反映了真实冲突风险,从而它的估计误差最好地代表了驾驶员对冲突风险的真实理解。更多的是,对于这个试验来说,当驾驶员依赖自动化所提供的是3级MD预测时,自动化影响冲突意识的程度有多大呢?因此,本章最大的重点在于对12个高度依赖自动化的驾驶员来说,多变的自动化对绝对MD估计误差的影响,如图3.1的右侧所示。

下面大多的测试是基于试验2(自动化)和试验1(无自动化)数据的对比,使用单边t检验(one-tailed t-tests)去检测自动化预测收益和成本。除非另有说明,下述所有的分析只比较了试验1中高依赖自动化组的12个对象和与其相匹配组的对象。通过使用转为Windows设计的SPSS 11.5版,全部进行统计分析,所有误差线以下的数据代表了95%的置信区间。

3.1 高自动化依赖组分析

3.1.1 自动化的总体影响

假说一所预测试验2(MD告警)中的总体冲突意识将明显好于试验1(无MD告警)。图3.2所示为试验2中绝对MD估计误差的一些数据和试验1中相对应的人工试验的一些数据。试验2中的绝对MD估计误差比试验1中的绝对MD估计误差小了0.13mile,t(22)=-1.83,p=0.04,说明了这里使用的自动化告警,尽管不完善,依然更有益于估计MD误差。

img62

图3.2 试验2中高依赖自动化组绝对MD估计误差和试验1中相对应人工试验的绝对MD估计误差

试验1和试验2中,绝对TCPA和OCPA估计误差没有明显的不同,绝对TCPA估计误差中t(22)=0.63,p=0.27,绝对OCPA估计误差中t(22)=-0.61,p=0.27。

因此,假说1被普遍证实为冲突风险估计中最重要的衡量标准。在自动化的帮助下,绝对MD估计误差在减少。

3.1.2 自动化有效性的影响(正确VS错误)

假说2A预测正确的自动化能够改善表现,假说2B预测试验1中相对于基线飞行员肉眼的表现来说,错误的自动化会阻碍表现。图3.3显示了绝对MD估计误差的一些数据,图示分别是为了试验2中高依赖自动化组错误和正确的自动化试验,试验1中相对应的人工试验。从图表中所得到的最直接的证据是无论是正确的自动化条件还是错误的自动化条件下都似乎有一定形式的好处(试验2中MD差错比试验1中小),令人吃惊的是,即使自动化是错误的时候,仍没有成本。理想化的是,这个假说通过2(人工VS自动化)×2(正确自动化VS错误自动化)的方差分析来检验。然而,这很困难,因为在试验1中有效自动化最重要的变量并没有被定义。因此,我们进行了有计划的对比,试验2中绝对MD估计误差的一些数据与试验1中使用单边检验(one-tailed t-tests)得到的数据进行了比较。当自动化是错误的时候,两个试验中的绝对MD估计误差没有什么明显的不同,t(22)=0.72,p=0.24。然而,当自动化是正确的时候,试验2中的绝对MD估计误差低于(0.15mile)试验1中的绝对MD估计误差,t(22)=2.01,p=0.025,表明了在正确自动化的帮助下,性能改善了。

img63

图3.3 绝对MD估计误差的一些数据

试验2中高自动化依赖组,正确和错误自动化试验中绝对MD估计误差(|估计MD-真实MD|),和相对应的试验1中人工操作试验MD估计误差。

试验条件下,对正确的自动化试验来说,绝对TCPA估计误差没有较为明显的影响,t(22)=-0.97,p=0.17,对错误的自动化试验来说,试验2中绝对TCPA估计误差比试验1中略小(差异是2.28s),t(22)=1.48,p=0.08。然而,因为错误自动化对TCPA估计误差的影响与所做出预测的方向相反,进行双边t检验(two-tailed t-tests),随后发现影响并不十分明显,t(22)=1.48,p=0.15。试验条件下,对正确的自动化试验t(22)=0.40,p=0.34或者错误的自动化试验t(22)=0.61,p=0.27来说,绝对OCPA估计误差没有较为明显的影响。

因此,假说2A证实了,对正确的自动化试验来说,MD估计误差是最重要的变量,而不是我们所认为的TCPA和OCPA。假说2B并没有从数据中得到错误的自动化不会影响各方面的表现的有力支持。基于上面所做的分析,当不完善自动化正确时,有收益,当不完善自动化错误时,无成本成本。

相对于试验1来说,试验2中MD的估计误差减少了。我们会问:“误差是怎么减少的?”仅仅是因为围绕着真实MD值的估计值比较单一?或者是因为自动化使有正负之分的估计值更接近于真实值?试验1中减少偏见从而更好地去理解MD是较为明显的。从绝对MD估计误差的数据来看你并不能够区别这些,所以对试验2高自动化依赖组和试验1相对应的人工操作组中有正负之分的MD估计误差的数据进行了评估。数据在图3.4中所显示。

在正确的MD告警的帮助下,相对于试验1来说,驾驶员通过减少低估MD值,从而极大提高了MD值估计的准确性,t(22)=1.46,p=0.08,结果有着不重要的意义。然而,对于错误的自动化来说,有正负之分的MD估计差错与试验1中的MD估计差错,没有明显的变化,t(22)=0.56,p=0.29。

3.1.3 通过任务困难程度大小调节自动化有效性的影响:误差距离

根据假说3(见图3.4)作为“问题困难程度越大,依赖自动化程度越大”这么一个预测的结果,做出下面预测:对于正确的自动化而言,自动化在困难的试验中比容易的试验中(假说3A)能够提供更好的性能表现改善(相对于试验1中的人工操作);对于错误的自动化而言,自动化在困难的试验中比容易的试验中能够诱发更多试验的性能表现成本(假说3B)。为假说2所做的测试中,这个假说可以通过2(自动化VS人工)×2(正确自动化VS错误自动化)×2(容易VS困难)的方差分析来验证。然而,这又造成了困难,因为试验1中并没有定义自动化有效性的变量。因此,我们的分析程序计算了试验2中每一个试验飞行器的分数和相对应的试验1中人工操作试验飞行器的分数二者之间分数的差异,两个试验中相匹配的试验中驾驶员也是相对应的,他们有着相似的飞行经验。因此,相对于人工操作而言,每一个原始分数可以被认为有收益的或者有成本的。

img64

图3.4 试验1中较高自动化依赖组错误和正确的自动化试验中有正负之分的MD估计误差,和相对应的试验1中的人工试验MD值的比较

MD估计测量值的分析,E2-E1不同的分数值。有关绝对MD估计误差“收益-成本”的数据在图3.5中以自动化正确性的功能和任务困难度的形式被绘制。图3.5中,试验2中的高依赖自动化组和试验1中相对应的人工操作组两组之间绝对MD估计误差(|绝对MD-真实MD|)的不同,通过评价自动化有效性和任务的困难度。负值指出了试验2相比试验1MD估计误差的减少值4个数据点的统计评估分析被实施,使用单边(one-tailed)检验进行两个计划对比。用t检验对图中左边两个数据点的比较,揭示了任务困难的程度(容易试验或困难试验),对错误的自动化试验没有明显的影响,t(11)=0.53,p=0.30。然而,用t检验对图中右边(正确自动化试验的不同)两个数据点的比较,揭示了两个试验中绝对MD估计误差的差异在困难的试验中比在容易的试验中较为明显,t(11)=2.31,p=0.021。

发现了自动化的益处,尤其是对困难的冲突来说,当自动化通过各自对比证实是正确的时候,用来评估4中情形中的任一种是否有收益出现。与试验1中相比,两种错误的自动化条件下并没有重大的益处。对简单的试验是如此,t(11)=-0.57,p=0.29,对困难的试验也是如此,t(11)=-0.94,p=0.18。然而,对简单试验来说,有一个微小意义的正确的自动化益处t(11)=-1.38,p=0.098,对困难试验来说,有一个重大意义的正确的自动化益处t(11)=-2.7,p=0.011。

img65

图3.5 MD估计测量值的分析

结合起来,可以得到结论当自动化是错误的时候,与试验1相比MD估计性能表现并没有很明显的变化,并不受任务困难程度的影响。然而,当自动化是正确的时候,无论是困难的试验还是错误的试验中,MD估计准确度提高了,但是这种提高的程度在困难的试验中要极大地高于容易的试验,因此支持假说3A。另一方面来说,假说3B并不被支持,因为当自动化错误的时候,驾驶员在困难试验条件下并不会比在容易试验条件下受更多痛苦,再一次验证了假说2的发现;也就是说,就MD估计方面而言,不完善自动化正确时有收益,不完善自动化错误时无成本。

MD估计测量值的分析:试验1和试验2中绝对误差。假说3A暗示了当自动化正确时,容易试验和困难试验中的表现并没有什么不同,或者仍然是在容易试验中的表现好于困难试验,但是相对于试验1中的差异来说,试验2中的差异较少。还有另外一种可能是在困难试验中的表现要好于容易试验中,如图2.4所示。基于试验1和试验2中(图3.5)有关绝对MD估计误差的一些数据,这些可能性并不能够被证实。所以我们在绝对性能水平下进行分析(而不是它们的差异)。

通过试验2中自动化的有效性和任务的困难性,图3.6展现了有关绝对MD估计误差的一些数据,和试验1中相对应的一些试验。有一个为错误的自动化试验而进行的混合的2(人工VS自动化)×2(容易VS困难)的方差分析和试验1(见图3.6的左侧)中相对应的试验都揭示了2个试验中的表现并没有什么不同,F(1,22)=0.56,p=0.46,在两个试验中,困难试验中的表现不及容易试验中的表现,通过任务难度的重大影响所指出,F(1,22)=17.40,p<0.000 1。更多的是,同样的方差分析揭示了,当自动化不存在的时候,相比于试验1,试验二中困难试验和容易试验2者的性能差异并没有减少,因为试验条件和任务难度二者的相互影响并不是很明显,F(1,22)=0.31,p=0.59。

经过对比,一个2(人工VS自动化)×2(错误VS正确)的混合方差分析为比较和分析试验2中正确的自动化试验和试验1(出现在图3.6的右侧)中相对应的人工试验而进行,并揭示了试验2中的性能表现要好于试验1,F(1,22)=4.19,p=0.053,困难试验中的性能表现要差于容易试验中的性能表现,由任务难度的极大影响来指示F(1,22)=36.73,p<0.000 1。更为重要的是,相比于试验1中容易试验和困难试验二者间的性能表现差异,试验2中容易试验和困难试验二者间的性能表现差异较少,因为试验条件和任务难度二者的相互影响非常明显,F(1,22)=6.89,p=0.015。自动化正确时,容易试验和困难试验二者的对比揭示了性能表现差异仍然是非常明显的,t(11)=-3.44,p=0.005,指出了正确的自动化试验并不能完全地消除任务困难度的影响。

img66

图3.6 有关绝对MD估计误差的一些数据

最后,一个基于试验2数据的2(人工VS自动化)×2(错误VS正确)主题范围内的方差分析揭示了相比于错误的自动化试验,正确的自动化试验的绝对MD估计误差较小,F(1,11)=6.65,p=0.026。更多的是,当自动化的有效性并不是很明显地影响自动化错误的容易试验时t(11)=1.07,p=0.15|one-tailed test(单边检验)|,对困难试验的影响也不是很明显,从而自动化正确时的错误要小于自动化错误时的错误t(11)=1.07,p=0.15|one-tailed test(单边检验)|,因此使高依赖自动化组的12个受测试者真正(统计学上较可靠)地依靠自动化。

图3.1的检查证明了12个受测试者中有几个表现出较少的自动化依赖性,在这里说明。因此对12个受测试者的数据分析可能会混淆自动化依赖性的影响。检查这种可能性,同样地对7个极大依赖自动化的驾驶员(这7个驾驶员代表了图3.1最右侧)进行了分析。通过评价自动化的有效性和任务的困难程度,图3.7展现了有关试验2中7个极度依赖自动化的驾驶员和试验1中相匹配驾驶员的绝对MD估计误差的数据。也就是说,和代表图3.6中的数据是一样的,只不过是更为严格的驾驶员。

正如下面所述,在最依赖自动化的驾驶员身上使用了相同的结果统计模式和严格的分析。为正确的自动化试验和试验1中相对应的试验所做的一个2(人工VS自动化)×2(错误VS正确)的混合方差分析(图3.7的左侧出现)揭示了两个试验中的性能表现没有不同,F(1,12)=0.73,p=0.41,在两个试验中,困难试验的性能表现要差于容易试验的性能表现,由任务难度的极大影响来指示,F(1,12)=12.35,p=0.004,更多的是,同样的方差分析揭示了,相比于试验1来说,试验2中容易试验和困难试验二者间的差异并没有减少,当自动化不存在的时候,因为任务难度和试验条件二者之间的相互影响并不是十分的明显,F(1,12)=0.06,p=0.89。

img67

图3.7 试验2中7个极大依赖自动化的驾驶员所得到的绝对MD估计误差和试验1中相对应的人工操作试验数据

做如下对比,一个为试验2中正确的自动化试验和试验1(出现在图3.7的右侧)中相对应的人工操作试验而做的2(人工VS自动化)×2(错误VS正确)的混合方差分析揭示了试验2中的性能表现要优于试验1,F(1,12)=0.06,p=0.89,困难试验中的性能表现要差于容易试验中的性能表现,由任务难度的极大影响来指示,F(1,12)=65.04,p<0.000 1。更为重要的是,试验2中困难试验和容易试验二者间的性能表现差异比试验1中再一次减小,因为任务难度和试验条件二者之间的相互影响十分明显,F(1,12)=23.42,p<0.000 1(比12个受试者之间的相互影响更显著,尽管样本量很小)。正确自动化情况下容易试验和困难试验二者的对比揭示了这种差异仍然很明显,F(1,12)=23.42,p<0.000 1,然而,7个极高度依赖自动化的驾驶员和12个相对较高度依赖自动化的驾驶员有着相同的结果。一个2(人工VS自动化)×2(错误VS正确)的主题范围内的方差分析为7个极大依赖自动化的驾驶员而进行。方差分析再一次揭示了正确自动化试验相比于错误自动化试验,绝对MD估计差错要明显小很多,F(1,6)=6.89,p=0.039。更多的是,当自动化的有效性并不是很明显的影响“错误的容易试验时”,t(6)=1.18,p=0.19(单边检验one-tailed test),对困难试验也是如此,所以自动化正确时比自动化错误时差错要小很多t(6)=1.95,p=0.05(单边检验one-tailed test)。

因此,我们可以得出结论在正确的自动化警报的帮助下,在试验1中尽管困难试验的性能表现不如容易试验,相对于试验1(对7个极大依赖自动化的驾驶员来说也差不多)来说,这两种不同难度等级的试验间的差异极大地减小了。“7个极大依赖自动化”驾驶员之间的相互作用被明显放大了,尽管较小的样本提供了一些强有力的证据表明高依赖自动化的情况下困难程度的影响更明显。更多的是,当任务较困难的时候,相比于错误的自动化,正确的自动化有一个益处。但是在任务较简单的时候,相比于错误的自动化,正确的自动化没有这样的益处。无论是对于高依赖自动化的一组还是组中7个极大依赖自动化的驾驶员来说,这个结论都是正确的。

3.1.4 时间估计测量值的分析:E2-E1不同的分数值

图3.8展现了一些数据表明了两个试验间绝对时间估计误差(TCPA)的差异作为评价自动化的有效性和任务困难度。数据揭示了当自动化是错误的时候,两个试验中任务的困难程度对绝对TCPA估计误差的影响并没有什么明显的不同,t(11)=-0.65,p=0.26。然而,当自动化是正确的时候,两个试验中任务的困难程度对绝对TCPA估计误差有着明显不同,t(11)=-2.68,p=0.011,证明了在困难试验时自动化有成本,容易试验时自动化无成本。

img68

图3.8 评价自动化的有效性和任务的困难程度

各自的对比被进行,从而去评估4种情况的任一种是否有收益和成本。对于错误的自动化试验来说,基于单边(one-tailed test),t(11)=-2.53,p=0.014和双边检验(twotailed test),t(11)=-2.53,p=0.028,试验1容易的试验中绝对TCPA估计差错较小,但是对困难的试验并不成立。对于正确的自动化试验来说,两个试验中容易的试验间绝对TCPA估计差错并没有什么明显的不同t(11)=-0.45,p=0.33。使用单边检验(onetailed test)的时候,对于困难的试验来说,试验2中自动化的差错比试验1中人工操作差错要稍大,t(11)=1.51,p=0.08,但是使用双边检验(two-tailed test)时,这种差异并不是很明显,t(11)=1.51,p=0.16。

因此,关于绝对TCPA估计差错的发现与假说3中关于错误的告警不会破坏绝对TCPA的估计和任务困难度也不会影响它这一理论是相互矛盾的,但是在困难的试验中正确的MD告警确实倾向于诱发成本,而不像是在容易的试验中。因此有一个明显的证据表明了正确的自动化有益于误差距离的估计表现尤其是在困难的试验中(图3.6和图3.7),在时间估计误表现时也会有这些益处,尤其是在困难的试验中。

时间估计测量值的分析:试验1和试验2中绝对误差。我们并不能从图3.8中得到困难试验的时间估计误差比容易试验的时间估计误差大还是小,或者在每一个条件下两个难度级别上(容易和困难)它们的时间估计误差是否相等。与图3.6中有关MD估计差错的分析相类似,通过分析试验2和试验1(见图3.9)相对应的人工操作试验各自的任务难度(容易和困难),正确和错误的自动化试验中有关绝对TCPA的估计差错被收集和分析。一个2×2的混合方差分析的结果揭示了当自动化是错误的时候,试验2中的性能表现与试验1并没有什么明显的不同,F(1,22)=2.35,p=0.14,两个试验中,困难试验的性能表现一如既往地不如容易试验的性能表现,F(1,22)=28.86,p<0.000 1。两个因素中缺少明显的相互影响表明了贯穿两个试验间,容易试验和困难试验二者间的差异并没有什么明显的不同,F(1,22)=0.40,p=0.53。

img69

图3.9 通过评价自动化有效性和任务难度试验2中高依赖自动化组绝对TCPA估计误差和试验1中相对应的人工操作试验

然而,当自动化是正确的时候,相比于试验1,试验2中较高的绝对TCPA估计误差指出,任务难度的增加致使更多的性能成本。从2(人工VS自动化)×2(容易VS困难)的混合方差分析结果中得到证实,从而也揭示了试验2中困难试验仍然比容易试验更加艰难,F(1,22)=0.40,p=0.53,任务难度和试验条件二者较明显地相互影响表明了试验2中困难试验(自动化)比试验1中相对应的困难试验(无自动化)导致更大的TCPA估计误差(相比于试验1,试验2中困难试验和容易试验二者差别较大),F(1,22)=6.37,p=0.019。

因此,我们可以知道在正确的告警下,试验1中困难试验的TCPA的估计表现不仅不如容易试验,而且相比于试验1,试验2中两个难度等级(容易和困难)的差异增加了。

与对有正负之分的MD估计差错的分析相类似,因为有正负之分的TCPA估计差错(冲突估计太早或太晚)的重要性,在两个试验中对每一种情况我们也看看这些有正负之分的差错。数据图3.10,表明了在两个试验中一种低估TCPA的趋势。一个2(人工VS自动化)×2(错误VS正确)混合方差分析为错误的自动化试验和试验1中相对应的人工操作试验而进行,揭示了相比于试验1(图左侧)来说,试验2中对TCPA的低估更多F(1,22)=10.26,p=0.004。很有趣地注意到对于错误的自动化来说,当两个试验中绝对TCPA没有什么不同的时候(图3.9左侧),试验2中,对容易试验来说,TCPA更是被低估了。混合方差分析也揭示了在两个试验中,困难试验比容易试验TCPA低估较多,F(1,22)=8.85,p=0.007。两个因素并没有明显的相互效应F(1,22)=0.56,p=0.46。

img70

图3.10 评价自动化有效性和任务难度:试验2中高依赖自动化组有绝对之分的TCPA估计误差和试验1中相对应的人工操作试验(负值表示对TCPA的低估,对风险的高估)

一个2(人工VS自动化)×2(错误VS正确)的混合的方差分析同样为评价试验2中正确的自动化试验和试验1(图右侧)中相对应的人工试验而进行,结果和错误的试验有着相同的结果模式。也就是说,相比于试验1,试验2中的TCPA更多地被低估了,F(1,22)=6.9,p=0.015,两个试验中困难试验相比容易试验TCPA也更多地被低估了,F(1,22)=132.12,p<0.000 1。两个因素中没有相互影响,F(1,22)=0.002,p=0.96。一个问题是为什么自动化的出现和空中交通冲突难度的增加会导致驾驶员估计的冲突早于它们将会发生的时间?这个问题将会在结论中有所描述。

3.1.5 OCPA估计测量值的分析

任务难度并不十分明显影响试验1和试验2两个试验间绝对OCPA估计误差的差异,错误的自动化试验中t(11)=-0.95,p=0.18,正确的自动化试验中t(11)=0.96,p=0.18。

3.1.6 结论

假说3A部分支持当自动化正确的时候,困难试验比容易试验中,MD估计准确性(相对于试验1来说)有着明显的提高,反过来,困难试验时TCPA估计准确性(相对于试验1来说)减小。假说3B并不支持这个观点,错误的自动化时,任务难度对两个试验任何方面的性能表现差异没有什么不利的影响。

3.1.7 自动化错误大小的影响

3级告警系统被应用在此试验中,假说4A说明严重的自动化错误比中等的自动化错误导致更多的性能成本。自动化错误的大小对两个试验中绝对MD估计差错的差异没有什么明显的影响,t(11)=-0.08,p=0.47。绝对TCPA估计差错的差异也没有什么明显的影响,t(11)=0.35,p=0.37,同样两个试验间绝对OCPA估计差错的差异也没有明显的影响,t(11)=0.32,p=0.38。因此,结论并不支持假说4。

3.1.8 自动化错误类型的影响

假说5说明了自动化错误告警比自动化失效导致更多的成本。自动化错误类型对两个试验间绝对MD估计错误的差异并没有明显的影响,t(11)=-0.61,p=0.28,自动化错误类型对绝对TCPA估计错误的差异也没有明显的影响,t(11)=-0.67,p=0.26,同样两个试验间绝对OCPA估计差错的差异也没有明显的影响。因此,结果并不支持假说5。

解释有关假说4和假说5影响的无效性,应该注意到这些统计测试功率大大低于假说1~3的测试,因为每种自动化错误类型(失效,错误警报,中等和严重)不同类别的稀有性。我们对接受这些无效性的假说没有信心。

3.1.9 自变量对因变量的影响摘要

关于高依赖自动化组所有自变量对5个因变量的影响如表3.1所示。

表3.1 高依赖自动化组中独立变量对因变量的影响总结

img71

续表

img72

3.2 轻度依赖自动化组的分析

表3.2表明了轻度依赖自动化组假说检验的结果。根据假说6,高依赖自动化比轻度依赖自动化组假说1~5的影响更加明显,轻度依赖自动化组的影响并不明显。表3.2证明假说1~5并不支持轻度依赖自动化组,从而证实了假说6。

表3.2 轻度依赖自动化组假说检验的结果

img73

续表

img74

表3.2揭示了一系列结果表明了轻度依赖组并不使用自动化,因此不受自动化特性所影响。对这种“失败去使用自动化”有两种可能的解释,一种解释是驾驶员选择不使用自动化是因为这些被定义为“困难冲突”的试验对此组驾驶员来说并不是真正的困难,他们可以在没有自动化的情况下像在容易试验上一样精确地去执行操作。另一种解释关于此组不使用自动化是因为另外一些原因(可能是因为它不完善和不被信任或者使用它要付出努力)/尽管他们本可以从自动化的建议中受益。为了区分这两个解释,我们检查了试验2中轻度依赖自动化组和试验1中相匹配的驾驶员组中容易试验和困难试验间MD误差的差异。数据出现在图3.11中。

根据第一种解释(弃用自动化是因为它根本不被需要),对轻度依赖自动化组来说,试验2中困难问题的减少应该被忽略。一个2(人工VS自动化)×2(错误VS正确)的混合方差分析为试验2中错误自动化情形和试验1中相对应的人工操作试验而进行,揭示了两个试验间绝对MD估计差错并没有什么明显的不同,F(1,22)=0.057,p=0.59,困难试验比容易试验出现的错误更大,F(1,22)=10.97,p=0.003.它也揭示了任务难度(容易VS困难)和试验条件(人工VS自动化)两者间的相互影响并不十分明显,F(1,22)=0.096,p=0.76。

一个2(人工VS自动化)×2(错误VS正确)的混合方差分析为试验2中正确自动化情形和试验1中相对应的人工操作试验而进行,揭示了并不像轻度依赖自动化组分析的那样,两个试验间绝对MD估计差错并没有什么明显的不同,F(1,22)=0.051,p=0.82,困难试验比容易试验出现的错误更大,F(1,22)=16.36,p=0.001。它也揭示了任务难度(容易VS困难)和试验条件(人工VS自动化)二者间的相互影响并不十分明显,F(1,22)=0.047,p=0.83。

img75

图3.11 评价自动化有效性和任务难度

试验2中轻度依赖自动化组绝对MD估计误差和试验1中相对应的人工操作试验

正确的自动化条件和错误的自动化条件下,任务难度和试验条件二者的完全叠加表明容易试验和困难试验间的性能差异并没有减少或者降低。图3.11出现的数据并不支持“驾驶员弃用自动化是因为他们根本不需要它”这一结论。相反,数据支持第二种解释即“轻度依赖自动化组的驾驶员应该使用自动化从而提供更好的表现,弃用它可能是因为它众所周知的不可靠性或者很难被使用或者他们感到任务太简单所以不需要使用自动化。”

我们也可以通过分析有正负之分的MD估计差错的一些数据,但是效果和相互影响并不是很明显。

通过对MD估计差错的分析,也对试验2中正确或者错误的自动化试验和试验1中相对应的人工试验两个试验间绝对TCPA估计差错相关数据进行了分析。一个2(人工VS自动化)×2(错误VS正确)的混合方差分析为试验2中正确或者错误的自动化情形和试验一中相对应的情形而进行。它也揭示了在所有的情况下困难试验导致较差的性能表现,在错误的自动化情形和相对应的人工情形下F(1,22)=17.66,p<0.000 1,在正确的自动化情形和相对应的人工情形下F(1,22)=64.91,p<0.000 1。没有其他明显的相互影响和效果。

然而,试验条件对绝对TCPA估计差错没有什么明显的影响,以及试验条件和任务难度的相互作用对绝对TCPA估计差错也没有什么明显的影响都表明了轻度依赖自动化一组的驾驶员像高度依赖自动化一组的驾驶员所做的那样不使用MD告警。对于后者,自动化正确时困难的试验比试验1中困难的试验导致更多的TCPA估计差错,相比于试验1,试验2中困难试验和容易试验间的表现差距增加了,大概归咎于正确MD告警信息的使用。(见图3.9)

做个总结,轻度依赖自动化组的驾驶员不使用自动化MD告警或者至少不像高依赖自动化的驾驶员(图3.6)那样广泛使用它(图3.11)。出现在图3.12中的数据证实了这个发现,因为TCPA的估计准确度没有成本,是高依赖自动化组的一个例子。也发现了此组中的驾驶员不使用自动化是因为他们不需要它,而并非是因为他们选择不使用它。

img76

图3.12 评价自动化有效性和任务难度

试验2中轻度依赖自动化组绝对TCPA估计误差和试验1中相对应的人工操作试验

4 讨  论

本试验的总体目标是要表明,不完善的自动化(告警系统)在空中交通冲突检测中能够帮助不借助设备的驾驶员使用CDTI(驾驶舱交通信息显示)时的表现,并演示了在此种帮助下任务难度(容易和困难)对驾驶员表现的调节作用。有充分的数据表明完善的自动化能够帮助驾驶员的表现(e.g.,Metzger,Parasuraman,2001;Dixon,Wickens,2003;Yeh,Wickens,2001),在任务困难的时候更是如此(e.g.,Dixon,Wickens,2003,2004;Galster et al.,2001;Maltz,Shinar,2003;Yeh et al.,2003)。也有一些数据表明不完善的自动化能够帮助驾驶员的表现(e.g.,Dixon,Wickens,2003,2004;Rovira et al.,2002;Rovira,Parasuraman,2002),后者此类的数据是比较稀少的,只有Dixon,Wickens(2003,2004)和Maltz,Shinar(2003)3个人已经说明了任务难度在调节不完善自动化收益方面的作用。最重要的是,两个研究都没有使用到空中交通检测的范例。

从Xu,Wickens和Rantanen(2004)得到的数据被用来制造一个广泛系列难度的冲突检测问题,从低难度到高难度的数据被收集,用在当前的试验中,总体来说更困难的问题包括更慢的速度,至CPA更长的时间和更长的距离,以及倾斜冲突角度(见附录A)。

结果也支持一些我们所做的(但不是全部的)假说。首先,我们本没有预料到在参与者之间有着广泛范围的自动化依赖。给出了这样一个范围,这是很有道理的,把有关自动化特性的假说检验最主要的集中在谁最首要依赖自动化,因为那些不是首要依赖自动化的人期待正确的自动化显示无意义的结果(事实上他们是这样做的)。这些低依赖自动化的驾驶员更像是和试验1中short(1.3mile)DCPA组的驾驶员相配对的。因为较短的DCPA组在试验1中通常是较为容易的,试验2中低依赖自动化的驾驶员通常面对的是较简单(short DCPA)的冲突检测问题(见图3.1的最底排)。看起来好像低依赖自动化的驾驶员感到没有需要从自动化得到帮助,大概是因为他们的任务相对来说较为简单的缘故,虽然在特殊的情况下诸如在更困难的冲突检测问题中他们仍需要使用自动化去改善和提高自身表现。

相反,因为高依赖自动化组的受试者接受到的是更困难的试验(更多的是2.7和4.0DCPA组,见图3.1的底排),看起来依靠自动化来增强表现是适当和可取的策略。事实上,常常发现在最关键的与安全相关的时刻或者有关空中交通冲突检测风险测量的理解或者在最优进近点处对误差距离(MD)的估计等方面这些高依赖自动化的驾驶员从自动化上受益。统计表明在试验1中这些驾驶员的表现要好于与他们相匹配的驾驶员,在面对同等难度的问题但不借助设备的情况下的表现。因此,支持假说1。更多的是,这种益处在更困难的试验中更加明显,支持假说3,所以对于高依赖自动化组来说,表现很少受任务难度的影响(见图3.6和图3.7)。

对假说2详细的研究分析显示,当自动化是正确的时候会有收益出现,而当自动化是错误的时候没有收益出现(图3.3),这一点并不令人吃惊。然而,即使是对于错误的自动化试验来说结果也不让人吃惊,表现并不亚于在试验1中的表现,有些时候表现反而会更好一些。也就是说,不同于其他的发现,错误的自动化并不产生过度依赖的自满值(e.g.,Maltz,Shinar,2003;Metzger,Parasuraman,2001;Yeh,Wickens,2001)。一个不完全的解释是驾驶员受到不完善自动化特征的预先警告,正如第一次失败的影响并没有引起他们的注意,通常用来记录过度信任、过度依赖或者自满情绪的影响(e.g.,Yeh et al.,2003;Yeh,Wickens,2001)。

当自动化是正确的时候,高度依赖自动化的驾驶员是怎么样从不完善的自动化受益呢?而当自动化是错误的时候却没有成本支出?部分原因可能是因为驾驶员对自动化(预计CPA的大小)所给出的真实指示的反应(把游标定位在预计CPA)并不相同。在解释我们的结果时,我们假设当最高级别的告警出现时,为了更精确地估计CPA,在对原始数据的处理时驾驶员投入了高水平的察觉力和认知能力(一个非常仔细的检测)。这种投入的努力程度高于试验1中相对应的没有收到高级别告警的驾驶员。这种行为会导致准确度的提高即使这种告警是不正确的。

相反当告警是“沉默”的时候,驾驶员确保和试验1中相匹配的驾驶员同等的检测水平。有时候当本应该响起的告警保持沉默的时候(自动化失效),这种现象可能使他们受到惩罚,但是仍然不能够代替出现最危险级别的警报时仔细检查所带来的实际好处,在先前的段落中已经有所描述,包括后者是错误的告警的情况。

另外,对数据的分析可以断定相比于试验1,试验2的整体性能表现提高了,可能是由于自动化的有效性对驾驶员激励的增加(Beck,Dzinodolet,Pierce,Piatt,2003;Ben-Yaacer et al.,2002)。在整体性能提高的基础上,错误的自动化和正确的自动化二者间成本效益的差异仍然存在(至少在困难的问题时如此,见图3.5和图3.6),任何自动化错误的代价都可以通过积极性和表现提高的整体收益来弥补,特别是当告警响起的时候,正如上面所述,会引发对原始数据更密切的检测。

重要的是,数据表明自动化错误率是17%(可靠性是83%),很显然驾驶员从不完善的自动化中受益,一个数据添加到了结论中,当工作量较高和任务难度较大时不完善的自动化比无自动化时表现好70%-75%。

在当前的试验中,自动化失效和错误的自动化告警是平衡的。然而我们可以假定一个不平衡,由告警准则所引起的对自动化失效的惩罚多与对错误告警的惩罚(因此减少错误告警的概率)可能不会扰乱表现。一个告警响起的益处是能够引起对原始数据更仔细的检查。这个益处可以被假定为是存在的,无论告警是正确的或者错误的,只要后者的可能性比较低,使用者更频繁地校准这种告警错误。然而如果冲突检测成功的基本概率比在当前的试验中更低时,仍然不能确信将会发生什么事情,P(冲突/告警)中告警的概率非常低(Parasuraman et al.,1997),可能是在50%以下。我们相信(但是并不确信)一些问题可能已经发生了,可以通过情形3的可能性告警来减轻。

有关自动化的收益在高困难试验中出现是熟悉和期待中的(e.g.,Dixon,Wickens,2003,2004;Maltz,Shinar,2003)。这里需要指出的是高困难试验的主要特征是至CPA的距离长,必须制造一个延伸的空间。我们所设想(比预计时间提前2min-4min)的更多的使用CDTI推测当前试验的结果是非常典型的。在这种情况下,驾驶员不得不横跨更大的显示区域或者如果显示范围较小的时候,他们将不得不以较慢的速度象征性运动,预测也变得更加困难,驾驶员可能再次从不完善的自动化中受益(Xu et al.,2004)。

当前的结果揭示了3个重要的不符合预期的发现。首先,与假说4所做的预测相反,我们发现“严重错误”不比“中等错误”更糟糕。如上所述,我们相信自动化错误大小的潜在成本可以通过驾驶员的策略来减轻,告警的响起(告警的最高级别),导致了对原始数据更密切和仔细的查看(事实上可能是最高级别告警比中等级别告警导致更加密切的检测)。

第二个是我们在假说5中所做的关于错误告警比自动化失效更具有破坏性的预测,当前的结果并没有发现这些。去解释这个无意义的结果,我们重申正如上所述,高级别的告警支持更密切的检测而不是弥补偶尔的错误告警的成本支出,驾驶员在看得见的显示上感性地接触原始数据。我们也注意到一些研究总结错误告警比自动化告警失效产生更多的问题(Maltz,Shinar,2003;Dixon,Wickens,2004)。这两种类型有着不同的概率,通过制造“错误告警预防系统”和“失效告警预防系统”,可能是设计者设置了不同的告警阈值。然而正如上述所说,我们并没有对我们的试验设计这样的变化。更多的是,一些研究证明了在双重环境下自动化错误告警比自动化失效有更多的问题,注意到,强迫错误告警从当前所进行的任务中脱离,潜在的破坏和恼人的注意转变了,它在这里所描述的单一任务中不被要求。

第三个不在预期的发现是由自动化所得到的时间和距离估计的准确性的权重。也就是说,当自动化在冲突估计中最关键的任务是提高表现的准确性时——(在CPA的误差距离将会怎么样)——它确实扰乱了至CPA时间估计的准确性。一些可能的分析是关于为什么它的发生要通过图3.10中的“时间低估数据”来证明。这些数据反映了3个自变量。至CPA的时间被低估是因为:(1)空中交通冲突难度的增加;(2)自动化的存在;(3)自动化是正确的(和错误相对)。这些中的前两个都可以通过权衡资源来解释,更困难的问题,如要求去处理自动化告警和原始显示数据需要更多的资源。这些资源从时间估计/预计过程中转移,它本身就是资源有限(Zackey,Block,Tsal,1999)。被指出作为资源转移的结果时间会更不容易被评估,驾驶员采取了“保守的战略”去低估时间。也就是说,给自己比真正所拥有的,较少的可利用的时间。还不清楚的是第三种是怎么影响(自动化正确性)从而导致冲突时间的低估?

最后,结果清楚的描述了可以从提供的不完善的自动化和不可靠的CDTI提醒中受益,至少给出了相对较高的,大约80%的可靠性水平。无成本收益结果包括3个方面的因素:(1)原始数据被提供去检测;(2)飞行员校准近似的可靠性水平;(3)采用多级别的告警。

我们可以发现任务工作量的增加可以放大这些益处,正如自动化错误率的降低也将会有同样的效果。然而,这两个变化是可能的,放大正确自动化的收益可能会导致“自动化错误试验的成本”出现。

参考文献

Beck,H.P.,Dzindolet,M.T.,Pierce,L.G.,Piatt,N.(2003).Looking forward:A simulation of decision aids in tomorrow's classroom.Proceedings of the 47th Annual Meeting of the Human Factors Society(pp.330-334).Santa Monica,CA:Human Factors Society.

Ben-Yaacov,A.,Maltz,M.,Shinar,D.(2002).Effects of an in-vehicle collision avoidance warning system on short-and long-term driving performance.Human Factors,44(2),335-342.

Bliss,J.(2003).An investigation of alarm related accidents and incidents in aviation.International Journal of Aviation Psychology,13(3),249-268.

Breznitz,S.(1983).Cry-wolf:The psychology of false alarms.Hillsdale,NJ:Lawrence Erlbaum.

Cotté,N.,Meyer,J.,Coughlin,J.F.(2001).Older and younger driver's reliance on collision warning systems.Proceedings of the 45th Annual Meeting of the Human Factor Society(pp.277-280).Santa Monica,CA:Human Factors and Ergonomics Society.

Dixon,S.R.,Wickens,C.D.(2003).Imperfect automation in unmanned aerial vehicle flight control(Technical Report AHFD-03-17/MAAD-03-2).Savoy,IL:University of Illinois,Aviation Human Factors Division.

Dixon,S.R.,Wickens,C.D.(2004).Reliability in automated aids for unmanned aerial vehicle flight control:Evaluating a model of automation dependence in high workload(Technical Report AHFD-04-05/MAAD-04-1).Savoy,IL:University of Illinois,Aviation Human Factors Division.

Dzindolet,M.T.,Pierce,L.G.,Beck,H.P.,Dawe,L.A.(1999).Misuse and disuse of automated aids.Proceedings of the 43rd Annual Meeting of the Human Factors and Ergonomics Society(pp.339-343).Santa Monica,CA:Human Factors and Ergonomics Society.

Galster,S.M.,Bolia,R.S.,Roe,M.M.,Parasuraman,R.(2001).Effects of automated cueing on decision implementation in a visual search task.Proceedings of the 45th Annual Meeting of the Human Factor Society(pp.321-325).Santa Monica,CA:Human Factors and Ergonomics Society.

Gupta,N.,Bisantz,A.M.,Singh,T.(2001).Investigation of factors affecting driver performance using adverse condition warning systems.Proceedings of the 45th Annual Meeting of the Human Factor Society(pp.1699-1703).Santa Monica,CA:Human Factors and Ergonomics Society.

Ho,D.,Burns,C.M.(2003).Ecological interface design in aviation domain:Work domain analysis of automated conflict detection and avoidance.In Proceedings of the HFES 47th Annual Meeting of the Human Factor Society.Santa Monica,CA:Human Factors and Ergonomics Society.

Kantowitz,B.,Hanowski,R.,Kantowitz,S.(1997).Driver acceptance of unreliable traffic information in familiar and unfamiliar settings.Human Factors,39,164-176.

Kuchar,J.K.(2001).Managing uncertainty in decision-aiding and alerting system design.In Proceedings of the 6th CNS/ATM Conference,Taipei,Taiwan,March 27-29,2001.

Lehto,M.R.,Papastavrou,J.D.,Ranney,T.A.,Simmons,L.A.(2000).An experimental comparison of conservative versus optimal collision avoidance warning system thresholds.Safety Science,36-3,185-209.

Magill,S.A.N.(1997)Trajectory predictability and frequency of conflict avoiding action.Defence Evaluation and Research Agency(DERA),paper presented at CEAS Free Flight Conference,1997.

Maltz,M.,Meyer,J.(2003).Use of warnings in an attentionally demanding detection task.Human Factors,43(2),217-226.

Maltz,M.,Shinar,D.(2003).New alternative methods of analyzing human behavior in cued target acquisition.Human Factors,45(2),281-295.

Merwin,D.H.,Wickens,C.D.(1996).Evaluation of perspective and coplanar cockpit displays of traffic information to support hazard awareness in free flight(Technical Report ARL-96-5/NASA-96-1).Savoy:University of Illinois,Aviation Research Lab.

Metzger,U.,Parasuraman,R.(2001).Conflict detection aids for air traffic controllers in free flight:Effects of reliable and failure modes on performance and eye movements.Proceedings of the 11th International Symposium on Aviation Psychology,Columbus,OH:The Ohio State University.

Meyer,J.(2001).Effects of warning validity and proximity on responses to warnings.Human Factors,43(4),563-572.

Meyer,J.(2004).Conceptual issues in the study of dynamic hazard warnings.Human Factors.

Meyer,J.,Ballas,E.(1997).A two-detector signal detection analysis of learning to use alarms.Proceedings of the 41st Annual Meeting of the Human Factor Society(pp.186-189).Santa Monica,CA:Human Factors and Ergonomics Society.

Molloy,R.,Parasuraman,R.(1996).Monitoring an automated system for a single failure:Vigilance and task complexity effects.Human Factors,38(2),311-322.

Parasuraman,R.,Hancock,P.A.,Obofinbaba,O.(1997).Alarm effectiveness in driver centered collision warning systems.Ergonomics,40,390-399.

Parasuraman,R.,Masalonis,A.J.,Hancock,P.A.(2000).Fuzzy signal detection theory:Basic postulates and formulas for analyzing human and machine performance.Human Factors,42(4),636-659.

Parasuraman,R.,Riley,V.(1997).Humans and automation:Use,misuse,disuse,and abuse.Human Factors,39(2),230-253.

Parasuraman,R.,Sheridan,T.B.,Wickens,C.D.(2000).A model for types and levels of human interaction with automation.IEEE Transactions on Systems,Man,and Cybernetics—Part A:Systems and Humans,30(3),286-297.

Rantanen,E.M.,Wickens,C.D.,Xu,X.,Thomas,L.C.(2003).Developing and validating human factors certification criteria for cockpit displays of traffic information avionics.Paper presented at the FAA General Aviation,Aviation Maintenance,and Vertical Flight Human Factors Research Program Review Conference.University of Nevada,Reno.

Rantanen,E.M.,Wickens,C.D.,Xu,X.,Thomas,L.C.(2004).Developing and validating human factors certification criteria for cockpit displays of traffic information avionics(AFHD-04-1/FAA-04-1).Savoy,IL:University of Illinois,Aviation Human Factors Division.

Rovira,E.,Parasuraman,R.(2002).Sensor to shooter:Task development and empirical evaluation of the effects of automation unreliability.Paper presented at the Annual Midyear Symposium of the American Psychological Association,Division 10(Military Psychology)and 21(Engineering Psychology).Ft.Belvoir,VA.

Rovira,E.,Zinni,M.,Parasuraman,R.(2002).Information and decision uncertainty:Effects of unreliable automation on multi-task performance and workload.Paper presented at the Annual Midyear Symposium of the America Psychological Association,Division 10(Military Psychology)and 21(Engineering Psychology).Ft.Belvoir,VA.

Sorkin,R.D.,Kantowitz,B.H.,Kantowitz,S.C.(1988).Likelihood alarm displays.Human Factors,30,445-460.

Sorkin,R.D.,Woods,D.D.(1985).Systems with human monitors,a signal detection analysis.Human-Computer Interactions,1,49-75.

St.Johns,M.,Manes,D.I.(2002).Making unreliable automation useful.Proceedings of the 46th Annual Meeting of the Human Factors and Ergonomics Society.Santa Monica,CA Human Factors and Ergonomics Society.

Thomas,L.C.,Wickens,C.D.,Rantanen E.M.(2003).Imperfect automation in aviation traffic alerts:A review of conflict detection algorithms and their implications for human factors research.Proceedings of the 47th Annual Meeting of the Human Factors and Ergonomics Society.Human Factors and Ergonomics Society,Santa Monica,CA.

Wickens,C.D.(2000).Imperfect and unreliable automation and its implications for attention allocation,information access and situation awareness(Final Technical Report ARL-00-10/NASA-00-2).Savoy,IL:University of Illinois,Aviation Research Laboratory.

Wickens,C.D.(2003).Aviation displays.In P.Tsang,M.Vidulich(Eds.),Principles and practices of aviation psychology(pp.147-199).Mahwah,NJ:Lawrence Erlbaum Publishers.

Wickens,C.D.,Gempler,K.,Morphew,M.E.(2000).Workload and reliability of predictor displays in aircraft traffic avoidance.Transportation Human Factors,2(2),99-126.

Wickens,C.D.,Helleberg,J.,Xu,X.(2002).Pilot maneuver choice and workload in free flight.Human factors,44(2),171-188.

Wickens,C.D,Hollands,J.G.(2000).Engineering psychology and human performance(3rd ed.).Upper Saddle River,NJ:Prentice Hall.

Wickens,C.D.,Mavor,A.S.,Parasuraman,McGee,J.P.(Ed.)(1998).The future of air traffic control:Human operators and automation.Washington,D.C.:National Academy Press.

Wickens,C.D.,Rantanen,E.M.,Thomas,L.,Xu,X.(2004).Imperfect automation and CDTI alerting:Implications from literature and systems analysis for display design.Abstracts of the Aerospace Medical Association 75th Annual Scientific Meeting and Supplement to Aviation,Space and Environmental Medicine,75(4),Section II,B138.

Wickens,C.D.,Xu,X.(2002).Automation trust,reliability and attention HMI 02-03(Technical Report AHFD-02-14/MAAD-02-2).Savoy:University of Illinois,Aviation Human Factors Division.

Xu,X.,Wickens,C.D.,Rantanen,E.(2004).Effects of air traffic geometry on pilots'conflict detection with cockpit display of traffic information.Proceedings of the 48th Annual Meeting of the Human Factors and Ergonomics Society.Santa Monica,CA:Human Factors and Ergonomics Society.

Yeh,M.,Merlo J.L.,Wickens,C.D.,Brandenburg,D.L.(2003).Head up versus head down:The costs of imprecision,unreliability,and visual clutter on cue effectiveness for display signaling.Human Factors,45(3),390-407.

Yeh,M.,Wickens,C.D.(2001).Display signaling in augmented reality:The effects of cue reliability and image realism on attention allocation and trust calibration.Human Factors,43(3),355-365.

Young,M.S.,Stanton,N.A.(1997).Automotive automation:Effects,problems and implications for driver mental workload.In D.Harris(Ed.),Engineering psychology and cognitive ergonomics,Vol.1(pp.347-354).Brookfield,VT:Ashgate.

Zackey,D.,Block,R.,Tsal,Y.(1999).Prospective time judgments and workload.In D.Gopher,A.Koriat(Eds.),Attention and performance XVII.Cambridge,MA:MIT Press.

附录A 使用驾驶舱交通信息显示器(CDTI)空中交通几何对飞行员冲突探测的影响

伊利诺伊大学香槟分校

航空研究所,航空人为因素方向

Xidong Xu,Christopher D.Wickens,and Esa M.Rantanen

我们研究了冲突几何对飞行员冲突理解的影响,通过研究来掌握3个连续变量估计的准确性。这3个连续变量分别是:误差距离、到达最接近点的时间和到达最接近点的方位。研究结果表明:(1)较慢的速度,往后更长的时间,往后更长的距离,增加冲突理解的难度;(2)飞行员的判断往往具有保守的倾向,飞行员判断冲突比实际情况更危险并且更快发生;(3)人们有“距离比速度重要”的偏见,比如,两架飞机看起来距离很远但是相互趋近的速度很快,而另外两架飞机的距离很近但是相互趋近的速度很慢,给人们的感觉就是后者比前者危险,即便是这两架飞机发生冲突的时间是一样的。

引  言

在自由飞行中,驾驶舱交通信息显示器(CDTI)发挥着关键作用,它可以让飞行员探测和避免与其他飞机的潜在冲突,为方便以下将其他飞机简称“入侵者(或入侵飞机)”。已进行的大多数航空活动中空中冲突探测都是在空中交通管制(空管)情景下展开的(例如,Endsley,Mogford,Stein,1997;Galster,Duley,Masalonis,Parasuraman,2001,Metzger,Parasuraman,2001a,2002b;Remington,Johnston,Ruthruff,Gold,Romera,2000)。只有少数几项研究集中在由飞行员在空中利用驾驶舱交通信息显示器(CDTI)进行冲突探测(例如,Merwin,Wickens,1996)。也有一些研究只是强调利用驾驶舱交通信息显示器(CDTI)处理冲突(而不是检测冲突)(例如,Alexander,Wickens,Merwin,in press;Scallen,Smith,Hancock,1996;Wickens,Gempler,Morphew,2000;Wickens,Helleberg,Xu,2002)。在这些研究中,当避开冲突失败时,是完全没有探测到冲突、还是探测到冲突太迟、或者是准时检测到了冲突但是避开冲突的机动不成功,到底是哪一项并不是很清楚。此外,很多有关冲突检测的研究,都是采用两分的标准来看是否侵入圆柱形保护区,且这样的评估得到的仅仅是检测率和响应时间。已经有人说明,这样的二进制标准不是检测冲突风险的最佳方法(例如,Masalonis,Parasuraman,2003)。在一项任务分析中(Xu,2003),证明两架飞机,一架是飞行员自己的飞机使用驾驶舱交通信息显示器(CDTI),另一架是“入侵者”,其间真正的冲突风险最好的表达是用两机之间[在最接近点(CPA)处]的误差距离(MD),入侵飞机相对于自己飞机航向在最接近点处的方位(OCPA),以及入侵飞机到CPA的时间(见图1)。我们认为,这3个冲突特征量的估计精度在反映飞行员对冲突情形的真实理解和对未来操纵的影响方面,要比用简单的两分法好得多。

鉴于在自由飞行中驾驶舱交通信息显示器(CDTI)对冲突探测的重要性,以及在研究当中对驾驶舱交通信息显示器(CDTI)的忽视,本研究调查了飞行员在使用驾驶舱交通信息显示器(CDTI)时冲突几何对冲突意识的影响。因变量是上面所描述的冲突风险连续测度(TCPA、MD、OCPA)的估计误差。本试验的目标是为了确定那些使得无辅助冲突探测变得困难或容易的因素,并辨识能够影响到估计效果的偏向。

根据我们对有关文献的综合认识,认为时间是接触估计和冲突检测效果的影响因素(Xu,2003,Xu,Wickens,Rantanen,2004)。我们有如下假设:估计将会变得更加困难,而困难主要体现在增加误差上,增加的误差又是由于增加TCPA(要么通过增加入侵者达到CPA的距离,要么通过增加DCPA,要么是通过降低速度)和增加MD产生的。进一步预测,对于相同的实际TCPA,相对于较短DCPA和较慢速度的入侵者,飞行员会把距离(DCPA),速度较快的入侵者的这个时间估计得过长,这也正是大家普遍存在的一种偏见——距离比速度重要(Law et al.,1993)。

img77

图1 飞行在同一高度的两架飞机处于冲突的情景

图1中,处于冲突的两架飞机以恒定的速度沿直线汇聚的过程,在驾驶舱交通信息显示器(CDTI)上显示。主飞机似乎固定在一个以飞行员为中心的参考系中。

方  法

参与者

24名经过资格认证的飞行教官和普通飞行员(20男4女),平均年龄23.3岁(年龄范围18-49岁),他们由伊利诺伊大学香槟分校航空研究所招募,作为此次的研究对象。

显示和任务

驾驶舱交通信息显示器(CDTI)把主飞机(ownship)和入侵飞机(intruder)描绘在一幅俯视图上(图2)。该显示以白三角形代表主飞机,蓝绿色实心圆代表入侵飞机。在整个试验当中,主飞机的图标都被定位在显示器的中央位置,从而产生一种以自我为中心的变动情景视图,其中主飞机图标相对于参与者似乎是静止的。主飞机和入侵飞机飞行在同一高度,并且沿着直线不断靠近,都保持等速但是它们各自的速度并不一定相同。参与者用15s的时间独自观察冲突情况的发展,然后,此情景冻结。要求参与者推断出情景的进一步发展,当他们估计到达CPA时,按下一个键,由此显示出TCPA的估计精确度,并把光标移动到他们认为是CPA的位置,从而得出MD和OCPA的估计准确度。

img78

图2 试验范式和独立变量的重要组成部分

试验设计

独立变量:使用的独立变量有下述3个。(1)在冻结点(1.33nmile,2.67nmile和4.0 n mile)入侵者至CPA的距离(DCPA)。(2)入侵飞机相对于主飞机的相对速度(RS)。这个速度定义为,入侵飞机在以主飞机为中心的参照系中的移动速度,从而决定这两架飞机将怎样迅速汇聚(160节,240节和480节)。(3)误差距离(MD)(0.67nmile,2.67nmile和4.67nmile)。请注意最长的DCPA(4.0nmile)和最慢的速度[160kn(节)]组合起来就会产生一个90s的TCPA,而这个TCPA过长可能会造成参与者分心和厌烦,在试验中将其排除掉了。在上述DCPA和速度的水平内,当冻结发生时,几组试验会有相同的TCPA,但由于不同的DCPA决定了不同的速度水平。这可以否定距离比速度重要的偏见假说。

*海里为长度单位,符号为n mile;节为速度单位1节=0.51m/s=1.152mph。

在被试之间DCPA各不相同,其他变量在被试内部变化。对于1.33nmile和2.67nmile的DCPA组,跨越3个冲突角,在3个速度水平和3个MD水平的条件下,可获得27个冲突几何。每27个条件重复4次,对两个DCPA组的每一组就会得到总共108个试验。对于4.0nmile的DCPA组,共有72个试验(3个冲突角×2个较快速度×3个误差距离×4次重复)。以类似随机的方式把这些试验提交给参与者,但看起来好像是随机分给他们的。

因变量:下面报告的因变量有绝对MD估计误差和有正负号的MD估计误差,以及绝对TCPA估计误差和有正负号的TCPA估计误差,源于真实值减去相关的估计值(即|估计值—真实值|和估计值—真实值)。绝对误差能够反映估计的精确度,而有正负号的误差将揭示估计方向(是否低估或高估),这是偏见的迹象。OCPA估计误差也被用于分析,但其结果下面不予报告,这是由于篇幅的限制和它们的重要程序相对较小。

程序

飞行员首先参加一个练习阶段,他们遇到了一些有代表性的冲突几何。在此之后,参与者在每个独立任务中,需要完成每段有36个试验的两(4.0nmile的DCPA组)或3个试验段(1.33nmile和2.67nmile的DCPA组)。每两段之间,为了避免疲劳效应,参加者可以做短暂的休息。

结  论

结果的全部细节都可以在Xu et al.(2004)的文章中找到,其中包括冲突角(CA)的作用,以及对OCPA估计误差的影响。

到达最接近点的距离(DCPA)和相对速度(RS)的影响

对于绝对误差距离(MD)的估计误差,随着DCPA的增加(图3),误差也增加,F(2,21)=18.37,p<0.000 1。这其中也有速度的主要作用,F(2,28)=15.22,p<0.000 1;在160nmile和240nmile之间,误差没有显著性差异(p>0.10),但240nmile比480nmile的误差大(p<0.0001)。

img79

图3 3个DCPA和速度水平的绝对MD估计误差。

对于有正负号的误差距离(MD)的估计误差(图4),相对于那两个短的DCPA水平,在最长的那个DCPA水平上对MD有较大低估,F(2,21)=4.67,p<0.05。

img80

图4 对于3个DCPA和3个速度水平的有号MD估计误差

对于绝对时间(即TCPA)估计误差(图5),随着DCPA的增加和速度的减小,误差单调增加,F(2,21)=5.75,p<0.05,F(2,28)=40,p<0.000 1。DCPA和速度之间的相互影响表明,160nmile对DCPA的影响比240nmile或者480nmile对DCPA的影响大。

img81

图5 对于3个DCPA和3个速度水平的绝对TCPA估计误差

对于有号时间估算误差(图6),不存在DCPA主效应,F(2,21)=1.83,p>0.10,但是随着速度的下降,对时间的低估逐渐加大(CPA的估计值比真实发生值来得更快),F(2,28)=128.15,p<0.000 1,DCPA与速度之间的相互影响表明在较长的DCPA水平上扩大速度的影响F(2,28)=15.69,p<0.000 1。也就是说,在最快的速度下,时间的高估随DCPA增加,在较慢的速度下,时间的低估随DCPA增加。

img82

图6 有号TCPA对于3个DCPA和3种速度水平的估计误差

距离比速度重要的偏见(Distance-over-Speed Bias)

在图6(为有号TCPA估计误差)的3条虚线连接的条件对当中,每对具有相同的真实的TCPA(分别是:20,30和60s),其距离和速度的比值(距离/速度)不同,短距离/慢速度在左边,长距离/快速度在右边。在每对连接点上,对于那些短距离和慢速度的点,估计的TCPA总是短(即TCPA被估计的过早)。对3条虚线连接的数据点做方差分析,两个距离水平(短距离与长距离)和3个时间水平(20,30和60s),确认了这一趋势,F(1,42)=24.61,p<0.000 1,并且揭示出,较长的时间,导致对TCPA的低估更大,F(2,42)=34.55,p<0.000 1,具有明显的相互影响F(2,42)=3.37,p<0.05。

误差距离(MD)的影响

误差距离(MD)对绝对MD估计误差有显著影响,F(2,42)=17.66,p<0.000 1,随着真实MD的增加,呈现出更大的误差。DCPA与MD二者之间的相互影响显著,F(4,42)=5.60,p<0.005,增加DCPA水平,放大MD的影响。MD对有号MD估计误差的影响也显著(见图7),F(2,42)=14.49,p<0.000 1;相对于较短的MD,那两个较长的MD被低估了(p<0.01),但是在那两个较长的MD水平之间没有差异(p>0.10)。

MD不影响绝对时间估计误差,F(2,42)=2.08,p>0.10,但是其对有号时间估计误差的影响显著,F(2,42)=3.38,p<0.05,这表明,随着真实MD的减小(即更大的冲突危险),对时间的低估又会更大。

img83

图7 对3个DCPA和3个MD水平有号MD估计误差。

讨  论

已观察到的影响的一般模式可分为两类:即那些通常使对冲突风险的判断更加困难(不准确)的,和那些飞行员所表现的反应两种估计偏向系统形式的。

结果涉及DCPA,相对速度和MD对绝对估计误差的影响,这些多数符合我们的预测:增加DCPA和MD以及降低速度,会使得冲突探测变得更加困难,同时会增加绝对误差。重要的是,关于有号MD估计误差,与那两个较小的DCPA水平相比,在最长的DCPA情况下对MD的低估更突出(图4),同样,与那个较短的MD相比,对那两个较长水平的MD的低估更突出(图7)。飞行员还有一种低估TCPA的趋势,特别是在速度较慢和较长的真实TCPAs的情况下(图6)。这些事实表明了第一种偏向——随着关于MD和TCPA的真实值不确定性的增加,要么MD和TCPA被低估,要么MD和TCPA的低估量增加。我们可以将其描述成为一个“安全的偏向”,因为在冲突(即TCPA)发生之前,随着不确定性的增加,高估冲突的风险(即低估MD)和低估时间都是一种安全的策略。此外,随着冲突情况变得更加危险(减小MD),发生冲突的时间(即TCPA)被逐步低估。随着MD的减小,飞行员可能会觉得冲突局面变得更加紧迫;即使发生冲突的时间是一样的,而随着MD的减小,如果要求解除冲突的话,这种偏向可以引起更早的避让机动。在这次试验中所发现的稳妥与司机在驾驶中对时间——接触的低估(Hancock,Manser,1998)和空管人员在空中交通管制中(Boudes,Cellier,2000)对距离的低估是一致的。这些发现说明了这样一种固有的偏向——在安全重要的情况下,操控者会从谨慎的一面犯错误。在一定程度上,这种策略可能是好事,但是当过了头,就可能潜在地引起不必要的避让机动,导致燃料浪费、乘客不适、甚至在附近空域中与其他交通发生冲突。

第二种偏向支持距离比时间重要的偏见假说,受这种偏见影响的飞行员在估计TCPA过程中,他们认为距离信息要比速度信息重要(见图6)。这种现象可以在Kahneman(2003)的理论中得到解释,这一理论认为:在人类的认知当中,存在有两个系统(系统1和系统2)。根据Kahneman的理论,系统1是直觉,它具有快速和轻松的特点;系统2是推理,这有分析和优化之功能,但其具有缓慢和需要付出努力的特点。有证据表明,人类有一种倾向——用系统1替代系统2,尤其是在系统2所要求的信息不能完全获取的时候。在我们的试验中,时间估计是一个系统2的过程,包括距离觉知(系统1过程)和速度觉知(见图8)。当入侵者的图标是不可见的时候,速度信息的获取会比距离信息的获取少。因此,可以想象的是,飞行员会把距离觉知取代更为复杂的距离和速度信息综合。这种偏向可能是一种潜在的风险,也可能在特殊的时刻有重要的安全含义,比如当入侵者与自己飞机相距很远但是飞行速度很快的时候,对发生冲突的时间可能估计得过长(超过实际发生冲突的时间)。

img84

图8 将时间估计为距离信息和速度信息相结合的过程的示意

结论,上述报告的结果将为CDTI设计师们改进设计进而克服人为缺陷提供宝贵资料。例如,因为在无辅助的情况下很难准确估计TCPA,自动化的TCPA预警系统可能就会降低飞行员的认知负荷。自动MD预测也将增加飞行员对MD的估计精度。自动化还可以减小在试验中所表现出来的偏向(即对MD和TCPA的低估和距离比速度重要的偏见)。最后,有关的各种偏向可以纳入训练大纲,使得飞行员可以认识到易受影响的错误种类。

致  谢

这项研究是在美国联邦航空局(FAA)的资助下完成的(Award No.DOT 02-G-032)。美国联邦航空局(FAA)对这一基金项目进行技术监督的是Dr.William Krebs,AAR-100。本文中的观点为作者的观点,不完全反映美国联邦航空局的意愿。同时我们也感谢Ron Carbonari对计划的支持。

参考文献

Alexander,A.L.,Wickens,C.D.,Merwin,D.H.(in press).Perspective and coplanar cockpit displays of traffic information:Implications for maneuver choice,flight safety,and mental workload.Int'l J.of Aviation Psych.

Boudes,N.,Cellier,J.-M.(2000).Accuracy of estimations made by air traffic controllers.Int'l J.of Aviation Psych,10(2),207-225.

Endsley,M.R.,Mogford,R.H.,Stein,E.S.(1997).Controller situation awareness in free flight.Proc.HFES 41st Annual Meeting(pp.4-8).Santa Monica,CA:HFES.

Galster,S.M.,Duley,J.A.,Masalonis,A.J.,Parasuraman,R.(2001).Air traffic controller performance and workload under mature free flight.Int'l J.of Aviation Psych,11(1),71-93.

Hancock,P.A.,Manser,M.P.(1998).Time-to-contact.In A.Feyer,A.Williamson(Eds.),Occupational injuries:Risk,prevention and intervention.London:Taylor and Francis.

Kahneman,D.(2003).A perspective on judgment and choice:Mapping bounded rationality.Am.Psychologist,58(9),697-720.

Law,D.J,Pelegrino,J.W.,Mitchell,S.R.,Fischer,S.C.,McDonald,T.P.,Hunt,E.B.(1993).Perceptual and cognitive factors governing performance in comparative arrival-time judgments.JEP:HP P,19(6),1183-1199.

Masalonis,A.J.,&Parasuraman,R.(2003).Fuzzy signal detection theory.Ergonomics,46(11),1045-1074.

Merwin,D.H.,Wickens,C.D.(1996).Evaluation of perspective and coplanar cockpit displays of traffic information(ARL-96-5/NASA-96-1).Savoy,IL:UIUC ARL.

Metzger,U.,Parasuraman,R.(2001a).Conflict detection aids for air traffic controllers in free flight.Proc.11th Int'l Symposium on Aviation Psych.Columbus,OH:OSU.

Metzger,U.,Parasuraman,R.(2001b).The role of the air traffic control in future air traffic management.Human Factors,43(4),519-528.

Remington,R.W.,Johnston,J.C.,Ruthruff,E.,Gold,M.,Romera,M.(2000).Visual search in complex displays.Human Factors,42(3),349-366.

Scallen,S.F.,Smith,K.,Hancock,P.A.(1996).Pilot actions during traffic situations in a freeflight airspace structure.Proc.HFES 40th Annual Meeting.Santa Monica,CA:HFES.

Wickens,C.D.,Gempler,K.,Morphew,M.E.(2000).Workload and reliability of predictor displays in aircraft traffic avoidance.Transp.Human Factors,2(2),99-126.

Wickens,C.D.,Helleberg,J.R.,Xu,X.(2002).Pilot maneuver and workload in free flight.Human Factors,44(2),171-188.

Xu,X.(2003).Conflict detection with cockpit display of traffic information:What is it,what have been found,and what need to be done?Proc.47th HFES Annual Meeting.Santa Monica,CA:HFES.

Xu,X.,Wickens,C.D.,Rantanen,E.M.(2004).Effects of air traffic geometry and conflict alerting system reliability on pilots'conflict detection with cockpit display of traffic information.Aviation Human Factors Division Technical Report.Savoy,IL:UIUC,Institute of Aviation.

附录B ASMA 2004Alaska不完全自动化和CDTI告警:系统分析和研究文献对显示器设计的意义

伊利诺伊大学香槟分校,

航空研究所,航空人为因素方向

Christopher D.Wickens

驾驶舱交通信息显示器(CDTI)具有容纳自动告警系统的潜力,与目前典型的TCAS系统相比,驾驶舱交通信息显示器(CDTI)可以更好地警示飞行员是否在一个时间跨度内会发生间隔的缩小。比如,CDTI告警功能可以将任何通用诊断系统中的内容显示出来,图1显示存在或预测出的危险情景(如间隔缩小)。如果已经预测到冲突,飞行员可以采取或不采取规避动作。冲突条件可能存在(或在将来发生)也可能不存在。运用图1示出的信号探测矩阵,展示出4类事件和结果的结合。其中失误(1个冲突没有被预测到)和假警告(预测到1个冲突但实际并不存在)都是令人厌恶的事情。应该尽量减少。我们还可以发现这项功能可以单独应用于告警系统,也可以应用于由人和告警系统组成的团队,这种情况下人可以直接感知告警系统做出诊断所依据的原始数据。在CDTI,这些原始数据通过视觉显示器来呈现。

诊断系统:如图1所示。

img85

图1 诊断系统

系统分析:根据信号探测理论,告警系统在灵敏度(从非信号中甄别出信号的能力,同时具有低的失误和虚假报警率)方面可能不同,这代表了自动化的可靠程度。例如,TCAS的开发人员从2型到6.04型改善了算法以提高总体的灵敏度。如果飞行员经过更好的训练,则他们面对这一套告警系统会变得更加敏感,并且可以有更多精力来关注显示屏。

考虑到诊断系统(无论是自动还是人工的)是不完善的(可靠性小于1),这种系统的响应标准也是不同的,有时候指的是报警临界值,它影响报警失误率和虚假报警率之间的比例(或者说,冲突与无冲突响应的比率)。

虽然任何预测性的告警系统的目标都是避免探测失误,但避免错误告警也受关注的原因有如下两个。首先,假报警可能激发错误的(或没必要的)规避动作,这也是会产生费用的。第二,在预测报警中,一个“遗漏”并不一定意味着冲突会发生,因为,冲突中在向最接近航道点靠近的过程中,告警系统还有机会去更新它的诊断。对很远的将来预测的灵敏度会变得很低(低敏感性),原因是空域固有的不确定性(其中包括飞行员操作行为的不确定性)。在接近最近通过的时刻进行预测可以做到非常准确。在告警系统中告警发生和最接近通过时间点之间的时间间隔称为向前看时间(LAT)。所以一个“遗漏”可以定义为冲突将要发生,但在给定的LAT没有被预测。

设计者询问LAT到底应该是多少。告警系统在LAT的诊断应该允许飞行员有一个充分的余地,即在安全有效间隔丧失之前采取可能的规避动作,这个余地应该相对来说长一点,以便大多数耗时间的动作(横向:Krozel and Peters,1997)有足够的时间来实施。在图2中,展示了在安全有效间隔丧失之前,将垂直速度和横向机动为时间的函数计算出的成功几率。

img86

图2 速度和横向机动时间的函数计算成果

另一方面,LAT为什么不要定的过长,其原因是随着LAT的增加诊断系统的灵敏度会有损失,因为过长的预测时间跨度会导致预测将来状况的不确定性增加(Rantanen et al.,2004)。这一点在图3中得到展示,灵敏度的损失代表着遗漏和虚假告警率的增加。在左边一栏中可以看到,在给定的LAT,设计者可以通过设定告警的触发标准来平衡这两种自动化错误。在右边的一栏中可以看到,设计者通常会采用使遗漏降到最低的标准,因为这类自动化错误被看为是更为严重的。然而,这个标准的决定是以更高的虚假报警率(较长的LAT会有更大的虚假报警率)为代价的。此外,在下边的那一栏中可以看出,随着事件的基本几率的增加(这里,比如说,潜在冲突的频率,相关的空域密度,交通流的复杂性),为了能将遗漏率控制在最低可以接受的水平之下,虚假报警率一定会更高(Parasuraman,Hancock,and Obofinbaba,1997;Krois,1999)。

img87

图3 灵敏度与遗漏和虚假报警率

心理分析:遗漏率和虚假告警率二者增加,对于人(飞行员)的表现会有一定影响,而这些变化是由告警系统灵敏度降低(通过设定较长的LAT)和告警发生标准调整(比如以牺牲虚假报警率的代价避免遗漏率)而导致的。在图4中可以看到,这些影响可能对飞行员的决断和注意力产生不良后果,在多重任务环境下(CDTI原始数据之间,语音告警和其他并行任务)影响人们的注意力分配。一般来说,一个可靠性较低的告警系统(牺牲它的灵敏度),将要求飞行员花更多的注意力看CDTI显示器上的原始数据,因此在处理并行任务上就会差一些。然而,最近有关注意力影响因素,是由于系统遗漏率增加而使得对其依赖性降低,还是由于虚假报警率的增加而对系统的顺从程度降低,这二者之间要做出明确的区分(Meyer,2001;Dixon,Wickens,2004;Maltz,Shinar,2003)。如果设计者调整它的阈值,遗漏和假报警可以调整达到相互均衡,它们对人的注意力和认知似乎有更独立的影响。

img88

图4 心理分析

减少对表明冲突或者危险条件的告警的依赖(由遗漏率的增加导致),会导致飞行员始终更关注视觉方面的原始数据,这是以牺牲持续表现和对其他任务监控为代价的。降低对表明潜在危险的告警的顺从程度(由虚假警报增加导致的),可能导致飞行员推迟处理告警(即:将注意力从正在执行的任务转移到告警方面)并可能导致飞行员完全忽略告警。后一种情况如果告警碰巧是真的话,则意味着那是一个可能导致灾难性后果的决定。这些遗漏和虚假报警对于依赖还是顺从的影响,在其他比如无人机(UAV)驾驶(Dixon,Wickens,2004)和目标搜索(Maltz,Shinar,2003)等领域已经确立,但是还没有在CDTI冲突探测上得到检验,尤其是在执行高负荷的双任务环境下,此时的注意力资源极为重要,飞行员可能参与在了其他的任务中,告警发生时要求注意力从这些任务中切换出来。

解决办法:由长的LAT(为了适应所有机动)和低遗漏率导致的“依赖——顺从均衡问题”,有3个可能的解决办法。第一,多层次报警或者“或然报警”被认为是减轻可能发生的错误报警问题的方法(Sorkin,Kantowitz,Kantowitz,1988;Woods,1995;St.John,Manes,2002)。第二,在面对可能不正确的报警时应该允许操作员有机会去查看显示器提供的原始数据(这种原始数据当然可以在CDTI显示器中得到)。第三,可以向操作者提供训练,内容包括:不完善在长LAT情况下是不可避免的;低的事件率意味着假告警率一定会很高;CDTI告警应该用于对原始数据的更加仔细的观察上,而不是作为自动采取机动调整的依据。

这些措施在多重任务的CDTI告警环境下仍然需要进行评价。

致  谢

这项工作得到了美国航空航天局Ames研究中心NASA NAG 2-1535的鼎力帮助,Dave Foyle曾经是名技术监督员。在这篇文章中的一些想法是作者在联邦航空部Grant#DOT 02-G-032工作时产生的。我的同事Dr.Esa Rantanen,贡献了很多和这篇文章相关的想法。Lisa Thomas和Xidong Xu也给予了很多帮助。

参考文献

Dixon,S.R.,Wickens,C.D.(2004).Reliability in automated aids for unmanned aerial vehicle flight control:Evaluating a model of automation dependence in high workload.University of Illinois Institute of Aviation Technical Report(AHFD-04-05/MAAD-04-01).Savoy,IL:Aviation Human Factors Division.

Krois,P.(1999).Alerting systems and how to address the lack of base rate information(unpublished manuscript).Washington,D.C.:Federal Aviation Administration.

Krozel,J.,Peters,M.(1997).Conflict detection and resolution for free flight.The Air Traffic Control Quarterly Journal,Special Issue on Free Flight,5(3).

Maltz,M.,Shinar,D.(2003).New alternative methods in analyzing human behavior in cued target acquisition.Human Factors,45,281-295.

Meyer,J.(2001).Effects of warning validity and proximity on responses to warnings.Human Factors 43,563-572.

Parasuraman,R.,Hancock,P.A.,Obofinbaba,O.(1997).Alarm effectiveness in driver-centered collision-warning systems.Ergonomics,40(3),390-399.

Rantanen,E.M.,Wickens,C.D.,Xidong,X.,Thomas,L.C.(2004).Developing and validating criteria for constraining false and nuisance alerts for cockpit displays of traffic information avionics.University of Illinois Institute of Aviation Technical Report(AHFD-04-1/FAA-04-1).Savoy,IL:Aviation Human Factors Division.

Saint John,M.,Manes,D.I.(2002).Making unreliable automation useful.Proceedings of the 46th Annual Meeting of the Human Factors &Ergonomics Society.Santa Monica,CA:The Human Factors and Ergonomics Society.

Sorkin,R.D.,Kantowitz,B.H.,Kantowitz,S.C.(1988).Likelihood alarm displays.Human Factors,30(4),445-459.

Wickens,C.D.,Gempler,K.,Morphew,M.E.(2000).Workload and reliability of predictor displays in aircraft traffic avoidance.Transportation Human Factors Journal,2(2),99-126.

Woods,D.D.(1995).The alarm problem and directed attention in dynamic fault management.Ergonomics,38(11),2371-2394.

附录C 从试验1中被试的表现推断出冲突几何的难易特点

表A.1 根据难易程度不同,选取了难易各12组冲突几何

img89

注:“R”和“L”分别代表入侵者从右边和左边接近主飞机,“F”和“B”分别代表入侵者从主飞机的前边和后边通过。每次试验的加权估计误差是——参与试验1的飞行员估计误差值的平均值,使用的公式是:[0.4×(绝对TCPA估计误差)+0.4×(绝对MD估计误差)+0.2×(绝对OCPA估计误差)]。

* 1mile(英里)=1.609km。

表A.2 根据难易程度不同,选取了难易各12组冲突几何

img90

表A.3 根据难易程度不同,选取了难易各12组冲突几何

img91

续表

img92

表A.4 根据难易程度不同,选取了难易各12组冲突几何

img93

续表

img94

表A.5 根据难易程度不同,选取了难易各12组冲突几何

img95

表A.6 根据难易程度不同,选取了难易各12组冲突几何

img96

表A.7 根据难易程度不同,选取了难易各12组冲突几何

img97

续表

img98

表A.8 根据难易程度不同,选取了难易各12组冲突几何

img99

续表

img100

表A.9 根据难易程度不同,选取了难易各12组冲突几何

img101

续表

img102

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈