人机自然交互技术

时间：2022-10-05 百科知识版权反馈

【摘要】：虚拟现实系统中的人机交互技术主要是对三维自然交互技术的发展和完善。根据J.J.Gibson的概念模型，虚拟现实的人机交互技术应该支持包括视觉、听觉、触觉、嗅觉、味觉、方向感等在内的多通道的交互。根据研究目标的不同，人脸识别技术可细分为人脸快速提取、固定表情的不同人脸比对、同一人脸的不同表情识别等研究方向。人脸图像的分割、主要特征的提取、定位以及识别是人脸识别技术的主要难点。

我们已了解了空间球、数据手套等人机交互设备，然而如何让人与计算机和谐、流畅地交换信息，则依赖于人机自然交互技术。虚拟现实系统中的人机交互技术主要是对三维自然交互技术的发展和完善。根据J.J.Gibson的概念模型，虚拟现实的人机交互技术应该支持包括视觉、听觉、触觉、嗅觉、味觉、方向感等在内的多通道的交互。

多通道交互主要有基于视线跟踪、语音识别、手势输入、感觉反馈等多种交互技术。它允许用户利用多个交互通道，以并行、非精确的方式与计算机系统进行交流，旨在提高人机交互的自然性和高效性。

1.手势识别技术

外国影片中的特种士兵经常通过手势进行简单交流，手势作为肢体语言中重要的组成部分，构成了人机交互的基本方式之一。目前，国内外针对手势识别开展了大量研究，识别系统只需识别手部的形态、跟踪手掌及手指的位置，就可通过接收的手势下达命令。

根据识别对象的不同，手势识别技术可分为静态手势识别和动态手势识别。其中，静态手势识别是指对于静态图片中的手形和手的姿势的识别；而动态手势识别是对连续的一连串手势进行轨迹跟踪或对变化中的手形进行识别，它要求具有较高的精确性和很高的实时性。

根据输入设备的不同，手势识别技术又可分为基于数据手套的识别系统和基于视觉图像的手语识别系统两种。

基于数据手套的识别系统，是利用数据手套和空间位置跟踪定位设备来捕捉和检测手部在三维空间中的持续动作，通过分析手部位置、手指动作和朝向等，对手势进行分类，并读取手势信息。该识别系统的优点是识别率高，缺点是硬件设备价格高昂，而且用户需要穿戴复杂的数据手套和空间位置跟踪定位设备，这在一定程度上限制了人手的自由活动。

近年来的研究热点——基于视觉图像的手语识别系统，则是伴随着数字图像处理技术、计算机视觉技术一起成长起来的新型手势识别技术。用户通过佩戴特殊颜色的手套，甚至多种颜色的手套来区分手的不同部位。摄像机采集手势图像后，系统通过边缘识别等算法读取手掌和不同手指的轮廓信息，最后与手势特征集数据库进行比对，识别不同手势。该识别系统的优势在于摄入设备价格低廉，对用户的约束感稍小，但由于数据库中的存储手型、手势与实际用户的手型、手势不完全一致，而且手势在变化过程中容易出现遮挡，因此识别率较低、实时性较差，很难用于大词汇量的复杂手势识别。

手势识别技术的发展有助于改善聋哑人的生活和工作条件，也可用于计算机辅助教学、虚拟人研究、动画制作、医学研究、游戏娱乐等领域。

2.面部表情识别

在日常生活中，人们习惯于通过面部表情表达自己的情绪。我们可以通过观察他人的表情了解对方的情绪，然而这一过程对计算机来说十分复杂。人脸识别技术作为计算机视觉领域的重要课题，一直是国内外的研究热点问题。根据研究目标的不同，人脸识别技术可细分为人脸快速提取、固定表情的不同人脸比对、同一人脸的不同表情识别等研究方向。

人脸图像的分割、主要特征（眼睛、鼻子等五官）的提取、定位以及识别是人脸识别技术的主要难点。由于人的五官排布、面部表情都具有强烈的个人特质，因此，采用固定的表情特征集很难与不同用户的表情进行匹配。另外，识别效果还受光照、图像质量和人脸上的胡须等干扰因素的影响，因此，该技术还处于发展阶段，其识别准确率和实时性有待提高。

在虚拟现实系统中，面部表情识别可划分为人脸的检测、定位与跟踪，人脸表情描述，人脸表情识别等一系列过程。

（1）人脸的检测、定位与跟踪

人脸的检测、定位与跟踪是一个从各种不同的场景中检测出人脸的存在并确定其位置、大小、位姿的过程。对于视频图像，不仅要求检测出人脸的位置，还要求能够跟踪人脸。这一过程主要受背景、光照及头部倾斜度的影响。

（2）表情描述

对已经被检测出的面部表情图像或数据库中的面部表情图像，需要采取一定的方式进行表示，即面部表情的编码。描述表情可以使用原图像的灰度信息或频率信息，也可以使用基于图像内容的几何信息，还可以根据解剖学的知识建立物理模型来进行。表情描述的方法应充分考虑下一步所采用的表情识别方法，以达到最佳的识别效果。美国心理学家Paul Ekman和Friesen开发的面部运动编码系统，根据人脸的解剖学特点，将其分解为46个运动单元（AU）。然而，在实际应用中，标记46个运动单元的特征运动点消耗了大量人力，并耗费了长达100多小时的样本训练时间，这阻碍了该技术的推广。

（3）表情的识别

使用模式识别中的分类方法，可以将待识别的表情分类到已知类别中的一类。这一过程也是表情识别的研究重点，其核心是选择与所采用的表情描述方式适合的分类策略。

3.眼动跟踪技术

目前，常用的立体眼镜或头部位姿定位追踪系统都可实现对用户头部位置及朝向的跟踪。但在现实中，可以不转动头部而仅仅通过视线移动来观察不同范围内的物体。因此，仅通过头部进行跟踪是不够科学的，而将眼动跟踪技术（Eye Movement-based Interaction）运用到虚拟现实系统中则可以弥补这一缺陷。

眼动跟踪技术的关键在于持续性地追踪人眼球的运动轨迹，其基本工作原理是使用能锁定眼镜的特殊摄像机，利用图像处理技术，通过摄入从人的眼角膜和瞳孔反射的红外线连续地记录、分析视线的变化，从而实现对人眼视线的追踪。

目前，常用的视觉追踪方法有眼电图、虹膜-巩膜边缘、角膜反射、瞳孔-角膜反射、接触镜等几种，其中，基于瞳孔-角膜反射向量的视线跟踪方法应用最为广泛。

我们通过五官的协同作用感受世界，因此虚拟现实也应为用户提供多通道信息。虽然目前视线跟踪技术仍不成熟，但作为人机交互手段的一种，眼动跟踪与头部跟踪等交互技术的结合，可进一步消除计算机在理解用户命令时可能出现的歧义，进而推动计算机、机器人、虚拟人等技术朝智能化时代发展。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈