首页 百科知识 三维虚拟声音技术

三维虚拟声音技术

时间:2022-10-05 百科知识 版权反馈
【摘要】:目前,i Phone等智能手机都可通过语音命令操控手机完成拨打电话等工作,这一功能的实现依赖于语音识别技术。语音合成技术是指将文本信息转变为语音数据,并将语音数据以语音的方式进行播放的技术。在虚拟现实系统中,语音合成是向用户提供信息的另一条重要途径,它可以通过语音的形式将必要的命令和文字信息传递给用户,从而弥补视觉信息的不足。

听觉是人们获取外部信息的第二传感通道,人们通过听觉获取的信息量仅次于视觉。我们捂住耳朵看电影,临场感将大大降低;但是,好的配乐能增强场景的感染力,弥补视觉效果上的不足。因此,为虚拟现实系统中加入虚拟听觉,既可以增强使用者在虚拟环境中的沉浸感和交互性,又可以减弱大脑对于视觉的依赖性,使用户能从环境中获得更多的信息。

虚拟现实中的三维虚拟声音与人们熟悉的立体声不同,虽然立体声拥有较强的临场效果,然而我们仍然感觉到声音是来自听者前面的某个平面,即声音没有方位感。虚拟现实系统中的三维虚拟声音,可能出现在用户的上方,也可能出现在侧方或后方,这种声音能使用户明显感觉到声音的位置,从而增强用户的沉浸感。

1.三维虚拟声音的特征

三维虚拟声音系统的主要特征是全向三维定位、三维实时跟踪以及沉浸感和交互性。

(1)全向三维定位特性

全向三维定位特性指在三维虚拟空间中把实际声音信号定位到特定虚拟声源的能力。我们在检查听力时,可以分辨音叉的方位和距离。三维声音系统模仿声音在空气中传播的物理特性,并通过计算机模拟生成各种距离和方位的声音源。它能使用户准确地判断出声源的精确位置,因而符合人们在真实境界中的听觉方式。

(2)三维实时跟踪特性

三维实时跟踪特性指在三维虚拟空间中实时跟踪虚拟声源位置变化或影像变化的能力。当用户头部转动时,人的听觉也应随之变化,使用户感到真实声源的位置并未发生变化;而当虚拟发声物体位置移动时,其声源位置也应有所改变。因为只有声音效果与实时变化的视觉相一致,才可能产生视觉和听觉的叠加与同步效应。如果三维虚拟声音系统不具备这样的实时变化能力,看到的影像与听到的声音会相互矛盾,听觉就会削弱视觉的沉浸感。

(3)沉浸感与交互性

三维虚拟声音的沉浸感是指加入三维虚拟声音后,能使用户产生身临其境的感觉,声音效果与视觉效果一致,有助于增强临场感。三维虚拟声音的交互特性则是指随用户的运动而产生的临场反应和实时响应的能力,例如,当人在虚拟世界中移动时,听到的鸟叫声会有远近的变化。这一特性的实现需要跟踪定位传感器、计算机、声音系统等多个功能子系统的配合。

2.心理听觉声学基础

心理声学研究表明:声源产生的(直达)声波经头部等的散射后到达双耳,产生双耳时间差和声级差。听觉系统利用这些双耳时间差和过去的听觉经验比较,从而判断声源的方向。耳廓、面部和肩部等的散射声波与直达声在耳道入口干涉所产生的频谱改变,以及头部的转动所引起双耳时间差的改变对定位也有重要的作用。在有限空间内,各种反射声的组合使听觉系统产生对周围声学空间环境一种综合的、总体的感觉,其中包括各个声源的距离信息。因此,听者能够感觉到现实世界中来自前、后、左、右、上、下等不同方位的三维声效。

在现实世界中,人们通过一系列因素来判断声音的位置,这些因素包括声源的音量,左右耳间由于距离、时间和声音频率变化产生的差异以及声音的衰减程度等。因此,听觉模型中三维虚拟声音的仿真集中于方向感、距离感、运动感等方面的研究和实现,合理、恰当地模拟这些因素才能符合三维虚拟声音的心理声学基础。

3.语音识别与语音合成技术

目前,i Phone等智能手机都可通过语音命令操控手机完成拨打电话等工作,这一功能的实现依赖于语音识别技术。语音识别技术是指将人说话的语音信号转换为可被计算机程序所识别的文字信息,从而识别说话人的语音指令以及文字内容。语音识别一般包括参数提取、参考模式建立、模式识别等过程。

我们常用的文字朗读软件的功能则与之相反,它依靠电子音自动朗读用户输入的txt等格式的文字信息,这就是语音合成技术。语音合成技术是指将文本信息转变为语音数据,并将语音数据以语音的方式进行播放的技术。当计算机合成语音时,为保证听话人能理解其意图并感知其情感,一般对“语音”的要求是清晰、易懂、自然、具有表现力,其中,自然和具有表现力是该技术的难点,也是我们判断软件生成语音质量的重要评判标准。一般实现语音输出有两种方法:一是录音/重放;一是文/语转换。在虚拟现实系统中,语音合成是向用户提供信息的另一条重要途径,它可以通过语音的形式将必要的命令和文字信息传递给用户,从而弥补视觉信息的不足。

将语音合成与语音识别技术结合起来,还可以使用户与计算机所创造的虚拟环境进行简单的语音交流,这在虚拟现实系统中具有突出的应用价值,特别是当使用者的双手正忙于执行其他任务,而双眼正注视图像时,语音交流的价值就尤为突出。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈