首页 百科知识 数字音频的分类

数字音频的分类

时间:2022-10-04 百科知识 版权反馈
【摘要】:在接下来的章节中,将数字音频信息按用途、来源和文件格式等进行分类说明。MIDI与数字音频有着本质的区别,前者提供一组乐器的指令,而后者描绘一个音频波形。数字音频通过各种编码方法形成不同的数字音频文件格式。随着多媒体技术和网络技术的迅速发展,以及CD、MP3、录音笔、手机等各种多媒体设备相继进入人们的生活,数字音频的文件种类也日益丰富。WAV文件囊括了各种精度的音频,可以支持多种采样频率、量化位数和声道数量。

由上一节可知,模拟声音通过采样、量化及编码等一系列过程就可转换为数字音频序列。在实际生活中,对于电话语音质量的要求显然与高保真家庭影院甚至电影院的不同。在接下来的章节中,将数字音频信息按用途、来源和文件格式等进行分类说明。

1.按用途分类

按照使用场合及功能的不同,可将音频文件分为语音、音乐及音效等。

(1)语音

语音是人类器官发出的具有特定意义的声音,通常利用麦克风和录音软件把语音信息录入计算机。语音的四要素分别为音高、音强、音长和音色。其中,音高指声波频率,即每秒振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为“时长”;音色指声音的特色和本质,也称为“音质”。

(2)音乐

音乐是指有旋律、节奏或和声的人声或乐器音响等配合构成的旋律,数字音乐是用数字格式存储的、可以通过网络传输的音乐,无论经历多少次下载、复制和播放,其品质都不会发生变化。

(3)音效

音效是指有特殊效果的声音,例如汽车轰鸣声、爆炸声、敲击金属等材质的声音等。效果声的制作最直接的方法是录制自然的声音,例如,让一群人在打开的麦克风前鼓掌,就可获得鼓掌声。在现代广播电视配音等领域,也可通过替代物品的声音来获取某些特殊的音效,例如,专业配音演员利用口技模仿爆炸声等。

2.按来源分类

音频文件根据来源可分为数字化声波、MIDI合成和声音素材库三大类。

(1)数字化声波

数字化声波是将麦克风插在计算机的声卡上,利用录音软件,将语音和音乐等波形信号经由模/数转换实现数字化存储和编辑,必要时还可通过数/模转换还原成原来的波形。

(2)MIDI合成

MIDI(Musical Instrument Digital Interface)乐器数字接口,是20世纪80年代初为解决电声乐器之间的通信问题而提出的。MIDI作为编曲界最广泛的音乐标准格式,可称为计算机能理解的乐谱。MIDI与数字音频有着本质的区别,前者提供一组乐器的指令,而后者描绘一个音频波形。MIDI传播的不是声音信号,而是音符、控制参数等指令,几乎所有的现代音乐都是用MIDI加上音色库来合成的。MIDI合成就是利用连接计算机的MIDI乐器数字化接口,弹奏出曲子,或者合成音效并录入计算机,再通过音频软件进行编辑的过程。

(3)声音素材库

与图像素材获取的过程类似,可将录音带或CD唱盘等声音素材库中的曲子,用放音设备通过转接线转录到计算机中,再用声音软件加以编辑,存成多媒体软件可以读取的文件格式。需要注意的是,使用声音素材库中的乐曲等需要获得版权许可。

3.按格式分类

数字音频通过各种编码方法形成不同的数字音频文件格式。随着多媒体技术和网络技术的迅速发展,以及CD、MP3、录音笔、手机等各种多媒体设备相继进入人们的生活,数字音频的文件种类也日益丰富。到目前为止,出现过的数字音频格式已经数不胜数,有些现在仍然被广泛地应用,有些已经慢慢地淡出了人们的视野。

根据人们所用的数字音频设备的不同,其所采用的音频文件格式也不同,最常见的数字音频格式有WAV、MIDI、MP3、Real Audio、WMA、AU、AIFF、VQF、APE、CD、AAC、CDA、OGG、VOC等。

(1)WAV文件

WAV(Wave)文件又名波形文件,是Microsoft公司与IBM公司联合开发的一种古老的音频文件格式,扩展名为.wav。WAV文件是以一定的采样频率对模拟音频采样,得到一系列离散的采样点,再把采样点的采样值量化成二进制数,从而得到的数字音频。

所有的WAV文件都有一个文件头,用来保存音频流的编码参数。在Windows平台下,基于PCM编码的WAV是使用最广泛的音频格式,所有音频软件都能支持该格式。由于Windows系统的普及,这个格式已经成为事实上的通用音频格式。

WAV文件囊括了各种精度的音频,可以支持多种采样频率、量化位数和声道数量。由于WAV直接记录声音的波形,对数据不做任何的压缩,因此其文件的数据量非常大。如果存储1小时的采样频率为44.1 k Hz,16位量化精度的双声道立体声WAV文件,所需占用的存储空间大约为:

其音质跟CD盘的音质几乎没有区别。由于WAV本身可以达到较高的音质要求,因此,它也是音乐编辑创作的首选格式,适合保存音乐素材。

WAV文件格式设计得非常灵活,可以存放任何媒体数据,比如压缩音频MP3,甚至是一幅图像都可以存放在WAV文件中。WAV文件本身的结构决定了它的用途是存放音频数据并做进一步处理的,而不是像MP3那样用于聆听。

WAV波形文件在采样频率、数据量和声音重放等方面具有明显特点:

①采样频率越高,数字化声音与声源的效果越接近,音质越好,数据量越大。

②采样精度越高(位数越多),数据的表达越精确,音质越好,数据量越大。

③可选择数字音频信号的声道数。如果选择立体声,则数据量比单声道的大一倍。

④可真实记录任何音源发出的声音,声音效果稳定。

⑤音频数据基本没有经过压缩处理,数据量较大。

(2)MIDI文件

MIDI(Music Instrument Digital Interface)指电子乐器数字接口,是由世界上的电器乐器制造商建立的一个通信标准,用以规定在音乐合成器、乐器和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。MIDI文件的扩展名为.mid。

MIDI文件中包含音符、定时和多达16个通道的乐器定义,每个音符包括键、通道号、持续时间、音量和力度等信息,因此,MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程的指令。播放的时候再对这些指令进行分析,然后通过FM或者波表的方式进行合成。FM合成是通过将多个不同频率的声音进行混合,来模拟乐器的声音;波表合成是将乐器的声音样本存储在声卡的波形表中,播放的时候从波形表中取出产生的声音,然后进行合成。由于不同的声卡所采用的合成方式不同,而硬件音源的音色各有差异,相同的MIDI文件在不同的设备上播放会有不同的效果。因此,与波形文件不同,MIDI文件主要用于计算机声音的重放和处理。

与其他文件格式相比,MIDI文件具有显著的优点:

① MIDI文件很小。由于MIDI文件存储的都是一些指令,而不是声音本身,因此十分节省空间。例如,同样半小时的立体声音乐,波形(WAV)文件需要大约300 MB,而MIDI文件只有200 KB左右。

②容易编辑。MIDI存储的是指令或命令,对命令的编辑要比波形容易得多,比如可以很容易地改变某音乐所用的乐器,或者某个音的长短、音调高低等。

③适合作为背景音乐。MIDI音乐可以和其他媒体,如数字电视、图形、动画、语音等一起播放,也可以作为网页的背景音乐来播放。

MIDI格式的主要缺点是它缺乏重现真实自然声音的能力,因此不能用在需要语音等自然音的场合。此外,MIDI只能记录标准所规定的有限乐器的组合,而且回放质量受声卡上合成芯片的限制。

(3)MP3文件

MP3是采用MPEG-1 Audio Layer 3标准对WAV音频文件进行压缩,以较大的压缩比达到CD唱片的音质。虽然MP3采用的是一种有损压缩方式,但由于其削减了音频中人耳听不到的成分,同时尽可能地维持原有音质,因此非常实用。

MP3是网络上常用的音乐格式,一张MP3唱片能容纳10张CD唱片的歌曲。每分钟的WAV格式文件大约占用10 MB的存储空间,而每分钟MP3音乐格式文件仅占用1 MB左右的空间。一张标准的CD-ROM,刻录成音乐CD只能存放几首乐曲,但使用MP3格式却能容纳几百个曲目。在有限的存储空间里,能够存储大量的音频数据,这使得MP3格式极大地方便了音频的存储、交流和传输。MP3编码虽不适用于实时传送,但能在低编码速率下提供较高的音质,所以成为网上音乐的主流编码方式。

目前,网络上广为流传的MP4格式文件,不仅可以为观众提供高质量的听觉享受,还可以提供高清视频信息。MP4采用了MPEG-2 AAC技术,其特点是音质更加完美,压缩比更大(15∶1~20∶1),增加了多媒体控制、降噪等MP3所没有的特性。此外,经过以Div X或者Xvi D为代表的MP4技术处理过的视频、音频质量下降不大,但容量缩小到原来的几分之一。

(4)Real Audio文件格式

Real Audio(RA)、RAM和RM都是Real Networks公司开发的典型音频流文件格式,它包含了Real Networks公司所指定的音频、视频压缩规范(称作Real Media),主要用于在低速的因特网上实时传输音频信息。根据网络连接速度不同,客户端所获得的声音品质也不尽相同:对于14.4 kb/s的网络连接,可以获得调幅(AM)质量的音质;对于28.8 kb/s的网络连接,可以达到调频(FM)广播级的声音质量;如果使用ISDN或ADSL等更快的连接线路,则可以获得CD音质的声音。

Real音频具有流媒体的一切优点——文件小、易于传输、可在线实时播放,因此是目前网络上实时播放的主流格式。不过由于Real Media是从极差的网络环境下发展过来的,所以Real Audio的音质并不好,在高码率时要比MP3差。尽管后来Real Networks公司通过与SONY公司合作,使用ATRAC技术实现高比特率下的高保真压缩,但这些已经无法改变它在用户心目中音质差的印象。这也是很多音乐网站能够提供免费的RA音乐下载的一个重要原因。RA音乐的主要用途是在线聆听,不适合用于编辑和处理。

(5)WMA文件格式

WMA(Windows Media Audio)是Microsoft为了挑战Real Networks在流媒体领域的霸主地位所推出来的音频格式。最初WMA的效果与RA相差不大,但随着Windows Media Player 9技术的推出,WMA已经令人刮目相看了。微软公司声称,在只有64 kb/s的情况下,WMA可以达到或接近CD的音质。WMA的压缩技术中还拥有可变码率(VBR)、无损压缩技术,并支持多声道编码。WMA中还加入了数字版权管理(Digital Right Management,DRM)技术,可以防止复制以保护版权。

目前,WMA已经成为MP3的主要竞争对手之一。WMA格式可以将音频文件压缩到原来的1/18,其压缩率比MP3还高。无论从技术性能上,还是从压缩率上,WMA都比MP3好。WMA以其优异的性能和高压缩比的特点,成为微软公司主推的在线音频格式。

(6)AIFF/AU文件格式

AIFF(Audio Interchange File Format)格式和AU格式都与WAV格式很相似,大多数的音频编辑软件也都提供了对它们的支持。AIFF作为苹果电脑的标准音频格式,被Mac平台及其应用程序所支持。这一格式的特点就是格式本身与数据的意义无关,因此受到了Microsoft的青睐,并在此基础上开发出了WAV格式。AIFF虽然是一种很优秀的文件格式,但由于适用主机的局限性,远没有PC平台上通用的WAV格式那么流行。不过由于Apple电脑多用于多媒体制作出版行业,因此几乎所有的音频编辑软件和播放软件都或多或少地支持AIFF格式。

AU文件格式最初是由SUN公司推出的一种数字音频格式,是UNIX平台下常见的一种音频格式。AU格式本身也支持多种压缩方式,但其文件结构的灵活性远比不上AIFF和WAV。由于平台的限制,AU格式所得到的支持也远不如AIFF和WAV。

(7)CD音频

CD-DA(Compact Disk-Digital Audio)是光盘的一种存储格式,专门用于存储和记录音乐。CD文件格式的采样频率为44.1 k Hz,每个采样使用16位存储信息,文件后缀为.cda。该格式可以提供高质量的音源,而且不是通过硬盘存储声音,而是直接通过光盘由CD-ROM驱动器中的特定芯片处理后完成相关操作。

(8)AAC格式

AAC是Advanced Audio Coding(高级音频编码)的缩写。AAC最早出现于1997年,是基于MPEG-2的音频编码技术。AAC由Fraunhofer IIS、杜比实验室、AT&T、Sony(索尼)等公司共同开发,目的是取代MP3格式。2000年,随着MPEG-4标准的出现,AAC加入了一些新的特性,成为MPEG-4音频编码的核心,为了区别于传统的MPEG-2,AAC又称为MPEG-4 AAC。

AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3),它同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率,具备多种语言兼容能力和更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。

AAC格式的特点:

①低比特率(相对较高的音质)和较小的文件数据量,使用SBR(频段复制)技术。

②支持多声道:最多可提供48条带宽声道。

③更高的解析度:最高支持96 k Hz的采样频率。

④更高的解码效率:解码播放器所占的资源更少。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈