音频合成技术与语音识别技术

时间：2022-10-24 百科知识版权反馈

【摘要】：音频合成技术通过计算机合成声音，主要有两类：一类是合成音乐或音效，另一类是合成语音。语音识别技术以语音为研究对象，是通过计算机分析语音信号的特征参数来理解语音的语义，最终实现人与机器进行自然语言交互的一种技术。目前语音识别主要是通过文本—语音转换器和语音识别器来实现。语音识别属于模式识别，分为训练和识别两个过程。

5．4．4　音频合成技术与语音识别技术

音频合成技术通过计算机合成声音，主要有两类：一类是合成音乐或音效，另一类是合成语音。语音识别技术以语音为研究对象，是通过计算机分析语音信号的特征参数来理解语音的语义，最终实现人与机器进行自然语言交互的一种技术。目前语音识别主要是通过文本—语音转换器和语音识别器来实现。

1）MIDI音乐

计算机合成音乐常用的是MIDI（Musical Instrument Digital Interface，电子乐器数字接口）音乐。计算机的媒体播放器在播放MIDI音乐时，读取MIDI文件，解释其内容并翻译成合成命令，由声卡按照合成命令发出MIDI消息（命令），由音乐合成器合成出各种音符并播放出音乐。

计算机合成MIDI音乐需要的三要素是：乐器、乐谱和演奏人员。计算机的声卡一般都带有音源，音源也称“音乐合成器”，相当于乐器集合，可以模仿几十种乐器的声音。MIDI乐谱是用MIDI音乐描述命令所编辑的MIDI文件，一首乐曲对应一个MIDI文件，文件扩展名是．mid。计算机中支持MIDI音乐播放的软件就相当于演奏人员，例如Microsoft Media Player、Real Player等。

MIDI音乐与波形音频相比音质稍差，但是有数据量小的优点，适用于手机铃声、游戏音效等方面。

2）文本—语音转换器

文本—语音转换是将文本形式的信息转换成为自然语言的一种技术。文本—语音转换器分为综合和连贯两种类型。

综合语音系统是通过分析单词，由计算机确认单词的发音，然后将这些音素被输入到一个复杂的模仿人声并发声的算法中，这样计算机就可以阅读文本了。综合的文本—语音转换器能读任何单词，甚至自造的词，但没有感情，有明显的机器语音的味道。

连贯语音系统会分析文本，并从预先录制好的文库中抽取出单词和词组的录音。这样做的效果比较自然，但不能读出文库中没有的单词。

文本—语音转换器的基本工作过程是：输入的汉字文本经过语言学和语音学处理后得到语流的控制参数，然后读取语音数据库，再经过语音信号处理后输出连续的语音，如图5．17所示。