首页 百科知识 【人工智能】合成人类声音

【人工智能】合成人类声音

时间:2022-02-19 百科知识 版权反馈
【摘要】:阿克塞尔·罗贝尔是Ircam的研究员、声音分析与合成团队负责人。数字技术巨头谷歌、苹果、微软和亚马逊是合成语音领域的重量级选手,它们把大量资金投入了与合成语音相关的技术研发领域。我们的智能手机已经能够听懂语音指令,并用合成语音回应我们的问题了。目前的语音分析和合成算法已实现升级,它们能够更加忠实地还原人的声纹。
【人工智能】合成人类声音_《环球科学》20

责任编辑:罗凯

人工智能 ARTIFICIAL INTELLIGENCEY

语音不再是人类的专利,机器合成的语音已经可以和真人的相媲美了。

撰文 尼古拉·欧斌(Nicolas Obin)阿克塞尔·罗贝尔(Axel Roebel)翻译 徐寒易

尼古拉·欧斌是巴黎第六大學(université Pierre-et-Marie-Curie)的副教授,同时也是巴黎Ircam声音分析与合成团队的研究员

阿克塞尔·罗贝尔是Ircam的研究员、声音分析与合成团队负责人。

精彩速览

语音的两大关键特征是音色和韵律(重音、停顿/断句、语调、节奏)。利用恰当的数字工具,通过创造或改变语音的特征,我们可以随心所欲地创造或转换一个人的语音。

利用这种技术,我们可以让失声的人再度说话,或者创造出一个人从未说过的话。利用目前技术制作出的语音已经非常自然了。这些技术的应用范围非常广。

数字技术,尤其是声音数字化在语音分析和合成中占据了主导地位。

里士多德曾说,声音是灵魂的镜子。声音是人类最独特的表达方式,它是我们身份的一部分。语调的抑扬顿挫可以流露出一个人的个性和情绪。曾经只有人类才能说话。但是,时过境迁,在过去的20年里,合成语音发展神速,目前,合成语音已经成为数字技术和相关经济产业的重头戏了。合成语音是人机交互的基石,它赋予机器“形象”和“灵魂”,让机器具有“个性”。在不远的未来,从口袋里的手机开始,合成语音将变得无处不在,我们甚至可能无法区分合成语音和真人语音的差别。

数字技术巨头谷歌、苹果、微软和亚马逊是合成语音领域的重量级选手,它们把大量资金投入了与合成语音相关的技术研发领域。我们的智能手机已经能够听懂语音指令,并用合成语音回应我们的问题了。

合成语音未来将会融入私人助理技术,也就是为我们服务,成为帮助我们控制家中联网设备的人工智能。它们总是能随时随地倾听我们的愿望、满足我们的需求。像谷歌助理I/O、苹果的Siri、微软的小娜(Cortana)和亚马逊的Alexa就是这样的例子。

在全世界范围内,有许多大学的实验室都在研究这个课题,例如英国剑桥大学、爱丁堡大学、美国的卡耐基梅隆大学、日本的奈良先端科学技术大学院大学。在这些世界级的选手中,位于法国巴黎的声学、音乐研究和协作学院(简称Ircam)凭借对技术创新和文化艺术的独到融合,脱颖而出。这所学院的独到之处是已经将合成语音应用到了娱乐和内容生产(如音乐、电影和电子游戏)的多个领域中。

虽然数字领域的巨头和一些实验室一直对标准式合成语音的应用感到沾沾自喜,但是Ircam的研究人员却另辟蹊径,从80年代开始就致力于让合成语音更具真人的特征:他们让合成语音也具有声纹、语气、个性和表现力。

近10年里,Ircam的声音分析和合成团队也取得了重大突破。得益于该团队的研究,合成语音变得不再呆板机械,变得更加自然、更富有表现力。而撑起这个质的飞跃的,是信号处理、机器学习和语言学的一系列进步。

生理结构

语音的形成

与发音相关的器官有很多,一般分成两类,肺和气管通过运动激发空气发声;而声带通过自身振动发声。这个过程决定了声音的频率。共振腔(喉、鼻腔以及口腔)能够对声音不同频率的成分进行幅度调制。

目前的语音分析和合成算法已实现升级,它们能够更加忠实地还原人的声纹。另外,我们对语音的韵律,以及它和句法之间的关系有了更深入的了解,这让合成语音变得更加自然。

最后,新近引入的机器学习,以及计算能力的快速提升都对相应技术的飞速发展起到了决定性的作用。目前,在语音数据库中,每个样本都存储着一个人数小时的录音,而一个数据库通常会储存着数以千计的样本,也就是数以千计的人声。正是由于这些积累,现在的机器已经能够像人一样开口说话了。

现在,有许多制片厂都在使用Ircam研发的软件。利用这些软件,人们能够定制语音的声纹、语气、身份和个性。比如,这些软件能够轻而易举地将男人的声音变成女人的,把年轻人的声音变得老态龙钟,或是将老人的声音变得年轻。

用这类软件也能把一个人的声音变成另一个人的。我们的计算机和智能手机就能通过这个软件合成生动自然、具有个性的语音,它们甚至能够帮我们朗读任何文本。

未来,我们还能让无法开口说话的人也发出声音,或者让机器用一个人自己的声音说外语。以后,我们就能像换发型一样随意变声,或者和拥有独一无二的嗓音的机器人自然流畅地交谈。

这些科技进步无疑会成为科技和商业竞争的核心,还有伦理讨论的焦点。而要实现这些进步,研究人员必须先理解人类语音的独特性,并做到善加利用。

人的语音是如何产生的?人的发音器官里包括声带。声带位于喉咙的声门处。当肺部呼出的气体通过气管的时候就会让声带振动从而发出声音。

声带的振动会让空气产生不同程度的压缩。经过压缩的声音向外传播,就会产生具有某种基频(即音高),以及泛音(或者说谐波)的声音。

振动的不规则性、声带肌肉的紧张程度、呼出的气量以及空气湍流的细微特征都会改变音质,让人的声音听起来有不同的效果,比如柔软、紧张、急促、气喘吁吁、沙哑或者失声等。

声门发出的声音首先在声道传播(先是气管,接着是口腔和鼻腔)。人的声道就像一个共振腔,能够放大并修饰声音。声道就像滤波器一样能对声音不同频率的成分进行幅度调制(Amplitude Modulation)。因此,通过声道的声音就会得到修饰,形成不同的音色。每个人都有独特的声道解剖结构,这让每个人的音色都各具特色,就像一种声音签名一样。

另外,音色还取决于口腔里发音器官的结构(包括嘴唇、舌头以及软颚)。控制这些发音器官就能让声道成为交流的工具。为了利用这种工具,每种语言都有各自的一套音素,这是一门语言最基本的单位。

法语里有超过30个音素,如元音音素(如“on”、“un”)、辅音音素(如塞音“b”、“d”、“p”,摩擦音如“f”、“ch”、“s”)。

当一个人说话的时候,他可以控制并改变声道的形状。这样,口腔内的发音器官就会不停地变化,发出不同的音素,形成音节、单词和句子。

同样,声门和声带的活动也能控制韵律(prosody),或者说语音的旋律(包括音高、音强、节奏和音质的变化)。韵律随时间变化,可以构建和组织词语和句子的意义,并让词语和句子带上了不同的色彩。韵律能够体现我们的家乡和社会职业,还会暴露我们的意图和情绪。

雕刻语音

每个人的语音身份由两个要素构成:音色和韵律。要改变一个人的声音,就要对这两个要素进行建模,这样才能复制或者改变一个人的语音。2010年,Ircam的研究人员就研发了一款名为IrcamTools TRAX的软件,它就能实现这样的功能。

这款软件能够对录音或者话筒中的声音信号进行数字处理。在调低或者调高音高后,声音就会变得更低沉或更尖锐。它也能进行数字滤波,改变语音的音色。通过这款软件,使用者能够轻而易举地让声音变性,或者把中年人的声音变成少年或是老年人的。

实际上,由于具有不同的生理特征(身高、身材胖瘦),男性和女性发音器官也有差异,这会影响他们发出的声音。男性的声带更长(大约在17~25毫米之间),声道也更长(平均17厘米)。这样的生理特征使得男性的音高更低(在70~160Hz之间),音色也更低沉。

女性的声带(12.5~17.5毫米)和声道(平均14厘米)均更短。因此女性的音高更高(130~300Hz),音色更“尖锐”。另外,一个的人的声音和身体一样会随着年龄的增加而变化。一个人的嗓音在青少年时更尖细,成年以后音色就会变得低沉,到了老年却又会变得尖细。

通过这些基本原理,软件可以调整声音的音高和音色从而让人产生错觉,以为说话的人变了性别或是改变了年纪。

想要复制老年人特有的嗓音(比如颤音),就需要对数字处理做进一步的修饰。上了年纪的人的发音器官一般不太灵便:他们的声带松弛,因此说话时喘鸣声更重,而且时常会失声发出颤音。

最让人惊讶的是,这种软件能够创造出不是天然存在的声音,比如它能让狮子说人话。这种特效的秘诀在于将人的语音和狮子的吼叫声混合在一起,用狮子的声带声纹特征代替人的,同时保留人的共鸣腔声效。处理后的音效简直让人目瞪口呆:我们可以清楚地听到一个人在说话,但是他的声音里却带着狮子的喘鸣和低吼声。

电影和动画行业的制片工程师经常使用这种方法来处理演员的声音,或者为虚构角色配音。

现在,这些工程师的技术已经更进一步,能够复制演员或者历史人物的声音了。在Ircam,经常有人请求我们用留存的声音资料复活故人的声音。

关键流程

声音身份的转化

目前的技术能够把某人的声音变成某个名人的,或者让它听起来变得更年老或更年轻。当然还可以把某人的声音变成怪兽的。在下面这个例子里,爱丽丝的声音被转化成了伯纳德的。对话泡泡里的竖条代表韵律,底色代表音色。

在这个阶段要获取伯纳德几个小时的录音。

对伯纳德的语音进行分析,将音素分离出来,然后确定每个音素音色相关的滤波器。

为音素及相应滤波器分类。

爱丽丝朗读要转换的文本。如果爱丽丝想要变成伯纳德的声音,那么她要模仿伯纳德说话的韵律。但不管怎样她无法完美地模仿后者的音色。

爱丽丝的每个音素都被分离出来并进行了分析。她的韵律被保留,而音色的滤波器则被替换成了伯纳德的。

最后的声音保留了爱丽丝的韵律,但是却带有伯纳德的音色。

用别人的嗓子说话

韵律和音色可以用来区别不同人的特色。但是,当一个人模仿别人说话时,这两个嗓音特征会起到什么样的作用?当一个人(爱丽丝)模仿另一个人(伯纳德)说话时,其实她主要模仿的是伯纳德语音的韵律。

要想模仿别人的音色不是一件容易的事。因为人的声道尺寸是由生理决定的,每个人都不同。所以,即使是最才华横溢的模仿高手,也无法精确地复制另一个人的音色,仅能大致模仿他说话的韵律。

想要真实地还原一个人的嗓音,就必须复制他的音色。首先,要用伯纳德(被模仿者)的录音建立一套“语音面具”,然后为爱丽丝(模仿者)的声音戴上这种“语音面具”。

这样看来,要复制一个人的嗓音,就必须先收集这个人的录音,组成一个数据库。这些数据会被切成音素,做进一步分析,然后组合出被复制者的声学特征。具体来说,每个音素都有一个“语音面具”(一种声音滤波器),它能够调节声音中不同频率成分的强度比例。

在转换声音身份的时候,只需要将“语音面具”复制粘贴即可。针对爱丽丝的每个音素,系统都会在伯纳德的声音数据库中挑选相应的音素滤波器,从而进行替换。

在爱丽丝的声音数据库中,相应的算法会挑选使转换听起来最逼真的声音滤波器序列。在经过一系列操作和处理后,爱丽丝的声音就有了伯纳德的音色。

新技术

合成语音的生产过程

合成语音很早就出现了,但是它们以前听起来比较生硬不自然。由于最近的科技进步,合成语音现在变得越来越自然生动。

为爱丽丝录几个小时的音。

软件对爱丽丝的语音进行分析,然后把它们切成音素、音节、词语等小单元,接着分析爱丽丝的韵律和音色。

数据库越大,合成语音就越自然生动。

对文本进行分析,然后将其转化为一系列音素、音节……

如果在数据库里,某个语音单元有好几个版本,那么就要挑选最符合上下文语境的音色和韵律的那个。

用算法对信号进行局部润色,让语音单元之间的过渡变得更加平滑,并擦除合成语音中的瑕疵。

这个技术面世后的首个应用就是在电影中再现玛丽莲·梦露(Marilyn Monroe)的嗓音,随后,又在多部电影中重现了多位历史人物的对白。

比如要模仿喜剧演员路易·德菲内斯(Louis de Funès),演员就要模仿他的韵律按照剧本的人物台词表演,此时的声音会被分段记录下来。与此同时,研究人员还利用德菲内斯的历史录音建立起一个长达十分钟的数据库。

通过这个数据库和刚才的一系列处理手段,研究人员就可以利用德菲内斯的声音特征将演员的音色转化成他的样子。而德菲内斯发出的声音就像是最近才录的,但其实,声音的原材料都来自他在上世纪70年代拍的电影。

声音拼图

Ircam的研究人员通过合成语音拓展了语音处理的边界。现在,用录音改变一个人声音的技术已经成熟,如何用合成语音来朗读任意文本却成了最大的问题。

要考据合成语音的历史,可以追溯到18世纪。那时已经出现了汽车和可以发音的机器了。进入20世纪后,电力的出现让这些机器变得更先进、更完美,1939年由贝尔实验室制造的VODER(Voice Operation DEmonstratoR,语音操作演示器)就是其中一例。当计算机出现后,一切又变得自动化了。

还记得斯坦利·库布里克(Stanley Kubrick)执导的电影《2001太空漫游》(2001: A Space Odyssey)中人工智能HAL么?它声音的灵感就来自贝尔实验室在1962年制造的IBM 704合成器。

目前,语音合成系统已经完全实现了自动化,它们能够让数字声音具有个性。语音合成在本质上依赖的是语音数据库,如果要生成合成语音,只需要几个小时的真人录音就可以了。

语音合成和语音转换不同,它不仅要转换现有语音的特征,还要用基础的语音元素完整地重塑语言,朗诵任何文本。目前大多数合成器的基本工作原理都是“基元选取”(unit selection),这非常类似于拼图游戏。

每个基元是一段有特定韵律和音色的口语语料(包括音素、音节、词语等)。语料数据库就像拼图的集合,要有尽量丰富的语料才能满足合成语音时多变的需要。

在为一段文本合成语音时,要找到与文本对应的语料片段,从而进行组合。重组的过程就像爬山涉水一样麻烦:算法要先从数据库中挑选出大量的语料片段,但是语料本身有各自的声学特征,无法直接简单地拼凑到一起。要合成语音一段语音,就要尽量找到那些前后连贯的语料片段。

为了让合成语音听起来自然,既要保证音素之间配合得天衣无缝,还要保证文本本身易于被理解。另外,还要考虑到音素整体表现出的音乐感,也就是韵律。

语音还原的质量主要取决于数据库的容量:每段口语语料的素材数量越多,音素间的连接就越流畅、韵律就越丰满。最后,成品还要经过算法做局部润色,这样才能让语料之间的连接没有明显瑕疵,让断句更流畅。

2000年后,在语言学、信号处理和机器学习方面的进展,使合成语音韵律的建模能力有了惊人的进步。过去的合成语音仅仅勉强能听,现在的合成语音听起来不仅很自然,还很有表现力。

天然和人工之间的界限变得模糊了。在2014年于巴黎科学与工业城举办的展览《La Voix》(声音)上,我们重现了演员安德烈·杜索里埃(André Dussolier)的嗓音。连杜索里埃自己都说,人工合成的语音和真人语言已经没什么差别了。

在机器学习的帮助下,可以用上千种不同的语音创造出“平均”合成语音,当然,也可以用几个不同人的语音制造出混合语音,或者将某人的口音、情绪和说话的风格移花接木到另一个人身上。

这些处理的原理与“基元选取”是类似的,但具体的操作有很大的差异。这类方法并不是采用真人录制的口语语料直接合成语音,而是用一个统计模型来表示一个人的语音。这个统计模型是对语音的数学抽象,通过它可以复制和生成合成各种各样的语音。

利用统计分布规律(正态分布的平均值和方差),就能为每一个音素在声学空间(以音高、持续时间、音强和音色为参数的参数空间)中的分布建模。

选取的语音参数会随着说话的进程变化而变化,为了给这个过程建模还需要用到关于时间序列的模型(如隐马尔可夫模型)。在这类模型里,每个音素都会被分割成一系列“状态”,比如开始、中间、结束,而每个状态都有各自的统计分布。

私人助理

口袋里的翻译官

口袋里的翻译官去日本旅行时,你可能想和当地人交谈。当你拿出手机对着话筒说法语时,扬声器中立刻就用日语传出了你的声音!接着对方拿着你的手机用日语回答,而他的声音在你手机的帮助下,翻译成了你听得懂的法语。

上面这个场景已经可以实现了。2009年,欧洲的EMIME计划(www.emime.org)、IBM、谷歌和Mobile Technologies(语音识别公司,曾推出翻译软件Jibbigo,于2013年被脸书收购)都推出了一系列的语音翻译软件。

它们的基本原理是一系列连贯的操作:转录模块先将话筒接收到的语音消息转录成文本,接着翻译模块将该文本翻译成目标语言,然后合成模块将翻译好的文本念出来,最后手机的扬声器播放合成语音。

翻译模块根据语言规则对文本进行翻译,这和人类翻译员是一样的。但是,语言规则很难被明确地转化为公式。因此,设计者并没有为翻译模块提供一套有限的语言规则,而是让计算机通过海量的双语文本自学。

商博良(注:法国著名历史学家、埃及学家,第一个破解古埃及象形文字的人)借助刻在罗塞塔石碑上的三语文本破译了古埃及象形文字。计算机的翻译方式和商博良是类似的。但是对于计算机来说,可供学习语言规则的语料(包括源于网络的资料)数量远远超出罗塞塔石碑。这些资料每天都在增加,源源不断补充进系统库。

同样,通过机器学习(比如利用有声读物进行学习),转录模块和合成模块能够分别将语音转化为文本并朗诵出来。但它们的功能并不仅限于此。比如当我们遇到陌生人的时候,如果环境嘈杂而对方的口音又很重,一开始几分钟的交谈会显得驴头不对马嘴,但是接下来就会顺畅许多。

也就是,在接收了几秒钟语音后,转录模块就能适应说话人的声音和说话方式,并能够针对环境噪声(安静或是嘈杂)进行调整,从而提高性能。

合成模块也具有适应性,它发出的声音也会具有用户的声学特征。我们已经能够在不会说日语的情况下用日语和日本人交流了,当然你需要用其他语言交流,也没问题。

皮埃尔·兰切廷(Pierre Lanchantin),剑桥大学机器学习实验室

通过声学空间统计参数的组合、插值和自适应,这套系统可以对声音的各项抽象特征进行计算。比如,我们能够利用两个真人语音的统计参数制造出混合语音,也可以将几千个人的语音组合成平均语音。

这种技术进步使文本合成语音的效率发生了翻天覆地的变化:它不再依赖于真人语音,只需要几分钟长度的录音就可以快速合成新的语音。

所以,即便这个人已经无法出声,只要利用几分钟录音资料就能再现他的声音。而且,就算不会说外语,现在的技术已经能实现用本人的声音合成外文语音。

案例

重拾往日妙音

一些和衰老或是基因相关的神经退行性疾病会影响患者的语言功能,有时甚至让他们无法用语言进行交流,即使此时他们的智力和认知功能可能并没有受损。

以物理学家史蒂芬·霍金(Stephen Hawking)为例,他患的是肌萎缩性脊髓侧索硬化症(也叫渐冻人症)。这种症状会导致大脑皮层的运动神经元退化,使人无法发声。

上世纪70年代,霍金曾借助世界上第一批合成语音系统进行交流。虽然他的声音音色一度听起来机械呆板,但是已经完全替换成他本人的发音方式了。

新的技术已经能保留患者的主要声学特征(如音色、语调、重音),让合成语音变得个性化。这些技术采用的是一种简化的语音合成模型。在这个模型中,振动激励(声带振动或是肺部呼气)经过声道共振滤波后被转化为语音。

现在,通过分析录音资料,也可以总结出一些统计学模型。利用这些模型,患者语音中的音素和语境、声带振动频率,或是声道共振等信息就会被转化为相关参数。

从某种意义上讲,这些统计学模型代表的就是说话人的声纹。借助于强大的机器学习工具,只要有几分钟的录音,算法就能为个人的语音建模。

但是,患者常常在退行性症状出现后才意识到要录音,此时,技术的难点在于如何利用含混不清的录音合成出清晰明白的语音。

爱丁堡大学的语音技术研究中心(CSTR)团队最近成功地利用健康人的部分语音合成了患者的声音。这个健康人相当于“捐赠者”,他的声学特征和要与患者相似。这项技术并不是直接利用录音,而是通过统计学的模型,把模型分析的表征和录音结合起来使用。

它的原理很明确,将患者录音的统计学模型中有瑕疵的语音替换为捐赠者的(通常是患者的亲属,比如兄弟姐妹或是子女)。此外,还要用统计分析模块检测需要纠正的部分。这个团队还与安妮·罗林神经医学诊所合作,在50多位患者身上进行了测试。

对患者来说,使用个性化的合成语音能让他们用自己的声音说话,和周围人的交流也变得更顺畅更有质量了。

克里斯托弗·韦奥(Christophe Veaux),爱丁堡大学语音技术研究中心

语音重建是将患者语音模型(左)的瑕疵成分用捐赠者模型(右)的对应成分替代。比如,如果一些音素发音不清,那么可以参考捐赠者模型的参数进行修正。

虽然合成语音已经取得了令人瞩目的成绩,但是,还有进步的空间。在合成语音的过程中,始终需要人力辅助才能得到优良的合成效果。而现在,人工智能、人工神经网络下的深度学习和大数据领域的变革,都为语音合成注入了新鲜的血液。

在人工神经网络技术,或者说神经网络中,学习的硬件设备或者虚拟设备是由一层一层的“神经元”构成的,每个“神经元”都有两种可能的状态。神经元之间相互连结,在学习的过程中算法会对“神经元”的特征进行调整。

在70年代,神经网络被引入到了语音处理中,当时,人们认为这种结构能够模拟大脑的工作方式,从而更好地完成机器学习。然而,神经网络的发展一度受到理论、算法,以及当时十分有限的计算能力的限制。

重归深度学习

近10年,理论进步和计算能力的飞速发展,让神经网络技术再次回到了舞台。

一些为深度神经网络(深度指的是包含多层神经元网络)量身定制的新的学习算法也逐渐出现在人们的眼前。这些深度神经网络的算法非常依赖大数据。

这些技术给了人们很大的想象空间。在未来,我们可能会创造出与真人语音没有差异的数字语音,它甚至能用任何语言传递信息,我们还能根据需求给它赋予独特的个性。

在未来我们可以随心所欲地改变自己的嗓音,我们能与声音无异于真人的智能机器顺畅地进行日常交流。这种机器就像是《灵魂之镜》(miroir de l'âme)的终极版本。

然而,它们到底是天使,还是恶魔呢?这种技术已经引起了一部分人的反感,也引出了这样一个基本问题:在我们的社会中,合成语音以及人性化的机器究竟算什么?

用多人语音合成,或是用别人语音转化而来的声音究竟属于谁?它属于复制人吗,还是改造人?或者应该属于创造它的研究者和工程师?怎样区分合成语音和真人语音的差异?

如果能仿造某人的语音,怎样鉴定语音留言的真实性?合成语音的人格化和机器人的人形外貌一样,也发人深思。如果机器的声音太像真人,我们是否陷入了日本机器人学家森政弘提出的“恐怖谷”怪圈?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈