在关键的一集曼德罗瑞《星球大战》(Star Wars)的一部电视剧,讲述了一个神秘的绝地武士在一群邪恶的机器人中杀出一条血路的故事。当剧中的英雄们焦急地等待着他们披着斗篷的救世主的身份时,他放下了兜帽,剧透了——他们遇到了年轻的卢克·天行者。
事实上,我们看到的是一个动画版的绝地武士。然后卢克说话了,他的声音听起来非常像上世纪80年代的那个角色,这要归功于语音技术初创公司Respeecher开发的先进机器学习模型。Respeecher首席技术官Dmytro Bielievtsov表示:“没有人注意到它是由机器生成的。”“这是好事。”
Respeecher是开发系统的几家公司之一,该系统使用神经网络模拟特定说话者的声音,然后应用该模型,创造出听起来像那个人的语音,即使这个人从未真正说出被说话的话。深度造假技术的潜在用途令人不安,因此Respeecher在将该技术应用于语音之前,会谨慎地获得个人的批准。该公司和其他类似的公司也在研究数字水印和其他技术,以表明样品已经合成。
这种语音克隆系统有许多积极的应用。英国语音处理教授西蒙·金(Simon King)观察到:“如果你知道自己可能会因为手术或医疗状况而失声,那么你就可以提前录下来,创建自己声音的模型,让合成的语音听起来像你。爱丁堡大学。
一些公司正在进一步推动这项技术,开发能够自动将对话配音成其他语言的系统,同时保留原说话者的声音特征。尽管仍然存在许多挑战,但语音识别、翻译和合成技术的进步已经加快了该领域的进展,这表明在未来几年我们可能会听到更微妙的合成声音。
卡耐基梅隆大学语言技术研究所的计算机科学家艾伦·布莱克说,研究人员至少在三十年里一直致力于开发语音到语音的自动翻译。在21世纪初,美国国防高级研究计划局(DARPA)资助了一个旨在开发通用翻译器的项目。布莱克说,相关团队在从英语翻译到阿拉伯语和伊拉克方言方面取得了重大进展,但也存在局限性,它从未达到在伊拉克普及的通用翻译器的流畅功能《星际迷航》。
“它和你看到的完全不一样《星际迷航》但它实际上适用于句子级别的翻译,从某种意义上说,有针对性的非专业用户可以从中获得一些东西,”布莱克说。
自动生成与原文不同的语言语音的过程需要几个步骤。首先,语音识别将原始音频转换为文本(想想Siri)。然后,机器翻译技术将文本转换为目标语言(谷歌Translate在这一领域取得了显著的进步,但它仍然非常复杂,因为语序等特征可能因语言而异)。最后,文本到语音(TTS)系统生成自然的、个性化的音频。
在过去,TTS技术的工作原理是从一个巨大的音频数据库中提取,该数据库由预先录制的短语组成,并将其分解成片段。为了从文本中生成语音,系统将从数据库中提取适当的音频片段并将它们拼接在一起。结果往往是刻板的机器人对话,缺乏人类语言的停顿、音调变化、韵律和整体流动特征。
最近TTS技术的突破使得声音听起来更加自然。通常,TTS分为两个步骤。文本被转换为声学特征,通常以声谱图的形式,然后应用一种称为声码器的工具将声谱图转换为音频。
谷歌的Tacotron 2模型代表了第一步的突破,它与总部位于伦敦的DeepMind合作,通过一种名为WaveNet的工具推动了第二步的进展,该工具使用神经网络将声学特征转换为音频样本。由这些模型而不是拼接在一起的片段生成的语音更真实、更人性化。今天,香港科技大学的计算机科学家Brian Mak说,有其他基于神经网络的声码器的性能和WaveNet一样好。
亚马逊随后也取得了自己的进展,使用神经网络方法为Alexa生成听起来更自然的语音,并根据上下文调整程序的声音风格。例如,Alexa现在在转播新闻或时事时的声音与谈论刚刚播放的歌曲时的声音不同。
香港科技大学的Mak开发了一个系统,可以生成不同语言的语音,同时保留原始说话者的特征。他的团队用2380人的音频样本训练他们的模型,每个人只提供20分钟的训练演讲;然后,该系统通过将每个人的声音转换为包含128种不同品质和特征的高维向量来建模。这些不是像音高和音调这样的标准品质;相反,机器学习模型在原始音频数据中识别每个声音的区别特征。Mak解释说,这些载体不能完全用人类的术语来解释。“现在,这听起来像魔术,但如果我们必须确切地说出矢量中的数字代表什么,这就非常困难了,”Mak说。
该系统不包括翻译,但如果你想从一个说英语的人那里生成广东话,Mak解释道,然后你输入广东话文本,生成的音频听起来就像说话者用另一种语言说的一样。根据Mak的说法,如果说话者对训练集有贡献,这项技术的效果最好,但对于没有帮助训练模型的随机说话者,它也有大约50%的时间是有效的。
位于以色列特拉维夫的初创公司Deep-dub正在开发一种技术,可以将电影、电视剧和其他视频内容快速配音成其他语言。为了创建演员的声音模型,Deepdub系统将声音样本分割成片段,然后通过映射该演员说话风格的神经网络运行样本。这进而生成一个模型,可以应用于语音翻译,然后合成为其他语言。该系统映射了音高、节奏、音色、表现力和情感等变量。
“如果你只是把自动转录、翻译和语音合成联系在一起,你最终会积累太多错误。”
Deepdub首席营收官Oz Krakowski赞同Mak的观点,认为机器学习模型识别的一些品质是人类无法识别的。克拉科夫斯基说:“我们必须用多少词汇来描述声音风格是有限的。”“这台机器有更多的东西,它可以映射成千上万种不同的特定项目。”
该公司表示,其技术能够从两到五分钟的高质量音频中生成完整的语音风格。然而,这并不会立即带来科幻小说中描述的那种完美翻译。克拉科夫斯基表示,Deepdub技术消除了机器生成语音的常见缺点,如声音中的停顿、金属音制品和不自然的声音。然而,一个声音样本的表达能力越强——例如,叫喊或情绪化地恳求——挑战就越大。该公司对输出进行了微调,以使结果的质量达到好莱坞标准。审稿人标记出任何需要调整的片段,然后有效地指示模型专注于该特定区域,并纠正语音片段。
爱丁堡大学(University of Edinburgh)的金(King)解释说,总部位于英国伦敦的语音配音公司Papercup也让人类参与其中。金是该组织的顾问。例如,除了其他应用程序和用例之外,Papercup还创建了来自数字出口的时效性新闻报道的配音版本内幕在几小时内,将英语新闻片段翻译成西班牙语,这极大地增加了该媒体的覆盖面。“他们将让人类在语音识别、翻译和合成过程中的所有阶段进行纠正,”金说。“如果你只是把自动转录、翻译和语音合成联系在一起,你最终会积累太多错误。”
Deepdub和Papercup的目标都是减少这些评审迭代的次数,加速过程。Deepdub希望能够将使用传统配音演员将一部电影配音成另一种语言所需的时间从15到20周缩短到3周左右。
今年,Deepdub将使用其技术将流媒体服务Topic的多个外语节目配音成英语。Papercup也在扩大其客户群,Respeecher计划在此基础上扩大其客户群星球大战通过推出自己的配音解决方案和画外音工具获得成功,该工具可以让演员用其他声音表演和生成语音。
金说:“如果你加入一些人工,并加以修正,你就可以满足市场的某些部分,但要实现完美的转录,然后是完美的机器翻译和合成,还需要相当长的时间。”
进一步的阅读
布林(A.)和夏尔马(N.)
如何让Alexa听起来更像人类,亚马逊回复:MARS,https://www.youtube.com/watch?v=FdVYnhzvQtQ
刘铮,麦斌。
基于语音克隆的跨语言多说话人文本-语音合成,不使用平行语料库,ICASSP 2020, 2019年11月26日,https://arxiv.org/abs/1911.11601
国王,S。
衡量文本-语音转换技术十年的进展。Loquens2014年1月,https://doi.org/10.3989/loquens.2014.006
范登奥德(A.)和迪勒曼(S.)
Wavenet:原始音频的生成模型,DeepMind博客,2016年9月8日,https://bit.ly/3pXZNzm
王宇,王玉华等。
Tacotron:迈向端到端语音合成,InterSpeech 2017;https://arxiv.org/abs/1703.10135
©2022 0001 - 0782/22/5 ACM
允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.
没有发现记录