
认识 Flash
- 分类
- 研究
- 日期
声音转换可以将一个人的声音变成另一个人的声音。它通过语音克隆技术对目标声音进行编码,也就是我们要转换成的声音,然后生成与目标说话者身份相符、但又保留原始语调的语音内容。
高质量的声音转换和语音克隆技术有望改变内容在各行业的制作、分发和互动方式。它们可以优化制作时间和成本,同时为贡献声音数据训练算法的人带来被动收益。
虽然我们在 ElevenLabs 开发了声音转换软件作为工具包的一部分,但我们对语音克隆和语音合成的研究,主要是为了推动我们计划明年初发布的核心产品——保留说话者身份的自动配音工具。
我们的目标是让所有语音内容都能用原说话者的声音跨语言呈现,一键完成。比如,一段英文教育类 YouTube 视频,如果观众只会西班牙语(但对内容感兴趣),字幕虽然能解决部分问题,但我们希望带来更沉浸、更有趣的体验。我们想要实现,即使说话者不会西班牙语,也能自然地用母语级别的西班牙语表达同样的信息。
为此,语音克隆可以帮助我们保留说话者的声音特征。我们用它来生成不同语言的新语音,让听起来像是同一个人在说话。
声音转换则用于保留说话者的情感、意图和表达风格,提升沉浸感。我们训练多语言模型,能够解析源语言语音,并用正确的语调映射到目标语言。
要将一个人的声音转换为另一个人的声音,也就是将源语音变为目标语音,需要算法用目标语音的特征表达源语音内容。可以类比换脸应用,把两个人的面部特征融合成一张新脸。
具体做法是提取面部图像并映射其特征。下图中的点就是用来限定另一张脸特征的范围。
在声音转换中,算法需要编码目标语音的特征。算法通过大量目标语音样本进行训练,将这些样本分解到最基础的层面——可以理解为语音的“原子”。语音由句子组成,句子由单词组成,单词由音素组成,音素决定了目标语音的特征。算法正是在这个层面上工作。
声音转换的关键在于用目标语音的音素来表达源语音内容。但这和换脸一样有取舍:映射点越多,限制越多,映射点越少,限制越少。声音转换也是如此,越偏向目标语音,越可能与源语音不同步;偏向源语音,则可能丢失目标语音的特征。例如,如果用 Morgan Freeman 的声音还原一个人在愤怒大喊的录音,过于强调源语音的情感,就会失去 Morgan Freeman 的感觉;过于强调他的语音风格,又会丢失原本的情绪。
语音克隆的伦理问题值得关注,技术被滥用的风险让越来越多人担忧。2020 年,诈骗分子用音频深度伪造冒充 CEO 电话指令,骗取 3500 万美元。能让某人“说出”未曾说过的话,自然会引发关于虚假信息、诽谤或欺诈的担忧。同样,声音转换如果允许用户在未获声音所有者同意的情况下获利,也会带来版权争议。
在 ElevenLabs,我们始终致力于防止技术被恶意使用,并采取措施降低风险:
我们认为,对技术滥用的担忧不应成为主导新技术态度的唯一因素。更重要的是,在开发阶段就引入合适的保护措施,最大限度降低风险,同时让技术为更多人带来价值。
声音转换和语音克隆技术有望改变影视、电视、内容创作、游戏开发、播客、有声书和广告等行业。它们的应用还将拓展到医疗、教育和沟通等领域。
语音克隆正在推动一个全新未来——任何内容都能用任意语言和声音生成,触达全球用户,创造全新经济模式。ElevenLabs 的目标就是助力实现这一未来。
