跳到内容

声音转换

让一个人用另一个人的声音说话

A man wearing glasses and headphones speaking into a microphone, smiling.

什么是声音转换?

声音转换可以将一个人的声音变成另一个人的声音。它通过语音克隆技术对目标声音进行编码,也就是我们要转换成的声音,然后生成与目标说话者身份相符、但又保留原始语调的语音内容。

应用场景

高质量的声音转换和语音克隆技术有望改变内容在各行业的制作、分发和互动方式。它们可以优化制作时间和成本,同时为贡献声音数据训练算法的人带来被动收益。

  • 在影视制作中,演员可以将自己的声音数据库分享给制片方,无需到现场或录音棚就能生成音轨;
  • 配音错误的台词可以在后期更高效地重新录制;
  • 这项技术还可以在虚构场景中还原历史人物的声音,或让已故演员“重现”荧幕;
  • 在游戏开发中,同样可以用这项技术即时修正台词或进行实验,无需演员到场录音;
  • 在医疗领域,因喉癌等原因失语的患者有机会再次用自己的声音交流;
  • 虚拟助手也能实现个性化,家庭用户可以选择用亲人的声音与其互动,更加自然;
  • 广告行业也能通过合成旁白,既能做到接近真人效果,又能避免版权和分成问题。如果需要特定知名声音,也可以通过技术在获得同意后克隆演员声音,无需长时间录音;
  • 有声书和播客等行业同样可以通过语音克隆和声音转换技术优化内容制作和编辑流程。

ElevenLabs 声音转换

虽然我们在 ElevenLabs 开发了声音转换软件作为工具包的一部分,但我们对语音克隆和语音合成的研究,主要是为了推动我们计划明年初发布的核心产品——保留说话者身份的自动配音工具。

我们的目标是让所有语音内容都能用原说话者的声音跨语言呈现,一键完成。比如,一段英文教育类 YouTube 视频,如果观众只会西班牙语(但对内容感兴趣),字幕虽然能解决部分问题,但我们希望带来更沉浸、更有趣的体验。我们想要实现,即使说话者不会西班牙语,也能自然地用母语级别的西班牙语表达同样的信息。

为此,语音克隆可以帮助我们保留说话者的声音特征。我们用它来生成不同语言的新语音,让听起来像是同一个人在说话。

声音转换则用于保留说话者的情感、意图和表达风格,提升沉浸感。我们训练多语言模型,能够解析源语言语音,并用正确的语调映射到目标语言。

流程

要将一个人的声音转换为另一个人的声音,也就是将源语音变为目标语音,需要算法用目标语音的特征表达源语音内容。可以类比换脸应用,把两个人的面部特征融合成一张新脸。

具体做法是提取面部图像并映射其特征。下图中的点就是用来限定另一张脸特征的范围。

在声音转换中,算法需要编码目标语音的特征。算法通过大量目标语音样本进行训练,将这些样本分解到最基础的层面——可以理解为语音的“原子”。语音由句子组成,句子由单词组成,单词由音素组成,音素决定了目标语音的特征。算法正是在这个层面上工作。

声音转换的关键在于用目标语音的音素来表达源语音内容。但这和换脸一样有取舍:映射点越多,限制越多,映射点越少,限制越少。声音转换也是如此,越偏向目标语音,越可能与源语音不同步;偏向源语音,则可能丢失目标语音的特征。例如,如果用 Morgan Freeman 的声音还原一个人在愤怒大喊的录音,过于强调源语音的情感,就会失去 Morgan Freeman 的感觉;过于强调他的语音风格,又会丢失原本的情绪。

伦理

语音克隆的伦理问题值得关注,技术被滥用的风险让越来越多人担忧。2020 年,诈骗分子用音频深度伪造冒充 CEO 电话指令,骗取 3500 万美元。能让某人“说出”未曾说过的话,自然会引发关于虚假信息、诽谤或欺诈的担忧。同样,声音转换如果允许用户在未获声音所有者同意的情况下获利,也会带来版权争议。

在 ElevenLabs,我们始终致力于防止技术被恶意使用,并采取措施降低风险:

  • 我们只与遵守服务条款的客户合作,禁止任何用于虚假信息、诽谤、欺诈或其他非法、有害目的的恶意使用;
  • ElevenLabs 生成的合成视频内容会明确标注 AI 生成,音频内容也有清晰的文件说明。演示中使用知名声音时,仅限于无利益冲突的场景;
  • 同时,我们也支持声音所有者及其授权方维护自身权益。
  • 如果你有改进建议,欢迎通过以下方式联系我们:ethics@elevenlabs.io

我们认为,对技术滥用的担忧不应成为主导新技术态度的唯一因素。更重要的是,在开发阶段就引入合适的保护措施,最大限度降低风险,同时让技术为更多人带来价值。

未来展望

声音转换和语音克隆技术有望改变影视、电视、内容创作、游戏开发、播客、有声书和广告等行业。它们的应用还将拓展到医疗、教育和沟通等领域。

语音克隆正在推动一个全新未来——任何内容都能用任意语言和声音生成,触达全球用户,创造全新经济模式。ElevenLabs 的目标就是助力实现这一未来。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作