跳到内容

这个声音不存在 - 生成式语音 AI

发布时间

收听收听本文

最近,生成式 AI 成为热门话题。像 ChatGPT、Stable Diffusion、DALL-E 和 Midjourney 这样的深度学习大模型在科技圈内外引发了广泛关注。许多人认为这些是 AI 领域近期最重要的进展之一。不管你是否同意,大家普遍觉得出现了非常强大的新技术。2023 年,我们会听到更多能帮你画画或生成视频的模型。就像大家总在问最新最强的智能手机一样,很快也会开始讨论最新最强的大模型。不过,尽管大家都很兴奋,我们认为生成式媒体中有一个领域还远未被重视:语音 AI。这也是我们希望引领的方向。在 ElevenLabs,我们每天都在用深度学习技术驱动逼真的 文本转语音语音克隆 工具。现在,我们也上线了自研生成模型,让你从零开始设计全新合成声音。

语音生成器 - 设计声音

用户每天都在平台上为自己的角色赋予生命——无论是有声书、游戏还是同人作品。我们发现目前的说话人库太小,难以满足所有用户的内容需求,同时又要保证专属性。我们的解决方案是让你自由设计全新合成声音。

我们在梳理现有语音合成和语音克隆方法时,想到了解决思路。这两种方式都需要对特定声音的特征进行编码。说话人嵌入就是承载这种身份的向量表示。我们意识到,可以通过训练专用模型,从说话人嵌入的分布中采样,从而生成无限多种新声音。

由于用户大多关注特定的语音特征,我们需要让生成过程可控。我们为模型增加了条件设定,可以根据特征生成声音。现在,模型支持设置一些基础参数,决定新声音的核心特征:性别、年龄、口音、音高和说话风格。也就是说,每次点击“生成”,即使选择相同的基础参数,都会得到一个全新的、前所未有的声音.

以下是用这种方式设计的部分声音示例:

“设计声音”功能将于今年 2 月在 Voice Lab 上线。

有什么用?

我们的工具已经可以生成和真人一样自然的语音,未来人工语音的应用场景只会越来越多。很多新场景,比如新闻或广告配音,都需要某个声音专属于某个品牌或用途,不能被其他地方使用。还有一些场景,比如故事创作和游戏开发,更看重灵活性和早期自由尝试。所以,我们没有去做一个庞大的虚拟说话人库,而是让用户自己决定哪些声音最适合自己的需求。

图书作者不仅可以轻松将作品转为音频,还能自主设计专属旁白,既为读者带来全新互动方式,也大大增加了我们能听到的有声书数量。

新闻出版机构越来越多地涉足音频领域,选择有辨识度的声音代表自己的内容非常重要——很多听众不仅关注内容本身,也重视表达形式。同样重要的是,出版方可以确保某个声音只代表自己。

游戏开发者现在可以为大量原本无声的 NPC 配音,所需工具一应俱全。不仅能节省成本且保证质量,还能设计只属于虚拟世界的独特声音。

广告创意团队需要为不同活动定制旁白,能在开发初期就设计出契合需求的声音是很大的优势。现在可以随时尝试多种声音和表达方式,无需额外资源投入。

创作者 制作各类音频、视频内容,到 企业高管为公司沟通配音,打造独特且专属的音频内容机会无限。

AI 伦理

和语音克隆可能被滥用的担忧类似,越来越多人担心 AI 技术普及会影响专业人士的生计。在 ElevenLabs,我们相信未来配音演员可以授权自己的声音用于特定语音模型训练,并获得报酬。客户和工作室依然会愿意在项目中使用专业配音人才,AI 只会让制作更高效、早期探索更自由。技术会改变语音设计和录制方式,但配音演员无需每次都到场,反而能同时参与更多项目,也能让自己的声音被永久保留。

更重要的是,许多原本因录音成本高而难以发布的书籍、新闻、独立游戏等内容,现在都能通过音频形式被更多人接触。这也为每个领域带来了更广泛的受众。

在 ElevenLabs,我们始终重视知识产权保护,并持续完善技术防护措施,防止被滥用:

  • 我们只与遵守服务条款的客户合作,禁止任何非法或有害用途;
  • 我们正在为所有模型生成的音频添加水印,便于溯源;
  • 我们在使用有辨识度的声音时,仅用于演示且不会引发利益冲突;
  • 同时,我们支持声音所有者及其授权方维护权益,所有已知侵权行为都会被审核和处理。

展望未来——增强自己的声音

未来,我们计划结合语音生成和语音克隆模型,让用户增强自己的声音。你可以克隆自己的声音,并根据需要进行调整。如果觉得自己的语音风格单调,可以增加变化;如果不喜欢被录音,也能让输出更自然。无论是录制演示还是发送语音消息,只需点击按钮,就能用我们的工具生成包含自己声音的音频。

新年快乐

2022 年结束之际,感谢所有内测用户的持续参与和反馈。我们开发的许多功能都来自你的建议。很高兴有你们的支持,祝大家新年快乐。

ElevenLabs Beta
前往 这里 注册我们的 Beta 平台并亲自体验。我们会持续优化,所有用户反馈对我们都非常宝贵。

相关内容

用高质量 AI 音频创作