这个声音不存在 - 生成式语音 AI

发布时间: 2023年1月11日

收听收听本文

0:00

0:000:00

最近，生成式 AI 成为热门话题。像 ChatGPT、Stable Diffusion、DALL-E 和 Midjourney 这样的深度学习大模型在科技圈内外引发了广泛关注。许多人认为这些是 AI 领域近期最重要的进展之一。不管你是否同意，大家普遍觉得出现了非常强大的新技术。2023 年，我们会听到更多能帮你画画或生成视频的模型。就像大家总在问最新最强的智能手机一样，很快也会开始讨论最新最强的大模型。不过，尽管大家都很兴奋，我们认为生成式媒体中有一个领域还远未被重视：语音 AI。这也是我们希望引领的方向。在 ElevenLabs，我们每天都在用深度学习技术驱动逼真的文本转语音和语音克隆工具。现在，我们也上线了自研生成模型，让你从零开始设计全新合成声音。

语音生成器 - 设计声音

用户每天都会在平台上让角色“活”起来，无论是用于

我们在梳理现有语音合成和语音克隆方法时，想到了解决思路。这两种方式都需要对特定声音的特征进行编码。说话人嵌入就是承载这种身份的向量表示。我们意识到，可以通过训练专用模型，从说话人嵌入的分布中采样，从而生成无限多种新声音。

由于用户大多关注特定的语音特征，我们需要让生成过程可控。我们为模型增加了条件设定，可以根据特征生成声音。现在，模型支持设置一些基础参数，决定新声音的核心特征：性别、年龄、口音、音高和说话风格。也就是说，每次点击“生成”，即使选择相同的基础参数，都会得到一个全新的、前所未有的声音.

以下是用这种方式设计的部分声音示例：

“设计声音”功能将于今年 2 月在 Voice Lab 上线。

有什么用？

我们的工具已经可以生成和真人一样自然的语音，未来人工语音的应用场景只会越来越多。很多新场景，比如新闻或广告配音，都需要某个声音专属于某个品牌或用途，不能被其他地方使用。还有一些场景，比如故事创作和游戏开发，更看重灵活性和早期自由尝试。所以，我们没有去做一个庞大的虚拟说话人库，而是让用户自己决定哪些声音最适合自己的需求。

图书作者不仅可以轻松将作品转为音频，还能自主设计专属旁白，既为读者带来全新互动方式，也大大增加了我们能听到的有声书数量。

新闻出版机构越来越多地涉足音频领域，选择有辨识度的声音代表自己的内容非常重要——很多听众不仅关注内容本身，也重视表达形式。同样重要的是，出版方可以确保某个声音只代表自己。

游戏开发者现在可以为大量原本无声的 NPC 配音，所需工具一应俱全。不仅能节省成本且保证质量，还能设计只属于虚拟世界的独特声音。

广告创意团队需要为不同活动定制旁白，能在开发初期就设计出契合需求的声音是很大的优势。现在可以随时尝试多种声音和表达方式，无需额外资源投入。

从创作者制作各类音频、视频内容，到企业高管为公司沟通配音，打造独特且专属的音频内容机会无限。

AI 伦理

和语音克隆可能被滥用的担忧类似，越来越多人担心 AI 技术普及会影响专业人士的生计。在 ElevenLabs，我们相信未来配音演员可以授权自己的声音用于特定语音模型训练，并获得报酬。客户和工作室依然会愿意在项目中使用专业配音人才，AI 只会让制作更高效、早期探索更自由。技术会改变语音设计和录制方式，但配音演员无需每次都到场，反而能同时参与更多项目，也能让自己的声音被永久保留。

更重要的是，许多原本因录音成本高而难以发布的书籍、新闻、独立游戏等内容，现在都能通过音频形式被更多人接触。这也为每个领域带来了更广泛的受众。

在 ElevenLabs，我们始终重视知识产权保护，并持续完善技术防护措施，防止被滥用：

我们只与遵守服务条款的客户合作，禁止任何非法或有害用途；
我们正在为所有模型生成的音频添加水印，便于溯源；
我们在使用有辨识度的声音时，仅用于演示且不会引发利益冲突；
同时，我们支持声音所有者及其授权方维护权益，所有已知侵权行为都会被审核和处理。

展望未来——增强自己的声音

未来，我们计划结合语音生成和语音克隆模型，让用户增强自己的声音。你可以克隆自己的声音，并根据需要进行调整。如果觉得自己的语音风格单调，可以增加变化；如果不喜欢被录音，也能让输出更自然。无论是录制演示还是发送语音消息，只需点击按钮，就能用我们的工具生成包含自己声音的音频。

新年快乐

2022 年结束之际，感谢所有内测用户的持续参与和反馈。我们开发的许多功能都来自你的建议。很高兴有你们的支持，祝大家新年快乐。

ElevenLabs Beta
前往这里注册我们的 Beta 平台并亲自体验。我们会持续优化，所有用户反馈对我们都非常宝贵。

这个声音不存在 - 生成式语音 AI

语音生成器 - 设计声音

有什么用？

AI 伦理

展望未来——增强自己的声音

新年快乐

相关内容

了解 Scribe

认识 Flash

新增三种语言：匈牙利语、越南语和挪威语

全新 Eleven Turbo v2.5 上线