Eleven 亮相 INTERSPEECH 2022

发布时间: 2022年10月5日

收听收听本文

0:00

0:000:00

现场回顾

我们刚刚从今年的 INTERSPEECH 大会回来，这是我们迄今为止最好的机会，展示并获得大家对我们近几个月研发成果的反馈。

能与行业顶尖专家交流、分享想法，并建立未来合作关系，让我们收获颇丰。我们还遇到了很多优秀的初创团队，大家都在语音克隆、文本转语音（TTS）、语音转换（VC）等领域深耕（比如 Supertone 和 LOVO）。同时也很高兴能和 Meta、Google 等成熟企业交流 TTS 和 VC 软件背后的研发细节。

我们直接进入正题。大家对我们工作的热情远超预期，让我们非常开心。接下来的四天里，我们围绕上述三大语音技术领域分享了研究进展，这也是我们开发自动配音工具的关键第一步，1.0 版本计划明年初发布。

对我们来说，最重要的是证明我们能高质量还原声音——也就是算法训练用的原始声音数据，与合成生成的声音在音色上高度一致。其次，我们还要证明 TTS 工具正朝着打造最自然、最接近真人的合成语音平台迈进，具备出色的语调和韵律表现。

前者很重要，因为新生成的语音需要能被准确识别为某个人说的——也就是要还原说话人的身份。韵律和语调同样关键，因为语气和节奏能传递说话意图，这正是让语音听起来像真人的核心。我们的目标不仅是让程序流畅发音，还要让语音带有合适的情感，让人感觉它真的“懂”自己在说什么。

TTS 演示

下面可以看到我们在大会上用到的TTS 演示。第一个链接是原始视频，后面是我们用不同声音合成的同一内容。需要说明的是，这是文本转语音，不是语音转换。我们只输入了原视频的文字内容，生成你听到的语音。所有韵律和语调都由算法自动生成，没有后期处理。你能听出来是谁的声音吗？

关于 Eleven TTS 技术的更多内容，我们将在下一篇专门介绍文本转语音生成的文章中详细说明。

如果你喜欢我们的技术，想要成为内测用户，可以点击这里报名.

原始音频：

Eleven Labs 语音克隆 TTS：

内容为先

大会前几个月，我们几乎把全部精力都放在了技术样例和原创研究的展示上。毕竟 INTERSPEECH 是研究型大会，我们坚持内容优先，尤其是在这样专业的场合。大会当天，我们还开玩笑说，过于专注技术让我们的品牌展示显得有点极简。后来发现，包括大公司在内，很多团队也都选择了更低调的方式，这让我们松了口气。

明年再见

韩国之行对 Eleven 来说非常成功，也让我们更有动力继续前进。我们已经开始期待明年在研究和展示方式上的新进展。希望到那时，我们能推出高质量的配音工具，让大家用自己的声音说出不会的语言。

Eleven 亮相 INTERSPEECH 2022

现场回顾

TTS 演示

内容为先

明年再见

相关内容

ElevenLabs 入选迪士尼加速器项目

ElevenLabs 推出全新语音 AI 产品，并完成 8,000 万美元 B 轮融资

ElevenLabs Grants - 立即申请

加入 ElevenLabs Voice AI 黑客松，尽在 lablab.ai