
ElevenLabs 推出全新生成式语音 AI 产品,并宣布完成 1,900 万美元 A 轮融资,领投方包括 Nat Friedman、Daniel Gross 和 Andreessen Horowitz
- 分类
- 公司
- 日期
我们刚刚从今年的 INTERSPEECH 大会回来,这是我们迄今为止最好的机会,展示并获得大家对我们近几个月研发成果的反馈。
能与行业顶尖专家交流、分享想法,并建立未来合作关系,让我们收获颇丰。我们还遇到了很多优秀的初创团队,大家都在语音克隆、文本转语音(TTS)、语音转换(VC)等领域深耕(比如 Supertone 和 LOVO)。同时也很高兴能和 Meta、Google 等成熟企业交流 TTS 和 VC 软件背后的研发细节。
我们直接进入正题。大家对我们工作的热情远超预期,让我们非常开心。接下来的四天里,我们围绕上述三大语音技术领域分享了研究进展,这也是我们开发自动配音工具的关键第一步,1.0 版本计划明年初发布。
对我们来说,最重要的是证明我们能高质量还原声音——也就是算法训练用的原始声音数据,与合成生成的声音在音色上高度一致。其次,我们还要证明 TTS 工具正朝着打造最自然、最接近真人的合成语音平台迈进,具备出色的语调和韵律表现。
前者很重要,因为新生成的语音需要能被准确识别为某个人说的——也就是要还原说话人的身份。韵律和语调同样关键,因为语气和节奏能传递说话意图,这正是让语音听起来像真人的核心。我们的目标不仅是让程序流畅发音,还要让语音带有合适的情感,让人感觉它真的“懂”自己在说什么。
下面可以看到我们在大会上用到的TTS 演示。第一个链接是原始视频,后面是我们用不同声音合成的同一内容。需要说明的是,这是文本转语音,不是语音转换。我们只输入了原视频的文字内容,生成你听到的语音。所有韵律和语调都由算法自动生成,没有后期处理。你能听出来是谁的声音吗?
关于 Eleven TTS 技术的更多内容,我们将在下一篇专门介绍文本转语音生成的文章中详细说明。
如果你喜欢我们的技术,想要成为内测用户,可以点击这里报名.
原始音频:
Eleven Labs 语音克隆 TTS:
大会前几个月,我们几乎把全部精力都放在了技术样例和原创研究的展示上。毕竟 INTERSPEECH 是研究型大会,我们坚持内容优先,尤其是在这样专业的场合。大会当天,我们还开玩笑说,过于专注技术让我们的品牌展示显得有点极简。后来发现,包括大公司在内,很多团队也都选择了更低调的方式,这让我们松了口气。
韩国之行对 Eleven 来说非常成功,也让我们更有动力继续前进。我们已经开始期待明年在研究和展示方式上的新进展。希望到那时,我们能推出高质量的配音工具,让大家用自己的声音说出不会的语言。