
GCP 承诺金现可用于 ElevenLabs 语音 AI 模型
- 分类
- 产品
- 日期
Voice Changer 最初叫做语音转语音。在 AI 智能体场景中,“语音转语音”也指由单一模型直接处理音频输入和输出的融合架构。ElevenAgents 平台采用了先进的级联架构。了解更多:级联模型与融合模型。
我们已将
让声音表达更多情感。

以下是社区成员的使用演示:
变声器的另一个用途是为语音表达提供“参考”。虽然我们的 TTS 通常能直接生成合适的语调,但有时你可能希望进一步微调。此时,变声器可以让你演示某句话的语调,然后让任意音色以同样方式表达。未来我们会将变声器直接集成到 Studio,届时这一功能会更加便捷高效,帮助你更精准地编辑输出。
研究
要将源语音转换为目标语音,需要用目标语音的特征表达源语音内容。可以类比换脸应用,把两个人的脸融合成一张新照片。
做法是提取人脸图像并映射其特征。下图中的标记就是用来限定另一张脸渲染范围的。
产品与最新动态
预设音色调整
Eleven Turbo v2 与 uLaw 8kHz 格式
Turbo v2 是我们团队数月研究的成果,适用于实时交互,也支持各种场景。同时兼容 IVR 系统常用的(m)uLaw 8kHz 格式。
Studio 现已支持行业标准的有声书提交规范,包括增益调整和动态压缩。还可在 Studio 项目中直接嵌入元数据(ISBN、作者、标题)。
这是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换(别名)指定发音。词典文件采用行业标准的开放 .PLS
发音词典是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换指定发音。词典文件采用行业标准的开放 .PLS 词汇文件格式.
欢迎在 Discord 上反馈建议!此处.
随心表达,用完全不同的音色呈现,细致掌控表现力。可捕捉耳语、笑声、口音和细微情感。