全新上线:变声器
- 发布时间
Voice Changer 最初叫做语音转语音。在 AI 智能体场景中,“语音转语音”也指由单一模型直接处理音频输入和输出的融合架构。ElevenAgents 平台采用了先进的级联架构。了解更多:级联模型与融合模型。
我们已将
这样可以实现
让声音表达更多情感。

以下是社区成员的使用演示:
变声器的另一个用途是为语音表达提供“参考”。虽然我们的 TTS 通常能直接生成合适的语调,但有时你可能希望进一步微调。此时,变声器可以让你演示某句话的语调,然后让任意音色以同样方式表达。未来我们会将变声器直接集成到 Studio,届时这一功能会更加便捷高效,帮助你更精准地编辑输出。
研究
实现方式是获取人脸图像并映射其属性。下图中的标记点就是用来限定另一张脸渲染范围的。
要将源语音转换为目标语音,需要用目标语音的特征表达源语音内容。可以类比换脸应用,把两个人的脸融合成一张新照片。
做法是提取人脸图像并映射其特征。下图中的标记就是用来限定另一张脸渲染范围的。
产品与最新动态
预设音色调整
我们正在调整文本转语音中的默认音色。部分音色将下线,并陆续上线 20 多种新音色,未来几周持续更新。
我们还将提供每个音色的预计可用时长信息。12 月期间,音色分享和使用补偿功能也会升级,进一步丰富音色选择。更多详情即将公布。
Eleven Turbo v2 与 uLaw 8kHz 格式
Turbo v2 是我们团队数月研究的成果,适用于实时交互,也支持各种场景。同时兼容 IVR 系统常用的(m)uLaw 8kHz 格式。
Studio 支持归一化与元数据
Studio 现已支持行业标准的有声书提交规范,包括增益调整和动态压缩。还可在 Studio 项目中直接嵌入元数据(ISBN、作者、标题)。
发音词典
这是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换(别名)指定发音。词典文件采用行业标准的开放 .PLS
Turbo v2 英文模型目前支持 IPA 和 CMU。所有模型和语言均支持词语替换。完整文档见
发音词典是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换指定发音。词典文件采用行业标准的开放 .PLS 词汇文件格式.
欢迎在 Discord 上反馈建议!此处.
随心表达,用完全不同的音色呈现,细致掌控表现力。可捕捉耳语、笑声、口音和细微情感。




