全新上线：变声器

收听收听本文

0:00

0:000:00

Voice Changer 最初叫做语音转语音。在 AI 智能体场景中，“语音转语音”也指由单一模型直接处理音频输入和输出的融合架构。ElevenAgents 平台采用了先进的级联架构。了解更多：级联模型与融合模型。

我们已将

这样可以实现

让声音表达更多情感。

以下是社区成员的使用演示：

变声器的另一个用途是为语音表达提供“参考”。虽然我们的 TTS 通常能直接生成合适的语调，但有时你可能希望进一步微调。此时，变声器可以让你演示某句话的语调，然后让任意音色以同样方式表达。未来我们会将变声器直接集成到 Studio，届时这一功能会更加便捷高效，帮助你更精准地编辑输出。

研究

要将源语音转换为目标语音，需要用目标语音的特征表达源语音内容。可以类比换脸应用，把两个人的脸融合成一张新照片。

做法是提取人脸图像并映射其特征。下图中的标记就是用来限定另一张脸渲染范围的。

产品与最新动态

预设音色调整

Eleven Turbo v2 与 uLaw 8kHz 格式

Turbo v2 是我们团队数月研究的成果，适用于实时交互，也支持各种场景。同时兼容 IVR 系统常用的（m）uLaw 8kHz 格式。

Studio 现已支持行业标准的有声书提交规范，包括增益调整和动态压缩。还可在 Studio 项目中直接嵌入元数据（ISBN、作者、标题）。

这是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签，支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典，可上传文件，用 IPA、CMU 或词语替换（别名）指定发音。词典文件采用行业标准的开放 .PLS

发音词典是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签，支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典，可上传文件，用 IPA、CMU 或词语替换指定发音。词典文件采用行业标准的开放 .PLS 词汇文件格式.

欢迎在 Discord 上反馈建议！此处.

随心表达，用完全不同的音色呈现，细致掌控表现力。可捕捉耳语、笑声、口音和细微情感。