跳到内容

全新上线:变声器

自由控制情感、节奏和表达方式,将声音变成另一种角色。

Voice Changer 最初叫做语音转语音。在 AI 智能体场景中,“语音转语音”也指由单一模型直接处理音频输入和输出的融合架构。ElevenAgents 平台采用了先进的级联架构。了解更多:级联模型与融合模型

我们已将

这样可以实现

让声音表达更多情感。

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

以下是社区成员的使用演示:

变声器的另一个用途是为语音表达提供“参考”。虽然我们的 TTS 通常能直接生成合适的语调,但有时你可能希望进一步微调。此时,变声器可以让你演示某句话的语调,然后让任意音色以同样方式表达。未来我们会将变声器直接集成到 Studio,届时这一功能会更加便捷高效,帮助你更精准地编辑输出。

研究

实现方式是获取人脸图像并映射其属性。下图中的标记点就是用来限定另一张脸渲染范围的。

要将源语音转换为目标语音,需要用目标语音的特征表达源语音内容。可以类比换脸应用,把两个人的脸融合成一张新照片。

做法是提取人脸图像并映射其特征。下图中的标记就是用来限定另一张脸渲染范围的。

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

产品与最新动态

预设音色调整

我们正在调整文本转语音中的默认音色。部分音色将下线,并陆续上线 20 多种新音色,未来几周持续更新。

我们还将提供每个音色的预计可用时长信息。12 月期间,音色分享和使用补偿功能也会升级,进一步丰富音色选择。更多详情即将公布。

Eleven Turbo v2 与 uLaw 8kHz 格式

Turbo v2 是我们团队数月研究的成果,适用于实时交互,也支持各种场景。同时兼容 IVR 系统常用的(m)uLaw 8kHz 格式。

Studio 支持归一化与元数据

Studio 现已支持行业标准的有声书提交规范,包括增益调整和动态压缩。还可在 Studio 项目中直接嵌入元数据(ISBN、作者、标题)。

发音词典

这是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换(别名)指定发音。词典文件采用行业标准的开放 .PLS

Turbo v2 英文模型目前支持 IPA 和 CMU。所有模型和语言均支持词语替换。完整文档见

发音词典是呼声最高的功能之一。上月我们为英文模型加入了 SSML 标签,支持用 IPA 和 CMU 词典指定发音。现在 Studio UI 已支持发音词典,可上传文件,用 IPA、CMU 或词语替换指定发音。词典文件采用行业标准的开放 .PLS 词汇文件格式.

欢迎在 Discord 上反馈建议!此处.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

随心表达,用完全不同的音色呈现,细致掌控表现力。可捕捉耳语、笑声、口音和细微情感。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作