跳到内容

Eleven Multilingual v1 全新多语言语音合成模型上线

我们采用更丰富的数据、更强大的算力和创新技术,推出迄今最先进的语音合成模型

Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

今天,我们正式推出 Eleven Multilingual v1 —— 这是一款支持 7 种新增语言的先进语音合成模型:法语, 德语, 印地语, 意大利语, 波兰语, 葡萄牙语,以及西班牙语。基于 Eleven Monolingual v1 的研究成果,我们采用更丰富的数据、更强算力和创新方法,打造出更复杂的模型,能够理解文本细节,呈现情感丰富的表现。这一进步为创作者、游戏开发者和出版方带来更多创作空间,也让生成式媒体更易于本地化、可访问和富有想象力。

新模型已覆盖所有订阅方案,现在可在 Beta 平台体验。

只需在语音合成面板的新增下拉菜单中选择该模型即可使用。

研究概览

与前代产品类似,新模型完全基于我们的自主研究。它保留了Eleven Monolingual v1 作为讲述工具的所有优势,比如可根据语境调整表达、真实还原意图和情感。通过多语言数据训练,这些特性已扩展到新增支持的语言。

该模型的一大亮点是能识别多语言文本并准确表达。现在可以用单条提示词生成多语言语音,同时保持每位说话者独特的音色。为获得最佳效果,建议使用单一语言的提示词。虽然模型已能较好处理多语言混合,但仍有提升空间。

新模型兼容 VoiceLab功能,如即时语音克隆和声音设计。所有创建的声音在不同语言下都能保留大部分原有特征,包括原始口音。

需要注意的是,模型目前存在已知限制:数字、缩写和外来词在非英语语境下有时会默认按英语发音。例如,在西班牙语提示词中输入“11”或“radio”,可能会以英语方式发音。建议将缩写和数字用目标语言拼写,我们也在持续优化。

声音普及化

ElevenLabs 的初衷是让所有内容都能用任意语言、任意声音被每个人访问。我们的团队成员来自欧洲、亚洲和美国。随着团队和世界日益多语言化,我们更加坚定地致力于让高质量AI 语音覆盖所有语言。

我们最新一代文本转语音(TTS)模型只是实现这一愿景的第一步。高质量 AI 语音的出现,让用户和企业都能根据需求、优先级和偏好定制音频内容。这已为创作者、小型企业和独立艺术家带来更多机会。借助 AI 音频,用户可以打造媲美大型机构的高质量听觉体验。

这些优势现已扩展到多语言、多文化和教育场景,帮助用户、企业和机构制作更具真实感的音频,触达更广泛的受众。通过丰富的音色、口音和语言选择,AI 有助于弥合文化差异,促进全球理解。我们相信,这种可访问性将激发更多创意、创新和多元。

内容创作者希望与多元受众互动 现在有了弥合文化差异、促进包容的工具。

游戏开发者出版方可以为全球用户打造沉浸式、本地化体验,突破语言障碍,高效触达玩家和听众,同时保证质量和准确性。

教育机构现在可以为不同用户用目标语言制作音频内容,提升语言理解和发音能力,满足多样教学和学习需求。

无障碍机构可进一步帮助视障或学习障碍人士,将难以获取的资源轻松转换为适合他们的内容和形式。

我们期待看到更多创作者和开发者不断突破 AI 音频的可能性!

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作