
首个会笑的 AI
- 分类
- 研究
- 日期
今天,我们正式推出 Eleven Multilingual v1 —— 这是一款支持 7 种新增语言的先进语音合成模型:法语, 德语, 印地语, 意大利语, 波兰语, 葡萄牙语,以及西班牙语。基于 Eleven Monolingual v1 的研究成果,我们采用更丰富的数据、更强算力和创新方法,打造出更复杂的模型,能够理解文本细节,呈现情感丰富的表现。这一进步为创作者、游戏开发者和出版方带来更多创作空间,也让生成式媒体更易于本地化、可访问和富有想象力。
新模型已覆盖所有订阅方案,现在可在 Beta 平台体验。
只需在语音合成面板的新增下拉菜单中选择该模型即可使用。
与前代产品类似,新模型完全基于我们的自主研究。它保留了Eleven Monolingual v1 作为讲述工具的所有优势,比如可根据语境调整表达、真实还原意图和情感。通过多语言数据训练,这些特性已扩展到新增支持的语言。
该模型的一大亮点是能识别多语言文本并准确表达。现在可以用单条提示词生成多语言语音,同时保持每位说话者独特的音色。为获得最佳效果,建议使用单一语言的提示词。虽然模型已能较好处理多语言混合,但仍有提升空间。
新模型兼容 VoiceLab功能,如即时语音克隆和声音设计。所有创建的声音在不同语言下都能保留大部分原有特征,包括原始口音。
需要注意的是,模型目前存在已知限制:数字、缩写和外来词在非英语语境下有时会默认按英语发音。例如,在西班牙语提示词中输入“11”或“radio”,可能会以英语方式发音。建议将缩写和数字用目标语言拼写,我们也在持续优化。
ElevenLabs 的初衷是让所有内容都能用任意语言、任意声音被每个人访问。我们的团队成员来自欧洲、亚洲和美国。随着团队和世界日益多语言化,我们更加坚定地致力于让高质量AI 语音覆盖所有语言。
我们最新一代文本转语音(TTS)模型只是实现这一愿景的第一步。高质量 AI 语音的出现,让用户和企业都能根据需求、优先级和偏好定制音频内容。这已为创作者、小型企业和独立艺术家带来更多机会。借助 AI 音频,用户可以打造媲美大型机构的高质量听觉体验。
这些优势现已扩展到多语言、多文化和教育场景,帮助用户、企业和机构制作更具真实感的音频,触达更广泛的受众。通过丰富的音色、口音和语言选择,AI 有助于弥合文化差异,促进全球理解。我们相信,这种可访问性将激发更多创意、创新和多元。
内容创作者希望与多元受众互动 现在有了弥合文化差异、促进包容的工具。
游戏开发者和出版方可以为全球用户打造沉浸式、本地化体验,突破语言障碍,高效触达玩家和听众,同时保证质量和准确性。
教育机构现在可以为不同用户用目标语言制作音频内容,提升语言理解和发音能力,满足多样教学和学习需求。
无障碍机构可进一步帮助视障或学习障碍人士,将难以获取的资源轻松转换为适合他们的内容和形式。
我们期待看到更多创作者和开发者不断突破 AI 音频的可能性!