
首个会笑的 AI
- 分类
- 研究
- 日期
这一进展将帮助全球媒体公司、游戏开发者、出版商和独立创作者大幅提升内容的可访问性。
ElevenLabs,作为全球领先的语音 AI 软件公司,今天推出了全新的多语言语音生成模型,可在近 30 种语言中准确生成“富有情感”的 AI 音频。
这一进展完全基于自研,将帮助创作者为欧洲、亚洲和中东等国际市场制作本地化音频内容。过去 18 个月,ElevenLabs 深入分析了人类语音特征,构建了理解语境和表达情感的新机制,并合成了全新独特的声音。
使用 Eleven Multilingual v2,在 ElevenLabs 文本转语音 平台输入文本时,新模型可自动识别近 30 种书面语言,并以前所未有的真实感生成语音。
同时,无论使用合成声音还是克隆声音,发音者的独特音色和原有口音都能在所有语言中保留。这意味着同一个声音可以为 28 种语言的内容赋予生命。
此次更新是在 专业语音克隆 向所有创作者开放后推出的。该产品更新还带来了更多安全功能,允许用户创建几乎与原声无异的数字分身。现在,用户的声音可以通过多语言模型支持近 30 种语言。
目前支持的语言包括: 中文, 韩语, 荷兰语, 土耳其语, 瑞典语, 印尼语, 菲律宾语, 日语, 乌克兰语, 希腊语, 捷克语, 芬兰语, 罗马尼亚语, 丹麦语, 保加利亚语, 马来语, 斯洛伐克语, 克罗地亚语、经典阿拉伯语和泰米尔语.
这些语言加入了此前已支持的英语, 波兰语, 德语, 西班牙语, 法语, 意大利语, 印地语和葡萄牙语.
随着近期新功能上线和平台持续优化,ElevenLabs 今日也正式宣布平台结束 Beta 阶段。这一转变标志着公司致力于为全球超 100 万用户提供可靠、前沿工具的重要时刻。
展望未来,ElevenLabs 计划推出声音分享机制,让用户在平台上共享声音并参与新音频的开发,促进人机协作。
ElevenLabs CEO 兼联合创始人 Mati Staniszewski 表示:
ElevenLabs 创立的初衷是让所有内容都能用任意语言、任意声音被全球用户访问。Eleven Multilingual v2 的发布让我们距离这一目标又近了一步,让高质量的AI 语音覆盖每一种方言。
我们的文本转语音工具帮助创作者获得高质量语音能力,让更多人用语音表达内容。现在,这些能力已扩展到近 30 种语言的多语言应用。未来,我们希望借助 AI 覆盖更多语言和声音,消除内容的语言障碍。ElevenLabs 相信,这些可访问性的提升将激发更多创意、创新和多样性。
通过降低多语言高质量音频内容的制作成本和门槛,ElevenLabs 让企业和创作者能够创作更具创意、易于访问的内容,跨越文化和语言产生共鸣。
对于独立游戏开发者和发行商,多语言语音生成工具为游戏体验和音频内容的国际化带来新机遇,让玩家和听众能用母语体验内容,同时保证语音质量和准确性。
同样,教育机构现在可以即时为学习者提供目标语言的高质量音频内容,提升语言理解和发音能力,并满足不同教学风格和国际学生的学习需求。
各类创作者都可用 ElevenLabs 工具提升内容可访问性,为视障或有特殊学习需求的人群提供多语言语音辅助。
2023 年 1 月发布的首批 AI 语音工具,支持将任意文本转为语音(可选预设合成音色),并可克隆用户自己的声音。多语言语音合成工具是 ElevenLabs 实现“让所有内容都能用任意语言、任意声音被访问”这一使命的又一步。
这项技术已被多个创意领域和行业采用,包括帮助独立作者制作有声书、为游戏配角配音、支持视障用户访问在线文本内容,以及驱动全球首个 AI 电台频道。ElevenLabs 还与多家领先内容创作者和工作室合作,包括 AI 视频生成平台D-ID,全球最大有声书出版商之一Storytel,开放科学视频平台ScienceCast,其视频生成工具可将arXiv上的科研论文内容浓缩成视频;全球领先内容创作平台TheSoul Publishing,以及知名游戏开发商Embark Studios和Paradox Interactive,以及媒体平台MNTN。