跳到内容

Voice Design - 首个音频生成式 AI

首个用于创建合成声音的生成式模型现已上线

上个月我们宣布即将推出用于声音创作的生成式模型。现在终于上线,这是同类首创,我们称之为声音设计。该功能可让你从零开始自定义声音,选择性别、年龄、口音等核心特征。即使核心参数相同,每次生成时模型都会加入随机性,确保每个声音都独一无二。Voice Design 旨在为出版方和创作者提供更灵活的 AI 故事创作工具。

声音设计

Voice Design 背后的模型主要源自我们在语音合成和语音克隆领域的研究,同时我们一直希望有一款生成式语音工具。虽然生成式文本转图像和聊天机器人模型已被广泛应用,但音频领域一直缺乏类似工具。自产品上线以来,我们不断收到添加更多说话人的需求。与其让声音库变得臃肿、让你反复试听,我们决定反其道而行,让你自己决定说话人身份,同时还能在这些条件下实现无限变化。

为声音选择增加一定的可控性很重要,因为用户经常需要特定的语音特征来配合脚本。确保每个生成的声音都独特同样关键,许多场景需要或受益于专属声音。除了为用户提供新的创作方式,Voice Design 生成的声音完全为人工合成,不属于任何真实人物。

应用场景

除了用我们的核心语音合成工具轻松将文字转为高质量音频外,图书作者现在可以用 Voice Design 自由把控旁白风格,为每个角色定制专属声音。

新闻出版方进入音频领域时需要为报道选择合适的声音。旁白往往代表媒体形象,选定后很少更换。Voice Design 让出版方可以即时挑选、对比无数旁白,还能确保专属声音只代表自己。

游戏开发者无需再为某个角色是否值得录音而纠结。成千上万个原本无声的 NPC 现在都能拥有独特个性,进一步提升虚拟沉浸感。

无论你是内容创作者准备发布新作,还是企业管理者需要为公司沟通配音,现在都能为不同场景和受众设计真实、有吸引力的音频,可能性无限。

生态系统

Voice Design 是我们今年计划推出的多项旁白编辑功能之一。接下来将上线工作室,这是我们全新的工作台,可用于整理长文本、插入停顿、重新生成音频片段、为不同说话人分配文本。Studio 预计 3 月底上线,第二季度还将支持语调编辑。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作