首个会笑的 AI

发布时间: 2022年11月24日

收听收听本文

0:00

0:000:00

联系销售

了解更多

在上一篇中，我们展示了由语音合成工具生成的几段长音频样本，并简要介绍了模型独特设计如何让语音更自然流畅、不像机器人。今天将展示它比其他产品更具情感、更懂语境。这不仅让听感更有吸引力，也适用于有声书、游戏配音、广告等多种场景。

情感

模型的流畅度和语调都得益于丰富的训练数据（超过 50 万小时！），但核心在于模型的学习方式和结构。它能理解文本中的情感，并判断说话者应表现为开心、生气、难过还是中性。比如：

所有语调和情绪的变化都仅由文本决定，没有其他因素影响。标点和词义在表达方式上起主导作用。注意，当说话者因胜利而开心时，模型还能自然生成笑声等非正常语音（我们很快会发布 AI 各种笑声的合集！）。同样，当说话者觉得某事特别好笑时，模型也会适当夸张反应，比如“太好笑了’.

语境

仅仅理解单个词的意思还不够。我们的模型同样能感知每句话的上下文——通过前后文判断内容是否合理。这种整体视角让模型能为多句内容统一情感基调，正确表达长段落，就像我们之前展示的长内容一样。同时还能避免逻辑错误。例如，有些词拼写相同但含义不同，比如“read”现在时和过去时，或“minute”指时间单位或微小。具体含义要根据语境判断：

书面语与口语

为了满足长内容需求，我们还让模型理解，书面常见的符号、缩写等在朗读时应有特定读法，不能照字面念。例如，FBI、TNT、ATM 的发音和 UNESCO、NASA 不同。同样，$3tr 写出来没问题，但朗读时应变成“三万亿美元”.

人工干预

识别这些细微差别很重要，因为我们的目标是尽量减少生成过程中的人工干预。毕竟，我们宣传几分钟生成有声书，不是让人再听一遍音频、重写全部文本。虽然我们持续优化模型发音规则，但偶尔还是会遇到难题。为此，我们正在开发不确定性标记系统，让用户能即时看到模型识别有问题的文本，并教它正确读法。

无限应用场景

这些能力都是让我们的软件成为最灵活 AI 配音工具的基础。

新闻出版商已发现提升音频内容有助于留住订阅用户。每篇文章配音后，用户可以边做其他事边收听。许多出版商用配音演员，成本高，无法覆盖所有文章；或让记者自己朗读，耗时也贵。有些用合成语音，省钱但牺牲了质量。现在，使用 ElevenLabs，无需妥协，两者兼得。

还可以在几分钟内生成有声书，为每个角色配上有情感的独特旁白。这不仅带来全新阅读体验，也让有学习障碍的人更易获取内容。

想象一下，游戏开发者再也不用考虑某个角色是否值得花高价请真人配音。所有 NPC 都能拥有独特声音和个性。

广告公司和制作方可以灵活调整旁白，适配任何活动的风格——无论是体育频道还是奢侈品牌。任何演员的声音都可授权克隆，随时修改，无需演员到场。如果选择全合成声音，也不用担心额外的声音授权费用。

虚拟助手通过语音克隆，不仅能用用户熟悉的声音说话，表达也更自然，互动体验更真实。

ElevenLabs Beta

点击这里注册体验我们的 Beta 平台。我们持续优化产品，欢迎反馈建议。欢迎试用！

首个会笑的 AI

情感

语境

书面语与口语

人工干预

无限应用场景

ElevenLabs Beta

相关内容

Eleven Multilingual v1 全新多语言语音合成模型上线

这个声音不存在 - 生成式语音 AI

声音转换

让 AI 像人一样自然交流的交互模型