跳到内容

首个会笑的 AI

我们的模型能表达独特情感

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

在上一篇中,我们展示了由语音合成工具生成的几段长音频样本,并简要介绍了模型独特设计如何让语音更自然流畅、不像机器人。今天将展示它比其他产品更具情感、更懂语境。这不仅让听感更有吸引力,也适用于有声书、游戏配音、广告等多种场景。

情感

模型的流畅度和语调都得益于丰富的训练数据(超过 50 万小时!),但核心在于模型的学习方式和结构。它能理解文本中的情感,并判断说话者应表现为开心、生气、难过还是中性。比如:

所有语调和情绪的变化都仅由文本决定,没有其他因素影响。标点和词义在表达方式上起主导作用。注意,当说话者因胜利而开心时,模型还能自然生成笑声等非正常语音(我们很快会发布 AI 各种笑声的合集!)。同样,当说话者觉得某事特别好笑时,模型也会适当夸张反应,比如“太好笑了’.

语境

仅仅理解单个词的意思还不够。我们的模型同样能感知每句话的上下文——通过前后文判断内容是否合理。这种整体视角让模型能为多句内容统一情感基调,正确表达长段落,就像我们之前展示的长内容一样。同时还能避免逻辑错误。例如,有些词拼写相同但含义不同,比如“read”现在时和过去时,或“minute”指时间单位或微小。具体含义要根据语境判断:

书面语与口语

为了满足长内容需求,我们还让模型理解,书面常见的符号、缩写等在朗读时应有特定读法,不能照字面念。例如,FBI、TNT、ATM 的发音和 UNESCO、NASA 不同。同样,$3tr 写出来没问题,但朗读时应变成“三万亿美元”.

人工干预

识别这些细微差别很重要,因为我们的目标是尽量减少生成过程中的人工干预。毕竟,我们宣传几分钟生成有声书,不是让人再听一遍音频、重写全部文本。虽然我们持续优化模型发音规则,但偶尔还是会遇到难题。为此,我们正在开发不确定性标记系统,让用户能即时看到模型识别有问题的文本,并教它正确读法。

无限应用场景

这些能力都是让我们的软件成为最灵活 AI 配音工具的基础。

新闻出版商 已发现提升音频内容有助于留住订阅用户。每篇文章配音后,用户可以边做其他事边收听。许多出版商用配音演员,成本高,无法覆盖所有文章;或让记者自己朗读,耗时也贵。有些用合成语音,省钱但牺牲了质量。现在,使用 ElevenLabs,无需妥协,两者兼得。

还可以在几分钟内生成有声书,为每个角色配上有情感的独特旁白。这不仅带来全新阅读体验,也让有学习障碍的人更易获取内容。

想象一下,游戏开发者再也不用考虑某个角色是否值得花高价请真人配音。所有 NPC 都能拥有独特声音和个性。

广告公司和制作方可以灵活调整旁白,适配任何活动的风格——无论是体育频道还是奢侈品牌。任何演员的声音都可授权克隆,随时修改,无需演员到场。如果选择全合成声音,也不用担心额外的声音授权费用。

虚拟助手通过语音克隆,不仅能用用户熟悉的声音说话,表达也更自然,互动体验更真实。

ElevenLabs Beta

点击这里注册体验我们的 Beta 平台。我们持续优化产品,欢迎反馈建议。欢迎试用!

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作