联系销售团队登录

让 AI 像人一样自然交流的交互模型

最后更新 2026年5月12日 • 阅读时间 1 分钟

Dan Hegedus, Growth

介绍我们如何打造实时交流的 AI 系统，涵盖轮流对话、延迟、表达方式等背后的技术决策，以及已上线的模型。

Introduction models blog cover

Introduction models blog cover

我们多年来一直在为这个方向努力。本文介绍已发布的内容，以及背后的研究和产品决策。

我们的旗舰产品 —— ElevenAgents 搭载 v3 Conversational

我们的旗舰产品 —— 搭载 v3 Conversational 的 ElevenAgents

Expressive Mode - Mark - Personal Loan Inbound（紧急）- launch asset.mp4

要让交互系统顺畅运行并实现自然互动，需要同时满足以下三点：

要让交互系统顺畅运行并实现自然互动，需同时满足以下三点：

*仅指模型推理时延。实际端到端延迟会因地理位置和终端类型等因素有所不同。

亚秒级响应。 ElevenAgents 在内部测试中响应时间低于 100 毫秒，电话集成目标低于 200 毫秒。我们的最快文本转语音模型 Flash v2.5 推理时延约为 75 毫秒*。
支持打断的轮流对话。为避免过早打断，需要轮流机制既考虑停顿，也关注正在说的话。
自然且富有表现力的输出。模型需根据场景，给出合适的语气、语速和情感。

已发布的部分功能

我们已上线的部分功能

预测性轮流对话。 v3 Conversational 的独立功能，在用户静默时提前触发 LLM 响应生成，降低感知延迟。

Flash v2.5。我们最快的文本转语音模型，专为低延迟实时场景设计，推理时延约为 75 ms。*

Scribe v2。我们的语音转文本模型，具备行业领先的准确率。

ElevenAgents 表现力模式。支持智能体通过 [laughs]、[whispers]、[sighs]、[slow] 等标签，灵活控制语音表现。

ElevenAgents 表现力模式。支持智能体使用 [laughs]、[whispers]、[sighs]、[slow] 等表现力标签，灵活控制语音表达。

ElevenAgents Expressive Mode。支持智能体通过 [laughs]、[whispers]、[sighs]、[slow] 等表达标签，灵活控制语音表现。

未来方向

许多 AI 对话仍像是在查询，而真实对话并非如此。我们正致力于缩小这一差距。

许多 AI 对话仍像在提问。真正的交流并非如此。我们正在努力缩小这个差距。

查看更多 ElevenLabs 团队的文章

Eleven v3 音频标签：表达语音中的情感语境

分类: 资源
日期: 2025年6月11日

Scribe v2 Realtime

Scribe v2 Realtime 全新发布

分类: 研究
日期: 2025年11月11日

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3 正式上线

分类: 研究
日期: 2026年2月2日

Eleven Multilingual v1 全新多语言语音合成模型上线

分类: 研究
日期: 2023年4月27日

用高质量 AI 音频创作

联系销售团队注册