联系销售团队登录

多模态对话式 AI 全新上线

作者: Angelo Giacco
发布时间: 2025年5月29日

收听收听本文

0:00

0:000:00

今天，ElevenLabs 正式发布对话式 AI 平台的重要升级：真正实现文本与语音的多模态交互。我们的智能体现已能同时理解和处理语音与文本输入，适用于多种场景，让交互更自然、灵活、高效。

解决纯语音交互的局限

语音是一种强大且直观的沟通方式，仅支持语音的智能体在某些场景下可能会遇到挑战。我们在企业应用中常见以下问题：

转写不准确：仅通过语音准确获取邮箱、ID、快递单号等字母数字信息较难，出错会导致后续流程出现问题，比如查找错误的客户记录。
复杂输入的用户体验：让用户用语音报长串数字（如信用卡号）容易出错，也容易让人感到不便。

多模态的优势：文本与语音结合

支持文本和语音输入后，用户可根据实际需求自由选择输入方式。混合模式让对话更流畅、更可靠。用户既可自然说话，也能在需要精确或更方便时，随时切换为文本输入。

核心优势

文本与语音多模态带来以下主要好处：

交互更准确：可输入难以表达或易出错的信息，减少转写问题。
用户体验提升：交互更灵活，尤其适合敏感或复杂数据输入，减少限制感。
任务完成率提升：减少错误和挫败感，提高成功率。
对话更自然流畅：可无缝切换输入方式，更贴近真实对话习惯。

主要功能

我们的多模态对话式 AI 支持以下功能：

同时处理：智能体可实时理解并响应语音与文本的组合输入。
配置简单：只需在组件设置中开启文本输入即可。
纯文本模式：如有需要，可将智能体设置为传统文本聊天机器人。

无缝集成与部署

全新多模态功能已在平台各处原生支持：

组件：仅需一行 HTML 即可部署。
SDK：为开发者深度集成提供完整支持。
WebSocket：支持多模态的实时双向通信。

基于领先平台构建

多模态交互可充分利用我们对话式 AI 平台的所有创新：

行业领先音色：支持 32 种以上语言的高质量音色。
先进语音模型：结合我们的先进语音转文本和
全球基础设施：已通过 Twilio 和 SIP 中继全球部署。

快速上手

要在 ElevenLabs 对话式智能体:

进入组件配置设置。
开启“允许文本输入”选项。

我们相信，文本+语音多模态将大幅提升对话式 AI 的能力和用户体验。期待看到大家如何用好这一强大新功能。

相关内容

全新对话式 AI 智能体
分类
产品
日期
2024年12月3日
网络研讨会回顾：打造自然的 AI 智能体
分类
产品
日期
2026年7月14日
全新 ElevenAgents Spotlight
分类
产品
日期
2026年7月9日
网络研讨会回顾：让文本聊天机器人拥有自然人声
分类
产品
日期
2026年7月1日

用高质量 AI 音频创作

联系销售团队注册