今天,ElevenLabs 正式发布对话式 AI 平台的重要升级:真正实现文本与语音的多模态交互。我们的智能体现已能同时理解和处理语音与文本输入,适用于多种场景,让交互更自然、灵活、高效。
解决纯语音交互的局限
语音是一种强大且直观的沟通方式,仅支持语音的智能体 在某些场景下可能会遇到挑战。我们在企业应用中常见以下问题:
- 转写不准确: 仅通过语音准确获取邮箱、ID、快递单号等字母数字信息较难,出错会导致后续流程出现问题,比如查找错误的客户记录。
- 复杂输入的用户体验: 让用户用语音报长串数字(如信用卡号)容易出错,也容易让人感到不便。
多模态的优势:文本与语音结合
支持文本和语音输入后,用户可根据实际需求自由选择输入方式。混合模式让对话更流畅、更可靠。用户既可自然说话,也能在需要精确或更方便时,随时切换为文本输入。
核心优势
文本与语音多模态带来以下主要好处:
- 交互更准确:可输入难以表达或易出错的信息,减少转写问题。
- 用户体验提升:交互更灵活,尤其适合敏感或复杂数据输入,减少限制感。
- 任务完成率提升:减少错误和挫败感,提高成功率。
- 对话更自然流畅:可无缝切换输入方式,更贴近真实对话习惯。
主要功能
我们的多模态对话式 AI 支持以下功能:
- 同时处理:智能体可实时理解并响应语音与文本的组合输入。
- 配置简单:只需在组件设置中开启文本输入即可。
- 纯文本模式:如有需要,可将智能体设置为传统文本聊天机器人。
无缝集成与部署
全新多模态功能已在平台各处原生支持:
- 组件:仅需一行 HTML 即可部署。
- SDK:为开发者深度集成提供完整支持。
- WebSocket:支持多模态的实时双向通信。
基于领先平台构建
多模态交互可充分利用我们对话式 AI 平台的所有创新:
- 行业领先音色:支持 32 种以上语言的高质量音色。
- 先进语音模型:集成最前沿的语音转文本和文本转语音技术。
- 全球基础设施:已通过 Twilio 和 SIP 中继全球部署。
快速上手
要在 ElevenLabs 对话式 智能体:
- 进入组件配置设置。
- 开启“允许文本输入”选项。
我们相信,文本+语音多模态将大幅提升 对话式 AI 的能力和用户体验。期待看到大家如何用好这一强大新功能。