跳到内容

Dust 利用 ElevenLabs 为 AI 驱动的企业流程加入多语言语音

用语音优先的 AI 拓展访问和提升效率

Dust logo

尘埃作为面向 AI 原生企业的操作系统,Dust 现已支持多语言语音输入和输出,由 ElevenLabs 提供技术支持。Dust 专为将模型融入日常工作而设计,需要能跨语言、设备和场景,低延迟、高还原度的语音能力。

这不是尝试性的功能。多次收到客户需求后,语音成为产品重点。最终实现了通勤时免手操作智能体、多语言全球团队协作,以及适用于异步流程的专业音频输出。

企业场景下语音的重要性

Dust 总结了工作场景下语音的四项关键需求:

  • 自然音质,经得起考验:语音输出需专业、自然,适合用于客户邮件、播客或产品演示。
  • 默认多语言:团队分布全球,日常切换法语、英语、德语等语言应成为常态。
  • 低延迟:无论输入还是输出,响应速度需跟上思考和对话节奏。
  • 企业级数据处理:不保留数据、按区域路由,并符合 SOC2 和 GDPR 合规要求,缺一不可。

Dust 选择 ElevenLabs 的原因

评估了 OpenAI、Google、Deepgram、AssemblyAI 等服务后,Dust 选择了 ElevenLabs,因其音质更优、部署更快:

  • 文本转语音 音色始终保持高还原度和丰富情感,满足 Dust 的语音生成和音频工作室工具需求。
  • 语音转文本 支持 99 种转写语言,跨语言准确率高。
  • 零数据留存 和多区域路由,开箱即用满足企业合规。
  • 生产级 SDK 和 API 支持快速集成,跨平台表现稳定。

Dust 如何集成语音能力

Dust 在两大核心流程中实现了语音支持:

1. 语音输入:与智能体对话

通过 ElevenLabs 的 scribe_v1 模型,用户可用麦克风与智能体对话。系统自动识别语音语言、转写内容,并智能分发请求,甚至能从自然语音中识别智能体名称。

语音输入已支持移动端,适合不便打字的场景。

2. 语音输出:智能体生成音频

通过 Speech Generator,Dust 智能体可用 ElevenLabs 的 eleven_multilingual_v2 和 eleven_v3 模型生成音频内容。输出包括播客、简报、叙述类音频,适用于内部使用和外部分享。

Sound Studio 基于 文本音效生成,为训练和内容场景增加非语言音频层。

Dust 的经验总结

  • 区域路由很重要:支持 EU/US 区域选择后,延迟降低,合规沟通更顺畅。
  • 精选优于数量:精选 12 种音色,减少选择疲劳,核心需求全覆盖。
  • 音质优先于速度:即使有更快的模型,用户仍更倾向于用高保真音色生成正式内容。

实现的能力

  • 移动优先的高效协作:随时记录想法,移动中协作。
  • 多语言协作:用自己的语言自然交流,智能体自动处理后续。
    无障碍、异步流程:将研究内容转为音频,降低输入门槛,支持多样工作方式。

后续计划

Dust 正在探索实时对话式语音智能体、更深入的音频理解(超越转写),以及支持会议、演讲等长文本输入。通过集成 ElevenLabs,Dust 让语音无缝融入企业 AI。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作