
IT 服务商自动化 92% 的来电
- 分类
- 客户案例
- 日期
Speech Engine 可直接集成到现有技术栈,无需重构,文本智能体保持不变。

Speech Engine 将领先的语音、转写和语音编排模型整合为一套流程,全部为协同工作专门打造。
语音是最快、信息量最丰富的交流方式,让产品和服务更易触达用户。
我们的语音模型专为对话优化,在真实环境下实现超低延迟。
专用模型可处理语音重叠和句中切换,无需自定义逻辑。
支持多语言,呈现富有表现力、接近人声的情感语音。
每个组件都为协同优化,配合使用效果最佳。
转写模型针对对话场景优化,可在超低 80 毫秒延迟下转写用户语音。
支持 70 多种语言的自然语音。可从 11,000 多个声音库中选择,或用语音克隆自定义音色。
可区分说话结束与停顿,精准控制何时将转写内容发送给 LLM。
在智能体说话时监听用户语音,用户插话时立即停止播放并快速响应。
输入端过滤背景噪音,仅保留清晰语音供转写模型处理。
全程管理语音流程,从采集用户音频到输出智能体语音回复。
只需一条命令即可安装我们的技能,自动完成所需配置,让你一条提示词即可从聊天切换到语音。
将 Speech Engine 集成到服务器,接收转写内容,传递给 LLM,再返回回复,几行代码即可完成。
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);
浏览器或移动端三行代码即可开启对话会话。与 ElevenAgents 客户端集成方式一致,后续升级无需改动。
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));
支持所有输出文本的 LLM。SDK 内置 OpenAI(Responses API、Chat Completions API)、Anthropic Messages API 和 Google Gemini API 的流式提取。其他服务商可直接传入字符串或异步字符串流。
ElevenAgents 是全托管平台,由 ElevenLabs 提供 LLM、知识库和工具。Speech Engine 适合希望自带 LLM 并自定义对话逻辑的开发者。
TypeScript 可将 Speech Engine 挂载到任意 Node.js HTTP 服务器(Express、Fastify 或 http.createServer()),或独立运行 WebSocket 服务器。Python 版 SDK 提供 engine.serve() 独立服务,也可通过 engine.create_session() 集成 FastAPI、Starlette 或任意 ASGI 框架。
