支持所有输出文本的 LLM。SDK 内置 OpenAI（Responses API、Chat Completions API）、Anthropic Messages API 和 Google Gemini API 的流式提取。其他服务商可直接传入字符串或异步字符串流。

Speech Engine 和 ElevenAgents 有什么区别？

ElevenAgents 是全托管平台，由 ElevenLabs 提供 LLM、知识库和工具。Speech Engine 适合希望自带 LLM 并自定义对话逻辑的开发者。

支持哪些服务器框架？

TypeScript 可将 Speech Engine 挂载到任意 Node.js HTTP 服务器（Express、Fastify 或 http.createServer()），或独立运行 WebSocket 服务器。Python 版 SDK 提供 engine.serve() 独立服务，也可通过 engine.create_session() 集成 FastAPI、Starlette 或任意 ASGI 框架。

全新 Speech Engine

让聊天智能体支持语音

立即开始联系销售

只需一句提示词，即可为现有聊天智能体添加拟人语音。我们负责语音部分，智能体的 LLM、RAG 和架构均无需更改。

为现有系统添加语音层

立即开始

Speech Engine 可直接集成到现有技术栈，无需重构，文本智能体保持不变。

完整语音层，一次集成即可

Speech Engine 将领先的语音、转写和语音编排模型整合为一套流程，全部为协同工作专门打造。

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

为聊天机器人加入语音能力

语音是最快、信息量最丰富的交流方式，让产品和服务更易触达用户。

流畅对话体验

我们的语音模型专为对话优化，在真实环境下实现超低延迟。

轮流对话与打断处理

专用模型可处理语音重叠和句中切换，无需自定义逻辑。

覆盖全球 70 多种语言

支持多语言，呈现富有表现力、接近人声的情感语音。

经过数百万真实对话验证的语音技术

每个组件都为协同优化，配合使用效果最佳。

语音转文本

转写模型针对对话场景优化，可在超低 80 毫秒延迟下转写用户语音。

文本转语音

支持 70 多种语言的自然语音。可从 11,000 多个声音库中选择，或用语音克隆自定义音色。

轮次检测

可区分说话结束与停顿，精准控制何时将转写内容发送给 LLM。

打断处理

在智能体说话时监听用户语音，用户插话时立即停止播放并快速响应。

语音活动检测

输入端过滤背景噪音，仅保留清晰语音供转写模型处理。

音频协同管理

全程管理语音流程，从采集用户音频到输出智能体语音回复。

一条提示词集成 Speech Engine 到智能体

只需一条命令即可安装我们的技能，自动完成所需配置，让你一条提示词即可从聊天切换到语音。

服务器 SDK

将 Speech Engine 集成到服务器，接收转写内容，传递给 LLM，再返回回复，几行代码即可完成。

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs 界面

直接使用预置 UI 组件（智能体球、波形、聊天窗口），也可基于同一 SDK 自定义开发。

查看 ElevenLabs 界面

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

客户端 SDK

浏览器或移动端三行代码即可开启对话会话。与 ElevenAgents 客户端集成方式一致，后续升级无需改动。

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

企业级安全保障

平台专为大规模部署设计，具备企业级数据保护，支持 SOC 2、HIPAA 和 GDPR 合规。可选欧盟数据驻留和零留存模式，满足更高数据管控需求。

了解更多

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

一站式平台，支持多渠道体验

语音引擎

极致灵活

自有 LLM 与流程编排
同款对话 SDK
自定义 RAG 与业务逻辑

立即开始

ElevenAgents

极致性能

全托管 LLM
内置工具与知识库
非开发者专用控制台
内置电话功能
最低延迟

了解智能体

让聊天智能体支持语音