Alla LLM:er som genererar text. SDK:n har inbyggd stream-extraktion för OpenAI (Responses API och Chat Completions API), Anthropic Messages API och Google Gemini API. För andra leverantörer skickar du bara en vanlig sträng eller en async iterable av strängdelar.

Vad är skillnaden mellan Speech Engine och ElevenAgents?

ElevenAgents är en helt hostad plattform där ElevenLabs tillhandahåller LLM, kunskapsbas och verktyg. Speech Engine är för utvecklare som vill använda egen LLM och styra samtalslogiken på sin egen server.

Vilka serverramverk stöds?

I TypeScript kan du koppla Speech Engine till vilken Node.js HTTP-server som helst (Express, Fastify eller vanlig http.createServer()), eller köra en fristående WebSocket-server. I Python erbjuder SDK:n en fristående server via engine.serve(), eller så kan du integrera med FastAPI, Starlette eller valfritt ASGI-ramverk med engine.create_session().

Här är Speech Engine

Gör din chattagent till en röstagent

Kom igång Kontakta säljteamet

Ge din befintliga chattagent en mänsklig röst med bara en prompt. Vi fixar rösten. Din agents LLM, RAG och arkitektur förblir oförändrade.

Lägg till ett röstlager i din befintliga stack

Kom igång

Speech Engine integreras ovanpå din befintliga lösning. Inget behöver byggas om och din textbaserade agent påverkas inte.

Hela röstlagret, i en integration

Speech Engine kombinerar våra ledande modeller för tal, transkribering och röstorkestrering i en pipeline – allt specialbyggt för att fungera bäst tillsammans.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Gör din chatbot bättre med röst

Röst är det snabbaste och mest uttrycksfulla sättet att utbyta information och gör produkter och tjänster mer tillgängliga för kunder.

Smidigt samtalsflöde

Våra röstmodeller är optimerade för samtal och ger ultralåg fördröjning i verkliga miljöer.

Turtagning och hantering av avbrott

Dedikerade modeller hanterar överlappande tal och ändringar mitt i meningen utan att du behöver någon egen logik.

Global täckning på över 70 språk

Få uttrycksfulla, naturliga röster som kan förmedla hela känsloregistret på många olika språk.

En röstlösning testad i miljontals verkliga samtal

Alla komponenter är byggda och optimerade för att fungera bäst tillsammans.

Tal till text

Vår transkriptionsmodell är optimerad för samtal och transkriberar användarens tal med extremt låg fördröjning på 80 ms.

Text to Speech

Uttrycksfulla, mänskliga röster på över 70 språk. Välj bland vårt bibliotek med över 11 000 röster eller skapa egna med Voice Cloning.

Turdetektering

Känner av när användaren har pratat klart eller bara pausar – styr exakt när transkriptionen skickas till din LLM.

Avbrottshantering

Lyssnar efter användarens tal medan agenten pratar. Stoppar uppspelningen och återkopplar direkt när användaren avbryter.

Röstaktivitetsdetektering

Filtrerar tal från bakgrundsljud redan vid inmatningen, så att bara rent ljud når transkriptionsmodellen.

Ljudorkestrering

Hantera hela röstflödet – från att fånga användarens ljud till att leverera agentens svar.

Lägg till Speech Engine i din agent med en prompt

Installera med ett enda kommando med vår skill. Skillet sätter upp allt du behöver så att du kan gå från chatt till röst med en enda prompt.

Server-SDK

Koppla Speech Engine till din server. Ta emot transkriptioner, skicka dem till din LLM och skicka tillbaka svaret – allt på några rader.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs-gränssnitt

Använd färdiga UI-komponenter – agentbubblor, vågformer och chattwidgetar – eller bygg egna ovanpå samma SDK.

Visa ElevenLabs UI

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

Klient-SDK

Starta en samtalssession från webbläsare eller mobilapp på tre rader. Samma klientintegration som ElevenAgents, så du kan uppgradera senare utan ändringar.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Säkerhet i företagsklass

Vår plattform är byggd för storskaliga implementationer med dataskydd på företagsnivå, inklusive stöd för SOC 2, HIPAA och GDPR. EU Data Residency och Zero Retention Mode finns för striktare datakontroll.

Läs mer