Welche LLMs werden unterstützt?

Jedes LLM, das Text erzeugt. Das SDK bietet integrierte Stream-Extraktion für OpenAI (Responses API und Chat Completions API), Anthropic Messages API und Google Gemini API. Für andere Anbieter übergeben Sie einfach einen String oder ein asynchrones Iterable von String-Chunks.

Was ist der Unterschied zwischen Speech Engine und ElevenAgents?

ElevenAgents ist eine vollständig gehostete Plattform, bei der ElevenLabs das LLM, die Wissensdatenbank und die Tools bereitstellt. Speech Engine richtet sich an Entwickler, die ihr eigenes LLM nutzen und die Gesprächslogik auf dem eigenen Server steuern möchten.

Welche Server-Frameworks werden unterstützt?

In TypeScript können Sie Speech Engine an jeden Node.js HTTP-Server (Express, Fastify oder plain http.createServer()) anbinden oder einen eigenständigen WebSocket-Server betreiben. In Python stellt das SDK einen eigenen Server über engine.serve() bereit oder Sie integrieren es mit FastAPI, Starlette oder jedem ASGI-Framework über engine.create_session().

Speech Engine vorgestellt

Machen Sie aus Ihrem Chat-Agenten einen Sprach-Agenten

Jetzt starten Vertrieb kontaktieren

Fügen Sie Ihrem bestehenden Chat-Agenten mit nur einer Eingabe eine natürliche Stimme hinzu. Wir übernehmen die Sprachausgabe. Das LLM, RAG und die Architektur Ihres Agenten bleiben unverändert.

Fügen Sie Ihrer bestehenden Infrastruktur eine Voice-Ebene hinzu

Jetzt starten

Speech Engine integriert sich in Ihren bestehenden Stack. Es ist keine Umstrukturierung nötig und Ihr textbasierter Agent bleibt unverändert.

Die komplette Voice-Ebene in einer Integration

Speech Engine vereint unsere führenden Modelle für Sprache, Transkription und Voice-Orchestrierung in einer Pipeline – speziell entwickelt, um optimal zusammenzuarbeiten.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Erweitern Sie Ihren Chatbot um Sprache

Sprache ist der schnellste und vielseitigste Weg, Informationen auszutauschen und macht Produkte und Services für Kunden zugänglicher.

Nahtloser Gesprächsfluss

Unsere Voice-Modelle sind für Gespräche optimiert und liefern extrem niedrige Latenz in realen Umgebungen.

Gesprächssteuerung und Unterbrechungsmanagement

Spezielle Modelle verarbeiten überlappende Sprache und Satzwechsel, ohne dass Sie eigene Logik implementieren müssen.

Weltweite Abdeckung in über 70 Sprachen

Nutzen Sie ausdrucksstarke, natürlich klingende Stimmen mit vollem Emotionsspektrum in vielen Sprachen.

Eine Voice-Plattform, erprobt in Millionen realer Gespräche

Jede Komponente ist darauf ausgelegt, optimal zusammenzuarbeiten.

Speech to Text

Unser Transkriptionsmodell ist auf höchste Genauigkeit bei Gesprächen optimiert und transkribiert Sprache mit einer extrem niedrigen Latenz von 80 ms.

Text to Speech

Ausdrucksstarke, menschenähnliche Stimmen in über 70 Sprachen. Wählen Sie aus unserer Stimmbibliothek mit über 11.000 Stimmen oder erstellen Sie eigene mit KI-Stimme klonen.

Turn-Erkennung

Erkennt, ob der Nutzer fertig gesprochen hat oder nur pausiert – steuert genau, wann das Transkript an Ihr LLM gesendet wird.

Unterbrechungsmanagement

Überwacht Nutzersprache, während der Agent spricht. Stoppt die Wiedergabe und reagiert sofort, wenn der Nutzer unterbricht.

Sprachaktivitätserkennung

Filtert Sprache bereits beim Eingang von Hintergrundgeräuschen, sodass nur sauberes Audio das Transkriptionsmodell erreicht.

Audio-Orchestrierung

Steuert den gesamten Voice-Lebenszyklus – vom Erfassen der Nutzersprache bis zur Sprachausgabe des Agenten.

Fügen Sie Speech Engine mit nur einem Prompt zu Ihrem Agenten hinzu

Installieren Sie alles mit nur einem Befehl über unser Skill. Das Skill richtet alles ein, damit Sie direkt vom Chat zur Stimme wechseln können.

Server-SDK

Binden Sie Speech Engine an Ihren Server an. Empfangen Sie Transkripte, geben Sie sie an Ihr LLM weiter und senden Sie die Antwort zurück – alles mit wenigen Zeilen.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs Benutzeroberfläche

Nutzen Sie vorgefertigte UI-Komponenten – Agenten-Orbs, Waveforms und Chat-Widgets – oder bauen Sie eigene auf Basis des gleichen SDK.

ElevenLabs UI ansehen

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

Client-SDK

Starten Sie eine Gesprächssitzung aus dem Browser oder der mobilen App mit drei Zeilen. Die gleiche Client-Integration wie bei ElevenAgents, sodass ein späteres Upgrade keine Änderungen erfordert.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Sicherheit auf Enterprise-Niveau

Unsere Plattform ist für den Einsatz im großen Maßstab mit Datenschutz auf Enterprise-Niveau konzipiert, einschließlich SOC 2-, HIPAA- und DSGVO-Konformität. EU-Datenresidenz und Zero Retention Mode sind für strengere Datenkontrolle verfügbar.

Mehr erfahren