Direkt zum Inhalt

Speech Engine vorgestellt

Machen Sie aus Ihrem Chat-Agenten einen Voice Agent

Fügen Sie Ihrem bestehenden Chat-Agenten mit nur einer Eingabe eine menschlich klingende Stimme hinzu. Wir übernehmen die Stimme. Das LLM, RAG und die Architektur Ihres Agenten bleiben unverändert.

Fügen Sie Ihrer bestehenden Infrastruktur eine Voice-Ebene hinzu

Jetzt starten

Speech Engine integriert sich in Ihren bestehenden Stack. Es ist keine Umstrukturierung nötig und Ihr textbasierter Agent bleibt unverändert.

Die komplette Voice-Ebene in einer Integration

Speech Engine vereint unsere führenden Modelle für Sprache, Transkription und Voice-Orchestrierung in einer Pipeline – speziell entwickelt, um optimal zusammenzuarbeiten.

Speech Engine
Speech to Text
Turn Detection
Interrupt Detection
Text to Speech
Audio Orchestration

Erweitern Sie Ihren Chatbot um Sprache

Sprache ist der schnellste und vielseitigste Weg, Informationen auszutauschen und macht Produkte und Services für Kunden zugänglicher.

Nahtloser Gesprächsfluss

Unsere Voice-Modelle sind für Gespräche optimiert und liefern extrem niedrige Latenz in realen Umgebungen.

Gesprächssteuerung und Unterbrechungsmanagement

Spezielle Modelle verarbeiten überlappende Sprache und Satzwechsel, ohne dass Sie eigene Logik implementieren müssen.

Weltweite Abdeckung in über 70 Sprachen

Nutzen Sie ausdrucksstarke, natürlich klingende Stimmen mit vollem Emotionsspektrum in vielen Sprachen.

Eine Voice-Plattform, erprobt in Millionen realer Gespräche

Jede Komponente ist darauf ausgelegt, optimal zusammenzuarbeiten.

Speech to Text

Unser Transkriptionsmodell ist auf höchste Genauigkeit bei Gesprächen optimiert und transkribiert Sprache mit einer extrem niedrigen Latenz von 80 ms.

Text to Speech

Ausdrucksstarke, menschenähnliche Stimmen in über 70 Sprachen. Wählen Sie aus unserer Stimmbibliothek mit über 11.000 Stimmen oder erstellen Sie eigene mit KI-Stimme klonen.

Turn-Erkennung

Erkennt, ob der Nutzer fertig gesprochen hat oder nur pausiert – steuert genau, wann das Transkript an Ihr LLM gesendet wird.

Unterbrechungsmanagement

Überwacht Nutzersprache, während der Agent spricht. Stoppt die Wiedergabe und reagiert sofort, wenn der Nutzer unterbricht.

Sprachaktivitätserkennung

Filtert Sprache bereits beim Eingang von Hintergrundgeräuschen, sodass nur sauberes Audio das Transkriptionsmodell erreicht.

Audio-Orchestrierung

Steuert den gesamten Voice-Lebenszyklus – vom Erfassen der Nutzersprache bis zur Sprachausgabe des Agenten.

Fügen Sie Speech Engine mit nur einem Prompt zu Ihrem Agenten hinzu

Installieren Sie alles mit nur einem Befehl über unser Skill. Das Skill richtet alles ein, damit Sie direkt vom Chat zur Stimme wechseln können.

Server-SDK

Binden Sie Speech Engine an Ihren Server an. Empfangen Sie Transkripte, geben Sie sie an Ihr LLM weiter und senden Sie die Antwort zurück – alles mit wenigen Zeilen.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs Benutzeroberfläche

Nutzen Sie vorgefertigte UI-Komponenten – Agenten-Orbs, Waveforms und Chat-Widgets – oder bauen Sie eigene auf Basis des gleichen SDK.

ElevenLabs UI ansehen
Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

Client-SDK

Starten Sie eine Gesprächssitzung aus dem Browser oder der mobilen App mit drei Zeilen. Die gleiche Client-Integration wie bei ElevenAgents, sodass ein späteres Upgrade keine Änderungen erfordert.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Sicherheit auf Enterprise-Niveau

Unsere Plattform ist für den Einsatz im großen Maßstab mit Datenschutz auf Enterprise-Niveau konzipiert, einschließlich SOC 2-, HIPAA- und DSGVO-Konformität. EU-Datenresidenz und Zero Retention Mode sind für strengere Datenkontrolle verfügbar.

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

Eine Plattform für Erlebnisse über alle Kanäle hinweg

Speech Engine Cover

Sprach-Engine

Maximale Flexibilität

  • Eigenes LLM und Orchestrierung
  • Gleiches Conversation-SDK
  • Individuelles RAG und Geschäftslogik
Agents Cover

ElevenAgents

Maximale Performance

  • Vollständig verwaltetes LLM
  • Integrierte Tools und Wissensdatenbank
  • Dashboard für Nicht-Entwickler
  • Telefonie direkt integriert
  • Niedrigste mögliche Latenz

Häufig gestellte Fragen

Aktuelle Beiträge