Quels LLM sont pris en charge ?

Tout LLM qui génère du texte. Le SDK intègre l’extraction de flux pour OpenAI (Responses API et Chat Completions API), Anthropic Messages API et Google Gemini API. Pour d’autres fournisseurs, transmettez simplement une chaîne ou un itérable asynchrone de morceaux de texte.

Quelle est la différence entre Speech Engine et ElevenAgents ?

ElevenAgents est une plateforme entièrement hébergée où ElevenLabs fournit le LLM, la base de connaissances et les outils. Speech Engine s’adresse aux développeurs qui souhaitent utiliser leur propre LLM et contrôler la logique de conversation sur leur propre serveur.

Quels frameworks serveur sont pris en charge ?

En TypeScript, vous pouvez connecter Speech Engine à n’importe quel serveur HTTP Node.js (Express, Fastify ou http.createServer()), ou lancer un serveur WebSocket autonome. En Python, le SDK propose un serveur autonome via engine.serve(), ou une intégration avec FastAPI, Starlette ou tout framework ASGI via engine.create_session().

Découvrez Speech Engine

Transformez votre agent de chat en agent vocal

Commencer Contactez le service commercial

Ajoutez une voix naturelle à votre agent de chat existant en une seule commande. Nous nous occupons de la voix. L’LLM, le RAG et l’architecture de votre agent restent inchangés.

Ajoutez une couche vocale à votre stack existant

Commencer

Speech Engine s’intègre à votre système existant. Rien n’est modifié et votre agent textuel reste intact.

Toute la couche vocale, en une seule intégration

Speech Engine regroupe nos meilleurs modèles de synthèse vocale, de transcription et d’orchestration vocale dans un seul pipeline, conçu sur mesure pour fonctionner ensemble.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Ajoutez la voix à votre chatbot

La voix est le moyen le plus rapide et le plus riche pour échanger des informations, rendant les produits et services plus accessibles.

Conversation fluide

Nos modèles vocaux sont optimisés pour la conversation et offrent une latence ultra-faible dans des conditions réelles.

Gestion des tours de parole et des interruptions

Des modèles dédiés gèrent le chevauchement des voix et les changements en cours de phrase, sans logique personnalisée de votre côté.

Couverture mondiale dans plus de 70 langues

Obtenez des voix expressives et naturelles, capables de transmettre toutes les émotions dans de nombreuses langues.

Une technologie vocale testée sur des millions de conversations réelles

Chaque composant est conçu et optimisé pour fonctionner parfaitement ensemble.

Speech to Text

Notre modèle de transcription est optimisé pour la précision des conversations et transcrit la parole de l’utilisateur avec une latence ultra-faible de 80 ms.

Text to Speech

Des voix expressives et naturelles dans plus de 70 langues. Choisissez parmi plus de 11 000 voix dans notre Voice Library ou créez la vôtre avec le Clonage de Voix.

Détection de tour de parole

Détecte quand l’utilisateur a fini de parler ou fait une pause, pour contrôler précisément quand la transcription est envoyée à votre LLM.

Gestion des interruptions

Surveille la parole de l’utilisateur pendant que l’agent parle. Coupe la lecture et relance instantanément si l’utilisateur intervient.

Détection d’activité vocale

Filtre la voix du bruit de fond dès l’entrée, pour que seul un audio propre soit transmis au modèle de transcription.

Orchestration audio

Gère tout le cycle vocal : de la capture de l’audio utilisateur à la réponse vocale de l’agent.

Ajoutez Speech Engine à votre agent en une seule commande

Installez tout avec une seule commande grâce à notre skill. Le skill configure tout ce qu’il vous faut pour passer du chat à la voix en une seule étape.

SDK Serveur

Connectez Speech Engine à votre serveur. Recevez les transcriptions, transmettez-les à votre LLM et renvoyez la réponse – tout cela en quelques lignes.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interface ElevenLabs

Ajoutez des composants UI prêts à l’emploi – orbes agents, formes d’onde et widgets de chat – ou créez les vôtres avec le même SDK.

Voir l’interface ElevenLabs

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK Client

Lancez une session de conversation depuis le navigateur ou l’application mobile en trois lignes. La même intégration client que pour ElevenAgents, donc aucune modification à prévoir si vous passez à la suite.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Sécurité de niveau entreprise

Notre plateforme est conçue pour des déploiements à grande échelle avec des protections de données de niveau entreprise, y compris la conformité SOC 2, HIPAA et RGPD. La résidence des données UE et le mode zéro rétention sont disponibles pour un contrôle renforcé.