¿Qué LLM son compatibles?

Cualquier LLM que genere texto. El SDK extrae streams de OpenAI (Responses API y Chat Completions API), Anthropic Messages API y Google Gemini API. Para otros proveedores, pasa un string plano o un iterable asíncrono de fragmentos de texto.

¿Cuál es la diferencia entre Speech Engine y ElevenAgents?

ElevenAgents es una plataforma totalmente gestionada donde ElevenLabs proporciona el LLM, la base de conocimiento y las herramientas. Speech Engine es para desarrolladores que quieren usar su propio LLM y controlar la lógica de conversación en su propio servidor.

¿Qué frameworks de servidor son compatibles?

En TypeScript, puedes conectar Speech Engine a cualquier servidor HTTP de Node.js (Express, Fastify o http.createServer()), o lanzar un servidor WebSocket independiente. En Python, el SDK ofrece un servidor propio con engine.serve(), o puedes integrarlo con FastAPI, Starlette o cualquier framework ASGI usando engine.create_session().

Presentamos Speech Engine

Convierte tu agente de chat en un agente de voz

Empieza ahora Contacta con ventas

Añade voz natural a tu agente de chat con solo un prompt. Nosotros nos encargamos de la voz. El LLM, RAG y la arquitectura de tu agente no cambian.

Añade una capa de voz a tu stack actual

Empieza ahora

Speech Engine se integra sobre tu sistema actual. No hay que rehacer nada y tu agente basado en texto sigue igual.

Toda la capa de voz en una sola integración

Speech Engine combina nuestros modelos líderes de voz, transcripción y orquestación de audio en una sola solución, diseñada para funcionar de forma óptima juntos.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Mejora tu chatbot con voz

La voz es la forma más rápida y completa de intercambiar información, haciendo productos y servicios más accesibles para clientes.

Conversaciones fluidas

Nuestros modelos de voz están optimizados para conversación y ofrecen una latencia ultrabaja en entornos reales.

Gestión de turnos y manejo de interrupciones

Modelos dedicados gestionan solapamientos de voz y cambios a mitad de frase sin que tengas que programar nada extra.

Cobertura global en más de 70 idiomas

Consigue voces expresivas y naturales que transmiten todo tipo de emociones en muchos idiomas.

Una solución de voz probada en millones de conversaciones reales

Cada componente está creado y optimizado para funcionar mejor juntos.

Voz a Texto

Nuestro modelo de transcripción está optimizado para captar conversaciones con precisión y transcribe la voz del usuario con una latencia ultrabaja de 80 ms.

Texto a Voz

Voces expresivas y naturales en más de 70 idiomas. Elige entre más de 11.000 voces o crea la tuya propia con Clonar Voz IA.

Detección de turnos

Detecta cuándo el usuario ha terminado de hablar o solo está haciendo una pausa, controlando exactamente cuándo se envía la transcripción a tu LLM.

Gestión de interrupciones

Detecta si el usuario habla mientras el agente responde. Detiene la reproducción y responde al instante cuando el usuario interrumpe.

Detección de actividad de voz

Filtra la voz del ruido de fondo desde la entrada, así solo llega audio limpio al modelo de transcripción.

Orquestación de audio

Gestiona todo el ciclo de la voz: desde captar el audio del usuario hasta entregar la respuesta hablada del agente.

Activa Speech Engine en tu agente con un solo prompt

Instala todo con un solo comando usando nuestra skill. La skill configura todo lo necesario para que pases de chat a voz en un solo prompt.

SDK de servidor

Conecta Speech Engine a tu servidor. Recibe transcripciones, pásalas a tu LLM y envía la respuesta de vuelta, todo en pocas líneas.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interfaz ElevenLabs

Añade componentes de interfaz ya preparados: orbes de agente, formas de onda y widgets de chat, o crea los tuyos propios sobre el mismo SDK.

Ver interfaz de ElevenLabs

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK de cliente

Inicia una sesión de conversación desde el navegador o la app móvil en solo tres líneas. Es la misma integración de cliente que ElevenAgents, así que si actualizas después no tendrás que cambiar nada.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Seguridad de nivel empresarial

Nuestra plataforma está pensada para despliegues a gran escala con protección de datos de nivel empresarial, incluyendo soporte para SOC 2, HIPAA y cumplimiento RGPD. Disponibles residencia de datos en la UE y modo sin retención para mayor control.

Saber más