
Meesho ofrece soporte al cliente en tiempo real y en varios idiomas con agentes de voz
- Categoría
- Testimonios de clientes
- Fecha
Presentamos Speech Engine
Añade voz natural a tu agente de chat con un solo prompt. Nosotros nos encargamos de la voz. El LLM, RAG y la arquitectura de tu agente no cambian.
Speech Engine se integra sobre tu sistema actual. No hay que rehacer nada y tu agente basado en texto sigue igual.

Speech Engine combina nuestros modelos líderes de voz, transcripción y orquestación de audio en una sola solución, diseñada para funcionar de forma óptima juntos.
La voz es la forma más rápida y completa de intercambiar información, haciendo productos y servicios más accesibles para clientes.
Nuestros modelos de voz están optimizados para conversación y ofrecen una latencia ultrabaja en entornos reales.
Modelos dedicados gestionan solapamientos de voz y cambios a mitad de frase sin que tengas que programar nada extra.
Consigue voces expresivas y naturales que transmiten todo tipo de emociones en muchos idiomas.
Cada componente está creado y optimizado para funcionar mejor juntos.
Nuestro modelo de transcripción está optimizado para captar conversaciones con precisión y transcribe la voz del usuario con una latencia ultrabaja de 80 ms.
Voces expresivas y naturales en más de 70 idiomas. Elige entre más de 11.000 voces o crea la tuya propia con Clonar Voz IA.
Detecta cuándo el usuario ha terminado de hablar o solo está haciendo una pausa, controlando exactamente cuándo se envía la transcripción a tu LLM.
Detecta si el usuario habla mientras el agente responde. Detiene la reproducción y responde al instante cuando el usuario interrumpe.
Filtra la voz del ruido de fondo desde la entrada, así solo llega audio limpio al modelo de transcripción.
Gestiona todo el ciclo de la voz: desde captar el audio del usuario hasta entregar la respuesta hablada del agente.
Instala todo con un solo comando usando nuestra skill. La skill configura todo lo necesario para que pases de chat a voz en un solo prompt.
Conecta Speech Engine a tu servidor. Recibe transcripciones, pásalas a tu LLM y envía la respuesta de vuelta, todo en pocas líneas.
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);Añade componentes de interfaz ya preparados: orbes de agente, formas de onda y widgets de chat, o crea los tuyos propios sobre el mismo SDK.

Inicia una sesión de conversación desde el navegador o la app móvil en solo tres líneas. Es la misma integración de cliente que ElevenAgents, así que si actualizas después no tendrás que cambiar nada.
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));Nuestra plataforma está pensada para despliegues a gran escala con protección de datos de nivel empresarial, incluyendo soporte para SOC 2, HIPAA y cumplimiento RGPD. Disponibles residencia de datos en la UE y modo sin retención para mayor control.


Máxima flexibilidad

Máximo rendimiento
Cualquier LLM que genere texto. El SDK extrae streams de OpenAI (Responses API y Chat Completions API), Anthropic Messages API y Google Gemini API. Para otros proveedores, pasa un string plano o un iterable asíncrono de fragmentos de texto.
ElevenAgents es una plataforma totalmente gestionada donde ElevenLabs proporciona el LLM, la base de conocimiento y las herramientas. Speech Engine es para desarrolladores que quieren usar su propio LLM y controlar la lógica de conversación en su propio servidor.
En TypeScript, puedes conectar Speech Engine a cualquier servidor HTTP de Node.js (Express, Fastify o http.createServer()), o lanzar un servidor WebSocket independiente. En Python, el SDK ofrece un servidor propio con engine.serve(), o puedes integrarlo con FastAPI, Starlette o cualquier framework ASGI usando engine.create_session().



