Salta al contenido

Presentamos Speech Engine

Convierte tu agente de chat en un agente de voz

Añade voz natural a tu agente de chat con solo un prompt. Nosotros nos encargamos de la voz. El LLM, RAG y la arquitectura de tu agente no cambian.

Añade una capa de voz a tu stack actual

Speech Engine se integra sobre tu sistema actual. No hay que rehacer nada y tu agente basado en texto sigue igual.

Toda la capa de voz en una sola integración

Speech Engine combina nuestros modelos líderes de voz, transcripción y orquestación de audio en una sola solución, diseñada para funcionar de forma óptima juntos.

Speech Engine
Speech to Text
Turn Detection
Interrupt Detection
Text to Speech
Audio Orchestration

Mejora tu chatbot con voz

La voz es la forma más rápida y completa de intercambiar información, haciendo productos y servicios más accesibles para clientes.

Conversaciones fluidas

Nuestros modelos de voz están optimizados para conversación y ofrecen una latencia ultrabaja en entornos reales.

Gestión de turnos y manejo de interrupciones

Modelos dedicados gestionan solapamientos de voz y cambios a mitad de frase sin que tengas que programar nada extra.

Cobertura global en más de 70 idiomas

Consigue voces expresivas y naturales que transmiten todo tipo de emociones en muchos idiomas.

Una solución de voz probada en millones de conversaciones reales

Cada componente está creado y optimizado para funcionar mejor juntos.

Voz a Texto

Nuestro modelo de transcripción está optimizado para captar conversaciones con precisión y transcribe la voz del usuario con una latencia ultrabaja de 80 ms.

Texto a Voz

Voces expresivas y naturales en más de 70 idiomas. Elige entre más de 11.000 voces o crea la tuya propia con Clonar Voz IA.

Detección de turnos

Detecta cuándo el usuario ha terminado de hablar o solo está haciendo una pausa, controlando exactamente cuándo se envía la transcripción a tu LLM.

Gestión de interrupciones

Detecta si el usuario habla mientras el agente responde. Detiene la reproducción y responde al instante cuando el usuario interrumpe.

Detección de actividad de voz

Filtra la voz del ruido de fondo desde la entrada, así solo llega audio limpio al modelo de transcripción.

Orquestación de audio

Gestiona todo el ciclo de la voz: desde captar el audio del usuario hasta entregar la respuesta hablada del agente.

Activa Speech Engine en tu agente con un solo prompt

Instala todo con un solo comando usando nuestra skill. La skill configura todo lo necesario para que pases de chat a voz en un solo prompt.

SDK de servidor

Conecta Speech Engine a tu servidor. Recibe transcripciones, pásalas a tu LLM y envía la respuesta de vuelta, todo en pocas líneas.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interfaz ElevenLabs

Añade componentes de interfaz ya preparados: orbes de agente, formas de onda y widgets de chat, o crea los tuyos propios sobre el mismo SDK.

Ver interfaz de ElevenLabs
Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK de cliente

Inicia una sesión de conversación desde el navegador o la app móvil en solo tres líneas. Es la misma integración de cliente que ElevenAgents, así que si actualizas después no tendrás que cambiar nada.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Seguridad de nivel empresarial

Nuestra plataforma está pensada para despliegues a gran escala con protección de datos de nivel empresarial, incluyendo soporte para SOC 2, HIPAA y cumplimiento RGPD. Disponibles residencia de datos en la UE y modo sin retención para mayor control.

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

Una sola plataforma para experiencias en todos los canales

Speech Engine Cover

Motor de Voz

Máxima flexibilidad

  • Tu propio LLM y orquestación
  • Mismo SDK de conversación
  • RAG y lógica de negocio personalizada
Agents Cover

ElevenAgents

Máximo rendimiento

  • LLM totalmente gestionado
  • Herramientas integradas y base de conocimiento
  • Panel para no desarrolladores
  • Telefonía lista para usar
  • La menor latencia posible

Preguntas frecuentes

Últimas historias

Plataforma de comunicación con IA