
Automatizzare il 92% delle chiamate in entrata per un fornitore di servizi IT
- Categoria
- Storie dei clienti
- Data
Scopri Speech Engine
Aggiungi una voce naturale al tuo agente chat esistente con un solo prompt. Noi ci occupiamo della voce. L'LLM, il RAG e l'architettura del tuo agente restano invariati.
Speech Engine si integra sopra il tuo stack esistente. Non serve riprogettare nulla e il tuo agente testuale rimane invariato.

Speech Engine unisce i nostri migliori modelli di sintesi vocale, trascrizione e orchestrazione della voce in una sola pipeline, progettata su misura per funzionare al meglio insieme.
La voce è il modo più veloce e ricco per scambiare informazioni, rendendo prodotti e servizi più accessibili ai clienti.
I nostri modelli vocali sono ottimizzati per la conversazione e garantiscono una latenza ultra-bassa anche in ambienti reali.
Modelli dedicati gestiscono parlato sovrapposto e cambi a metà frase senza bisogno di logiche personalizzate da parte tua.
Ottieni voci espressive e naturali che trasmettono tutte le sfumature emotive in molte lingue diverse.
Ogni componente è progettato e ottimizzato per funzionare al meglio insieme.
Il nostro modello di trascrizione è ottimizzato per la massima accuratezza nelle conversazioni e trascrive la voce dell’utente con una latenza ultra-bassa di 80 ms.
Voci espressive e naturali in oltre 70 lingue. Scegli tra più di 11.000 voci nella nostra Voice Library o crea la tua con la Clonazione Vocale IA.
Riconosce quando l’utente ha finito di parlare o sta solo facendo una pausa, controllando esattamente quando inviare la trascrizione al tuo LLM.
Monitora la voce dell’utente mentre l’agente parla. Interrompe la riproduzione e torna subito indietro quando l’utente interviene.
Filtra la voce dai rumori di fondo già in ingresso, così solo l’audio pulito arriva al modello di trascrizione.
Gestisce tutto il ciclo della voce: dalla registrazione dell’audio dell’utente fino alla risposta parlata dell’agente.
Installa tutto con un solo comando usando la nostra skill. La skill configura ciò che ti serve così puoi passare dalla chat alla voce in un unico prompt.
Collega Speech Engine al tuo server. Ricevi le trascrizioni, inviale al tuo LLM e restituisci la risposta: tutto in poche righe.
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);Integra componenti UI già pronti – orb dell’agente, forme d’onda e widget chat – oppure crea i tuoi partendo dallo stesso SDK.

Avvia una sessione di conversazione dal browser o dall’app mobile in tre righe. L’integrazione client è la stessa di ElevenAgents, così puoi aggiornare in futuro senza modifiche.
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));La nostra piattaforma è pensata per deployment su larga scala con protezione dei dati di livello enterprise, incluso il supporto a SOC 2, HIPAA e conformità GDPR. Sono disponibili EU Data Residency e Zero Retention Mode per un controllo ancora più rigoroso dei dati.


Massima flessibilità

Massime prestazioni
Qualsiasi LLM che genera testo. L’SDK integra l’estrazione dello stream per OpenAI (Responses API e Chat Completions API), Anthropic Messages API e Google Gemini API. Per altri provider, puoi passare una semplice stringa o un async iterable di chunk di stringa.
ElevenAgents è una piattaforma completamente gestita in cui ElevenLabs fornisce LLM, knowledge base e strumenti. Speech Engine è pensato per sviluppatori che vogliono usare il proprio LLM e controllare la logica della conversazione sul proprio server.
In TypeScript puoi collegare Speech Engine a qualsiasi server HTTP Node.js (Express, Fastify o http.createServer()), oppure avviare un server WebSocket standalone. In Python, l’SDK offre un server standalone tramite engine.serve(), oppure puoi integrarlo con FastAPI, Starlette o qualsiasi framework ASGI usando engine.create_session().



