Quali LLM sono supportati?

Qualsiasi LLM che genera testo. L’SDK integra l’estrazione dello stream per OpenAI (Responses API e Chat Completions API), Anthropic Messages API e Google Gemini API. Per altri provider, puoi passare una semplice stringa o un async iterable di chunk di stringa.

Qual è la differenza tra Speech Engine ed ElevenAgents?

ElevenAgents è una piattaforma completamente gestita in cui ElevenLabs fornisce LLM, knowledge base e strumenti. Speech Engine è pensato per sviluppatori che vogliono usare il proprio LLM e controllare la logica della conversazione sul proprio server.

Quali framework server sono supportati?

In TypeScript puoi collegare Speech Engine a qualsiasi server HTTP Node.js (Express, Fastify o http.createServer()), oppure avviare un server WebSocket standalone. In Python, l’SDK offre un server standalone tramite engine.serve(), oppure puoi integrarlo con FastAPI, Starlette o qualsiasi framework ASGI usando engine.create_session().

Scopri Speech Engine

Trasforma il tuo agente chat in un agente vocale

Inizia Contatta il team commerciale

Aggiungi una voce naturale al tuo agente chat esistente con un solo prompt. Noi ci occupiamo della voce. L'LLM, il RAG e l'architettura del tuo agente restano invariati.

Aggiungi uno strato vocale al tuo stack esistente

Inizia

Speech Engine si integra sopra il tuo stack esistente. Non serve riprogettare nulla e il tuo agente testuale rimane invariato.

Tutto lo strato vocale in un'unica integrazione

Speech Engine unisce i nostri migliori modelli di sintesi vocale, trascrizione e orchestrazione della voce in una sola pipeline, progettata su misura per funzionare al meglio insieme.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Dai voce al tuo chatbot

La voce è il modo più veloce e ricco per scambiare informazioni, rendendo prodotti e servizi più accessibili ai clienti.

Conversazioni senza interruzioni

I nostri modelli vocali sono ottimizzati per la conversazione e garantiscono una latenza ultra-bassa anche in ambienti reali.

Gestione dei turni e delle interruzioni

Modelli dedicati gestiscono parlato sovrapposto e cambi a metà frase senza bisogno di logiche personalizzate da parte tua.

Copertura globale in oltre 70 lingue

Ottieni voci espressive e naturali che trasmettono tutte le sfumature emotive in molte lingue diverse.

Uno stack vocale testato su milioni di conversazioni reali

Ogni componente è progettato e ottimizzato per funzionare al meglio insieme.

Speech to Text

Il nostro modello di trascrizione è ottimizzato per la massima accuratezza nelle conversazioni e trascrive la voce dell’utente con una latenza ultra-bassa di 80 ms.

Text to Speech

Voci espressive e naturali in oltre 70 lingue. Scegli tra più di 11.000 voci nella nostra Voice Library o crea la tua con la Clonazione Vocale IA.

Rilevamento dei turni

Riconosce quando l’utente ha finito di parlare o sta solo facendo una pausa, controllando esattamente quando inviare la trascrizione al tuo LLM.

Gestione delle interruzioni

Monitora la voce dell’utente mentre l’agente parla. Interrompe la riproduzione e torna subito indietro quando l’utente interviene.

Rilevamento attività vocale

Filtra la voce dai rumori di fondo già in ingresso, così solo l’audio pulito arriva al modello di trascrizione.

Orchestrazione audio

Gestisce tutto il ciclo della voce: dalla registrazione dell’audio dell’utente fino alla risposta parlata dell’agente.

Aggiungi Speech Engine al tuo agente con un solo prompt

Installa tutto con un solo comando usando la nostra skill. La skill configura ciò che ti serve così puoi passare dalla chat alla voce in un unico prompt.

SDK Server

Collega Speech Engine al tuo server. Ricevi le trascrizioni, inviale al tuo LLM e restituisci la risposta: tutto in poche righe.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interfaccia ElevenLabs

Integra componenti UI già pronti – orb dell’agente, forme d’onda e widget chat – oppure crea i tuoi partendo dallo stesso SDK.

Guarda l’interfaccia ElevenLabs

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK Client

Avvia una sessione di conversazione dal browser o dall’app mobile in tre righe. L’integrazione client è la stessa di ElevenAgents, così puoi aggiornare in futuro senza modifiche.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Sicurezza a livello enterprise

La nostra piattaforma è pensata per deployment su larga scala con protezione dei dati di livello enterprise, incluso il supporto a SOC 2, HIPAA e conformità GDPR. Sono disponibili EU Data Residency e Zero Retention Mode per un controllo ancora più rigoroso dei dati.

Scopri di più