
Duvo lança agentes de voz em produção em uma semana com ElevenAgents
- Categoria
- Histórias de clientes
- Data
Apresentando o Speech Engine
Adicione voz natural ao seu agente de chat com um único comando. Nós cuidamos da voz. O LLM, RAG e a arquitetura do seu agente continuam exatamente como estão.
Speech Engine se integra à sua estrutura atual. Nada precisa ser refeito e seu agente baseado em texto permanece igual.

O Speech Engine reúne nossos principais modelos de voz, transcrição e orquestração de áudio em um único fluxo — tudo desenvolvido para funcionar em conjunto.
A voz é a forma mais rápida e completa de trocar informações, tornando produtos e serviços mais acessíveis para os clientes.
Nossos modelos de voz são otimizados para conversas, oferecendo latência ultrabaixa em ambientes reais.
Modelos dedicados lidam com sobreposição de falas e mudanças no meio da frase, sem necessidade de lógica personalizada do seu lado.
Tenha vozes expressivas e naturais, com suporte para diferentes emoções em vários idiomas.
Todos os componentes foram criados e otimizados para funcionarem melhor juntos.
Nosso modelo de transcrição é otimizado para conversas, transcrevendo a fala do usuário com uma latência ultrabaixa de 80ms.
Vozes expressivas e naturais em mais de 70 idiomas. Escolha entre mais de 11.000 vozes na nossa Voice Library ou crie a sua com Clonar Voz com IA.
Reconhece quando o usuário terminou de falar ou apenas fez uma pausa — controlando exatamente quando a transcrição é enviada ao seu LLM.
Detecta a fala do usuário enquanto o agente está falando. Interrompe a reprodução e retorna imediatamente quando o usuário entra na conversa.
Filtra a voz do ruído de fundo já na entrada, garantindo que apenas o áudio limpo chegue ao modelo de transcrição.
Gerencia todo o ciclo da voz — desde captar o áudio do usuário até entregar a resposta falada do agente.
Instale com um único comando usando nossa skill. Ela configura tudo o que você precisa para transformar chat em voz em um só passo.
Conecte o Speech Engine ao seu servidor. Receba as transcrições, envie para seu LLM e retorne a resposta — tudo em poucas linhas.
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);Use componentes de interface prontos — orbes de agente, formas de onda e widgets de chat — ou crie o seu próprio usando o mesmo SDK.

Inicie uma sessão de conversa pelo navegador ou app móvel em três linhas. A integração é a mesma do ElevenAgents, então você pode atualizar depois sem precisar mudar nada.
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));Nossa plataforma foi criada para grandes volumes, com proteção de dados de nível empresarial, incluindo suporte a SOC 2, HIPAA e LGPD. Oferecemos residência de dados na UE e Modo de Retenção Zero para controle ainda maior.


Máxima flexibilidade

Máximo desempenho
Qualquer LLM que gere texto. O SDK já faz extração de streaming para OpenAI (Responses API e Chat Completions API), Anthropic Messages API e Google Gemini API. Para outros provedores, basta passar uma string simples ou um iterável assíncrono de pedaços de texto.
O ElevenAgents é uma plataforma totalmente hospedada, onde a ElevenLabs fornece o LLM, base de conhecimento e ferramentas. O Speech Engine é para desenvolvedores que querem usar seu próprio LLM e controlar a lógica da conversa no próprio servidor.
Em TypeScript, você pode conectar o Speech Engine a qualquer servidor HTTP Node.js (Express, Fastify ou http.createServer()), ou rodar um servidor WebSocket independente. Em Python, o SDK oferece um servidor próprio via engine.serve(), ou integração com FastAPI, Starlette ou qualquer framework ASGI usando engine.create_session().



