Quais LLMs são compatíveis?

Qualquer LLM que gere texto. O SDK já faz extração de streaming para OpenAI (Responses API e Chat Completions API), Anthropic Messages API e Google Gemini API. Para outros provedores, basta passar uma string simples ou um iterável assíncrono de pedaços de texto.

Qual a diferença entre Speech Engine e ElevenAgents?

O ElevenAgents é uma plataforma totalmente hospedada, onde a ElevenLabs fornece o LLM, base de conhecimento e ferramentas. O Speech Engine é para desenvolvedores que querem usar seu próprio LLM e controlar a lógica da conversa no próprio servidor.

Quais frameworks de servidor são suportados?

Em TypeScript, você pode conectar o Speech Engine a qualquer servidor HTTP Node.js (Express, Fastify ou http.createServer()), ou rodar um servidor WebSocket independente. Em Python, o SDK oferece um servidor próprio via engine.serve(), ou integração com FastAPI, Starlette ou qualquer framework ASGI usando engine.create_session().

Apresentando o Speech Engine

Transforme seu agente de chat em um agente de voz

Comece agora Fale com vendas

Adicione voz natural ao seu agente de chat com um único comando. Nós cuidamos da voz. O LLM, RAG e a arquitetura do seu agente continuam exatamente como estão.

Adicione uma camada de voz ao seu stack atual

Comece agora

Speech Engine se integra à sua estrutura atual. Nada precisa ser refeito e seu agente baseado em texto permanece igual.

A camada completa de voz em uma única integração

O Speech Engine reúne nossos principais modelos de voz, transcrição e orquestração de áudio em um único fluxo — tudo desenvolvido para funcionar em conjunto.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Dê voz ao seu chatbot

A voz é a forma mais rápida e completa de trocar informações, tornando produtos e serviços mais acessíveis para os clientes.

Conversas sem interrupções

Nossos modelos de voz são otimizados para conversas, oferecendo latência ultrabaixa em ambientes reais.

Gestão de turnos e interrupções

Modelos dedicados lidam com sobreposição de falas e mudanças no meio da frase, sem necessidade de lógica personalizada do seu lado.

Cobertura global em mais de 70 idiomas

Tenha vozes expressivas e naturais, com suporte para diferentes emoções em vários idiomas.

Tecnologia de voz testada em milhões de conversas reais

Todos os componentes foram criados e otimizados para funcionarem melhor juntos.

Speech to Text

Nosso modelo de transcrição é otimizado para conversas, transcrevendo a fala do usuário com uma latência ultrabaixa de 80ms.

Transformar Texto em Áudio

Vozes expressivas e naturais em mais de 70 idiomas. Escolha entre mais de 11.000 vozes na nossa Voice Library ou crie a sua com Clonar Voz com IA.

Detecção de turno

Reconhece quando o usuário terminou de falar ou apenas fez uma pausa — controlando exatamente quando a transcrição é enviada ao seu LLM.

Gestão de interrupções

Detecta a fala do usuário enquanto o agente está falando. Interrompe a reprodução e retorna imediatamente quando o usuário entra na conversa.

Detecção de atividade de voz

Filtra a voz do ruído de fundo já na entrada, garantindo que apenas o áudio limpo chegue ao modelo de transcrição.

Orquestração de áudio

Gerencia todo o ciclo da voz — desde captar o áudio do usuário até entregar a resposta falada do agente.

Adicione o Speech Engine ao seu agente com um único prompt

Instale com um único comando usando nossa skill. Ela configura tudo o que você precisa para transformar chat em voz em um só passo.

SDK para servidor

Conecte o Speech Engine ao seu servidor. Receba as transcrições, envie para seu LLM e retorne a resposta — tudo em poucas linhas.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interface ElevenLabs

Use componentes de interface prontos — orbes de agente, formas de onda e widgets de chat — ou crie o seu próprio usando o mesmo SDK.

Ver interface da ElevenLabs

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK para cliente

Inicie uma sessão de conversa pelo navegador ou app móvel em três linhas. A integração é a mesma do ElevenAgents, então você pode atualizar depois sem precisar mudar nada.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Segurança de nível empresarial

Nossa plataforma foi criada para grandes volumes, com proteção de dados de nível empresarial, incluindo suporte a SOC 2, HIPAA e LGPD. Oferecemos residência de dados na UE e Modo de Retenção Zero para controle ainda maior.

Saiba mais