Pular para o conteúdo

Apresentando o Speech Engine

Transforme seu agente de chat em um agente de voz

Adicione voz natural ao seu agente de chat com um único comando. Nós cuidamos da voz. O LLM, RAG e a arquitetura do seu agente continuam exatamente como estão.

Adicione uma camada de voz ao seu stack atual

Comece agora

Speech Engine se integra à sua estrutura atual. Nada precisa ser refeito e seu agente baseado em texto permanece igual.

A camada completa de voz em uma única integração

O Speech Engine reúne nossos principais modelos de voz, transcrição e orquestração de áudio em um único fluxo — tudo desenvolvido para funcionar em conjunto.

Speech Engine
Speech to Text
Turn Detection
Interrupt Detection
Text to Speech
Audio Orchestration

Dê voz ao seu chatbot

A voz é a forma mais rápida e completa de trocar informações, tornando produtos e serviços mais acessíveis para os clientes.

Conversas sem interrupções

Nossos modelos de voz são otimizados para conversas, oferecendo latência ultrabaixa em ambientes reais.

Gestão de turnos e interrupções

Modelos dedicados lidam com sobreposição de falas e mudanças no meio da frase, sem necessidade de lógica personalizada do seu lado.

Cobertura global em mais de 70 idiomas

Tenha vozes expressivas e naturais, com suporte para diferentes emoções em vários idiomas.

Tecnologia de voz testada em milhões de conversas reais

Todos os componentes foram criados e otimizados para funcionarem melhor juntos.

Speech to Text

Nosso modelo de transcrição é otimizado para conversas, transcrevendo a fala do usuário com uma latência ultrabaixa de 80ms.

Transformar Texto em Áudio

Vozes expressivas e naturais em mais de 70 idiomas. Escolha entre mais de 11.000 vozes na nossa Voice Library ou crie a sua com Clonar Voz com IA.

Detecção de turno

Reconhece quando o usuário terminou de falar ou apenas fez uma pausa — controlando exatamente quando a transcrição é enviada ao seu LLM.

Gestão de interrupções

Detecta a fala do usuário enquanto o agente está falando. Interrompe a reprodução e retorna imediatamente quando o usuário entra na conversa.

Detecção de atividade de voz

Filtra a voz do ruído de fundo já na entrada, garantindo que apenas o áudio limpo chegue ao modelo de transcrição.

Orquestração de áudio

Gerencia todo o ciclo da voz — desde captar o áudio do usuário até entregar a resposta falada do agente.

Adicione o Speech Engine ao seu agente com um único prompt

Instale com um único comando usando nossa skill. Ela configura tudo o que você precisa para transformar chat em voz em um só passo.

SDK para servidor

Conecte o Speech Engine ao seu servidor. Receba as transcrições, envie para seu LLM e retorne a resposta — tudo em poucas linhas.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interface ElevenLabs

Use componentes de interface prontos — orbes de agente, formas de onda e widgets de chat — ou crie o seu próprio usando o mesmo SDK.

Ver interface da ElevenLabs
Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

SDK para cliente

Inicie uma sessão de conversa pelo navegador ou app móvel em três linhas. A integração é a mesma do ElevenAgents, então você pode atualizar depois sem precisar mudar nada.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Segurança de nível empresarial

Nossa plataforma foi criada para grandes volumes, com proteção de dados de nível empresarial, incluindo suporte a SOC 2, HIPAA e LGPD. Oferecemos residência de dados na UE e Modo de Retenção Zero para controle ainda maior.

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

Uma plataforma única para experiências em vários canais

Speech Engine Cover

Speech Engine

Máxima flexibilidade

  • Seu próprio LLM e orquestração
  • Mesmo SDK de Conversa
  • RAG personalizado e lógica de negócios
Agents Cover

ElevenAgents

Máximo desempenho

  • LLM totalmente gerenciado
  • Ferramentas integradas e base de conhecimento
  • Painel para quem não é desenvolvedor
  • Telefonia pronta para uso
  • Latência mínima possível

Perguntas frequentes

Últimas histórias

Plataforma de Comunicação com IA