
Apresentando o Turbo v2.5
Text to Speech de alta qualidade e baixa latência em 32 idiomas
Apresentando o Eleven v3 (alpha)
Experimente o v3Comparando dois lançamentos recentes de produtos para ajudar você a encontrar o melhor para seu caso de uso
Atualizado em 18 de outubro de 2024
Houve dois grandes lançamentos de produtos no mundo da Conversational AI no último mês - nossa plataforma de orquestração de Conversational AI e a RealtimeAPI da OpenAI. Criamos este post para ajudar você a distinguir entre os dois e descobrir qual é o melhor para seu caso de uso.
Ambos os produtos são projetados para ajudar você a criar agentes de voz conversacionais em tempo real.ElevenLabs Conversational AI torna isso possível através de uma plataforma de orquestração que cria uma transcrição a partir da fala usando Speech to Text, envia essa transcrição para um LLM de sua escolha junto com uma base de conhecimento personalizada, e então vocaliza a resposta do LLM usandoText to Speech. É uma solução completa que inclui monitoramento e análises de chamadas passadas e em breve oferecerá um framework de testes e integrações telefônicas.
Feature | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Total Number of Voices | 3k+ | 6 |
LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
API Access | Yes, all plans | Yes, all plans |
Quando nossa Conversational AI converte fala em texto, algumas informações são perdidas, incluindo a emoção, o tom e a pronúncia da fala. Como a Realtime API da OpenAI vai diretamente de fala para fala, nenhum contexto é perdido. Isso a torna mais adequada para certos casos de uso, como corrigir a pronúncia de alguém ao aprender um novo idioma ou identificar e responder a emoções em terapia.
Ao usar a Realtime API, você está usando a infraestrutura da OpenAI para toda a experiência conversacional. Não é possível integrar o LLM de outra empresa ou trazer o seu próprio, já que a Realtime API só aceita áudio como entrada e retorna áudio como saída.
Com nossa plataforma de Conversational AI, você pode mudar o LLM que alimenta seu modelo a qualquer momento (incluindo o uso de modelos da OpenAI). À medida que Anthropic, OpenAI, Google, NVIDIA e outros continuam competindo para ter o LLM mais eficiente, você pode atualizar a qualquer momento para sempre usar a tecnologia mais avançada.
E para empresas que desenvolveram seu próprio LLM ajustado internamente, seja por razões de desempenho ou privacidade, é possível integrá-lo com a plataforma de Conversational AI da ElevenLabs, mas não com a Realtime API da OpenAI.
Ao avaliar qualquer modelo para latência, há dois fatores importantes a considerar
(1) A latência média é baixa o suficiente para criar uma experiência de usuário fluida?
(2) Quanto a latência varia e como é a experiência do usuário para latência P90 e P99?
Um potencial benefício da Realtime API da OpenAI é que, por eliminar a etapa intermediária de transformar fala em texto, é provável que tenha uma latência geral mais baixa.
Um possível ponto negativo, no entanto, volta à flexibilidade que discutimos anteriormente. Em nossos testes nas últimas semanas, o 40-mini foi inicialmente o LLM com menor latência para emparelhar com nossa plataforma de Conversational AI. Esta semana, sua latência mais que dobrou, o que levou nossos usuários a mudar para o Gemini Flash 1.5. Com a Realtime API, não é possível alternar para um LLM mais rápido.
Também observe que a latência de ponta a ponta para sua aplicação de Conversational AI dependerá não apenas do seu provedor, mas também do tamanho da base de conhecimento do seu agente e das condições da sua rede.
A Realtime API da OpenAI atualmente tem 6 opções de voz. Nossa biblioteca de vozes tem mais de 3.000 vozes. Você também pode usar o Professional Voice Cloning para usar sua própria voz personalizada em nossa plataforma. Isso significa que a Realtime API não permitirá que você escolha uma voz única para sua marca ou conteúdo.
Na Realtime API, a entrada de áudio custa $100 por 1M de tokens e a saída custa $200 por 1M de tokens. Isso equivale a aproximadamente $0,06 por minuto de entrada de áudio e $0,24 por minuto de saída de áudio.
ElevenLabs Conversational AI oferece 15 minutos para começar no plano gratuito. O plano Business oferece 13.750 minutos de Conversational AI ($0,08 por minuto), com minutos extras cobrados a $0,08, além de preços significativamente reduzidos para volumes maiores.
No final de cada chamada, a Realtime API envia eventos em formato JSON contendo trechos de texto e áudio, incluindo a transcrição e gravações da chamada e quaisquer chamadas funcionais feitas. Cabe a você ler, processar, relatar e exibir essas informações de uma forma que seja útil para sua equipe.
Nossa plataforma possui funcionalidades integradas para avaliar o sucesso de uma chamada, extrair dados estruturados e exibi-los junto com a transcrição, resumo e gravação em nosso painel para sua equipe revisar.
Text to Speech de alta qualidade e baixa latência em 32 idiomas
Nosso modelo mais rápido agora tem pronúncia de números aprimorada