
Apresentando o Turbo v2.5
Text to Speech de alta qualidade e baixa latência em 32 idiomas
Comparando dois lançamentos recentes de produtos para ajudar você a encontrar o melhor para seu caso de uso
Atualizado em 18 de outubro de 2024
Houve dois grandes lançamentos de produtos no mundo da Conversational AI no último mês - nossa plataforma de orquestração de Conversational AI e a RealtimeAPI da OpenAI. Criamos este post para ajudar você a distinguir entre os dois e descobrir qual é o melhor para seu caso de uso.
Ambos os produtos são projetados para ajudar você a criar agentes de voz em tempo real, conversacionais. ElevenLabs Conversational AI torna isso possível através de uma plataforma de orquestração que cria uma transcrição a partir da fala usando Speech to Text, envia essa transcrição para um LLM de sua escolha junto com uma base de conhecimento personalizada, e então dá voz à resposta do LLM usando
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Quando nossa Conversational AI converte fala em texto, algumas informações são perdidas, incluindo a emoção, o tom e a pronúncia da fala. Como a Realtime API da OpenAI vai diretamente de fala para fala, nenhum contexto é perdido. Isso a torna mais adequada para certos casos de uso, como corrigir a pronúncia de alguém ao aprender um novo idioma ou identificar e responder a emoções em terapia.
Ao usar a Realtime API, você está usando a infraestrutura da OpenAI para toda a experiência conversacional. Não é possível integrar o LLM de outra empresa ou trazer o seu próprio, já que a Realtime API só aceita áudio como entrada e retorna áudio como saída.
Com nossa plataforma de Conversational AI, você pode mudar o LLM que alimenta seu modelo a qualquer momento (incluindo o uso de modelos da OpenAI). À medida que Anthropic, OpenAI, Google, NVIDIA e outros continuam competindo para ter o LLM mais eficiente, você pode atualizar a qualquer momento para sempre usar a tecnologia mais avançada.
E para empresas que desenvolveram seu próprio LLM ajustado internamente, seja por razões de desempenho ou privacidade, é possível integrá-lo com a plataforma de Conversational AI da ElevenLabs, mas não com a Realtime API da OpenAI.
Ao avaliar qualquer modelo para latência, há dois fatores importantes a considerar
(1) A latência média é baixa o suficiente para criar uma experiência de usuário fluida?
(2) Quanto a latência varia e como é a experiência do usuário para latência P90 e P99?
Um potencial benefício da Realtime API da OpenAI é que, por eliminar a etapa intermediária de transformar fala em texto, é provável que tenha uma latência geral mais baixa.
Um possível ponto negativo, no entanto, volta à flexibilidade que discutimos anteriormente. Em nossos testes nas últimas semanas, o 40-mini foi inicialmente o LLM com menor latência para emparelhar com nossa plataforma de Conversational AI. Esta semana, sua latência mais que dobrou, o que levou nossos usuários a mudar para o Gemini Flash 1.5. Com a Realtime API, não é possível alternar para um LLM mais rápido.
Também observe que a latência de ponta a ponta para sua aplicação de Conversational AI dependerá não apenas do seu provedor, mas também do tamanho da base de conhecimento do seu
A Realtime API da OpenAI atualmente tem 6 opções de voz. Nossa biblioteca de vozes tem mais de 3.000 vozes. Você também pode usar o Professional Voice Cloning para usar sua própria voz personalizada em nossa plataforma. Isso significa que a Realtime API não permitirá que você escolha uma voz única para sua marca ou conteúdo.
Na Realtime API, a entrada de áudio custa $100 por 1M de tokens e a saída custa $200 por 1M de tokens. Isso equivale a aproximadamente $0,06 por minuto de entrada de áudio e $0,24 por minuto de saída de áudio.
ElevenLabs
No final de cada chamada, a Realtime API envia eventos em formato JSON contendo trechos de texto e áudio, incluindo a transcrição e gravações da chamada e quaisquer chamadas funcionais feitas. Cabe a você ler, processar, relatar e exibir essas informações de uma forma que seja útil para sua equipe.
Nossa plataforma possui funcionalidades integradas para avaliar o sucesso de uma chamada, extrair dados estruturados e exibi-los junto com a transcrição, resumo e gravação em nosso painel para sua equipe revisar.

Text to Speech de alta qualidade e baixa latência em 32 idiomas

Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.
Desenvolvido por ElevenLabs Agentes