Apresentando o Eleven v3 (alpha)

Experimente o v3

Comparando ElevenLabs Conversational AI e OpenAI Realtime API

Comparando dois lançamentos recentes de produtos para ajudar você a encontrar o melhor para seu caso de uso

Atualizado em 18 de outubro de 2024

Houve dois grandes lançamentos de produtos no mundo da Conversational AI no último mês - nossa plataforma de orquestração de Conversational AI e a RealtimeAPI da OpenAI. Criamos este post para ajudar você a distinguir entre os dois e descobrir qual é o melhor para seu caso de uso.

Visão Geral

Ambos os produtos são projetados para ajudar você a criar agentes de voz conversacionais em tempo real.ElevenLabs Conversational AI torna isso possível através de uma plataforma de orquestração que cria uma transcrição a partir da fala usando Speech to Text, envia essa transcrição para um LLM de sua escolha junto com uma base de conhecimento personalizada, e então vocaliza a resposta do LLM usandoText to Speech. É uma solução completa que inclui monitoramento e análises de chamadas passadas e em breve oferecerá um framework de testes e integrações telefônicas.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Como eles se comparam

Entendendo Emoção e Pronúncia

Quando nossa Conversational AI converte fala em texto, algumas informações são perdidas, incluindo a emoção, o tom e a pronúncia da fala. Como a Realtime API da OpenAI vai diretamente de fala para fala, nenhum contexto é perdido. Isso a torna mais adequada para certos casos de uso, como corrigir a pronúncia de alguém ao aprender um novo idioma ou identificar e responder a emoções em terapia.

Flexibilidade

Ao usar a Realtime API, você está usando a infraestrutura da OpenAI para toda a experiência conversacional. Não é possível integrar o LLM de outra empresa ou trazer o seu próprio, já que a Realtime API só aceita áudio como entrada e retorna áudio como saída.

Com nossa plataforma de Conversational AI, você pode mudar o LLM que alimenta seu modelo a qualquer momento (incluindo o uso de modelos da OpenAI). À medida que Anthropic, OpenAI, Google, NVIDIA e outros continuam competindo para ter o LLM mais eficiente, você pode atualizar a qualquer momento para sempre usar a tecnologia mais avançada.

E para empresas que desenvolveram seu próprio LLM ajustado internamente, seja por razões de desempenho ou privacidade, é possível integrá-lo com a plataforma de Conversational AI da ElevenLabs, mas não com a Realtime API da OpenAI.

Latência

Ao avaliar qualquer modelo para latência, há dois fatores importantes a considerar

(1) A latência média é baixa o suficiente para criar uma experiência de usuário fluida?

(2) Quanto a latência varia e como é a experiência do usuário para latência P90 e P99?

Um potencial benefício da Realtime API da OpenAI é que, por eliminar a etapa intermediária de transformar fala em texto, é provável que tenha uma latência geral mais baixa.

Um possível ponto negativo, no entanto, volta à flexibilidade que discutimos anteriormente. Em nossos testes nas últimas semanas, o 40-mini foi inicialmente o LLM com menor latência para emparelhar com nossa plataforma de Conversational AI. Esta semana, sua latência mais que dobrou, o que levou nossos usuários a mudar para o Gemini Flash 1.5. Com a Realtime API, não é possível alternar para um LLM mais rápido.

Também observe que a latência de ponta a ponta para sua aplicação de Conversational AI dependerá não apenas do seu provedor, mas também do tamanho da base de conhecimento do seu agente e das condições da sua rede.

Opções de Voz

A Realtime API da OpenAI atualmente tem 6 opções de voz. Nossa biblioteca de vozes tem mais de 3.000 vozes. Você também pode usar o Professional Voice Cloning para usar sua própria voz personalizada em nossa plataforma. Isso significa que a Realtime API não permitirá que você escolha uma voz única para sua marca ou conteúdo.

Preço

Na Realtime API, a entrada de áudio custa $100 por 1M de tokens e a saída custa $200 por 1M de tokens. Isso equivale a aproximadamente $0,06 por minuto de entrada de áudio e $0,24 por minuto de saída de áudio.

ElevenLabs Conversational AI oferece 15 minutos para começar no plano gratuito. O plano Business oferece 13.750 minutos de Conversational AI ($0,08 por minuto), com minutos extras cobrados a $0,08, além de preços significativamente reduzidos para volumes maiores.

Recursos Adicionais da Plataforma

No final de cada chamada, a Realtime API envia eventos em formato JSON contendo trechos de texto e áudio, incluindo a transcrição e gravações da chamada e quaisquer chamadas funcionais feitas. Cabe a você ler, processar, relatar e exibir essas informações de uma forma que seja útil para sua equipe.

Nossa plataforma possui funcionalidades integradas para avaliar o sucesso de uma chamada, extrair dados estruturados e exibi-los junto com a transcrição, resumo e gravação em nosso painel para sua equipe revisar.

Explore artigos da equipe ElevenLabs

ElevenLabs

Create with the highest quality AI Audio

Get started free

Já tem uma conta? Log in