Passer au contenu

Comparaison entre ElevenLabs Conversational AI et OpenAI Realtime API

Comparaison de deux lancements récents pour vous aider à choisir le produit le plus adapté à votre usage

Mise à jour au 18 octobre 2024

Deux lancements majeurs ont eu lieu dans le domaine de la Conversational AI le mois dernier : notre plateforme d’orchestration Conversational AI et la Realtime API d’OpenAIAPI. Nous avons rédigé cet article pour vous aider à faire la différence entre les deux et à choisir celui qui correspond le mieux à vos besoins.

Aperçu

Ces deux produits sont conçus pour vous aider à créer des agents vocaux conversationnels en temps réel,agents vocaux conversationnels. ElevenLabs Conversational AI permet cela grâce à une plateforme d’orchestration qui crée une transcription à partir de la parole avec Speech to Text, envoie cette transcription à un LLM de votre choix avec une base de connaissances personnalisée, puis vocalise la réponse du LLM avecText to Speech. C’est une solution complète qui inclut le suivi et l’analyse des appels passés et proposera bientôt un cadre de test et des intégrations téléphoniques.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Comparatif

Compréhension de l’émotion et de la prononciation

Quand notre Conversational AI convertit la parole en texte, certaines informations sont perdues, comme l’émotion, le ton et la prononciation. Comme la Realtime API d’OpenAI passe directement de la parole à la parole, aucun contexte n’est perdu. Cela la rend plus adaptée à certains usages, comme corriger la prononciation lors de l’apprentissage d’une langue ou détecter et répondre à l’émotion en thérapie.

Flexibilité

Avec la Realtime API, vous utilisez l’infrastructure d’OpenAI pour toute l’expérience conversationnelle. Il n’est pas possible d’intégrer le LLM d’une autre entreprise, ni d’utiliser le vôtre, car la Realtime API prend uniquement l’audio en entrée et renvoie de l’audio en sortie.

Avec notre plateforme Conversational AI, vous pouvez changer le LLM qui alimente votre modèle à tout moment (y compris les modèles d’OpenAI). Comme Anthropic, OpenAI, Google, NVIDIA et d’autres continuent de se concurrencer pour proposer les LLM les plus performants, vous pouvez mettre à jour à tout moment pour toujours bénéficier de la technologie la plus avancée.

Et pour les entreprises qui ont développé leur propre LLM personnalisé en interne, pour des raisons de performance ou de confidentialité, il est possible de l’intégrer à la plateforme Conversational AI d’ElevenLabs, mais pas à la Realtime API d’OpenAI.

Latence

Pour évaluer la latence d’un modèle, deux facteurs sont importants à prendre en compte

(1) La latence moyenne est-elle suffisamment basse pour garantir une expérience fluide ?

(2) Dans quelle mesure la latence varie-t-elle et à quoi ressemble l’expérience utilisateur pour la latence P90 et P99 ?

Un avantage possible de la Realtime API d’OpenAI est qu’en supprimant l’étape intermédiaire de conversion de la parole en texte, la latence globale est probablement plus faible.

Un inconvénient potentiel concerne la flexibilité évoquée plus haut. Lors de nos tests ces dernières semaines, 40-mini était initialement le LLM avec la latence la plus faible à associer à notre plateforme Conversational AI. Cette semaine, sa latence a plus que doublé, ce qui a poussé nos utilisateurs à passer à Gemini Flash 1.5. Avec la Realtime API, il n’est pas possible de changer pour un LLM plus rapide.

Notez aussi que la latence globale de votre application Conversational AI dépendra non seulement de votre fournisseur, mais aussi de la taille de labase de connaissances de l’agentet de vos conditions réseau.

Options de voix

La Realtime API d’OpenAI propose actuellement 6 voix. Notre bibliothèque de voix en compte plus de 3 000. Vous pouvez aussi utiliser le Voice Cloning professionnel pour créer votre propre voix personnalisée sur notre plateforme. Cela signifie que la Realtime API ne permet pas de choisir une voix unique pour votre marque ou vos contenus.

Tarifs

Avec la Realtime API, l’audio en entrée est facturé 100 $ par million de tokens et la sortie 200 $ par million de tokens. Cela correspond à environ 0,06 $ par minute d’audio en entrée et 0,24 $ par minute d’audio en sortie.

ElevenLabsConversational AIoffre 15 minutes pour commencer avec le forfait gratuit. Le forfait Business propose 13 750 minutes de Conversational AI (0,08 $ la minute), les minutes supplémentaires étant facturées 0,08 $, avec des tarifs dégressifs pour de plus gros volumes.

Fonctionnalités supplémentaires de la plateforme

À la fin de chaque appel, la Realtime API envoie des événements au format JSON contenant des extraits de texte et d’audio, y compris la transcription, les enregistrements de l’appel et les appels fonctionnels effectués. C’est à vous de lire, traiter, analyser et afficher ces informations de façon utile pour votre équipe.

Notre plateforme intègre des outils pour évaluer le succès d’un appel, extraire des données structurées et afficher tout cela avec la transcription, le résumé et l’enregistrement dans notre tableau de bord pour que votre équipe puisse les consulter.

Découvrez les articles de l'équipe ElevenLabs

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter