Comparaison de l'IA conversationnelle d'ElevenLabs et de l'API en temps réel d'OpenAI

Comparer deux lancements de produits récents pour vous aider à trouver le meilleur produit pour votre cas d'utilisation

Mis à jour le 18 octobre 2024

Le mois dernier, deux lancements de produits majeurs ont eu lieu dans le monde de l'IA conversationnelle : notre plateforme d'orchestration d'IA conversationnelle et l'API en temps réel d'OpenAI. Nous avons rédigé cet article pour vous aider à faire la distinction entre les deux et à déterminer celui qui convient le mieux à votre cas d'utilisation.

Aperçu

Ces deux produits sont conçus pour vous aider à créer des agents vocaux conversationnels en temps réel. IA conversationnelle d'ElevenLabs rend cela possible grâce à une plate-forme d'orchestration qui crée une transcription de la parole à l'aide de Speech to Text, envoie cette transcription à un LLM de votre choix avec une base de connaissances personnalisée, puis exprime la réponse du LLM à l'aide de Text to Speech. Il s'agit d'une solution de bout en bout incluant la surveillance et l'analyse des appels passés et offrira bientôt un cadre de test et des intégrations téléphoniques. 

L'API en temps réel d'OpenAI est construite sur une architecture différente dans laquelle le modèle prend l'audio (la parole) comme entrée et fournit l'audio (la parole) directement comme sortie. Il n’existe aucune étape par laquelle l’audio est converti en transcription écrite et transmis à un LLM, ce qui permet probablement des gains de latence. Il n'est disponible que via API et n'est pas une plateforme de bout en bout. 
FonctionnalitéElevenLabs Conv AIOpenAI Realtime
Nombre total de voix3 000 +6
LLMs pris en chargeApportez votre propre serveur ou choisissez parmi l'un des principaux fournisseursModèles OpenAI uniquement
Suivi et analyse des appelsOui, tableau de bord intégréNon, doit être créé à l'aide de l'API
Latence1 à 3 secondes selon la latence du réseau et la taille de la base de connaissancesProbablement plus rapide en raison de l'absence d'étape de transcription
Prix10 centimes par minute pour les entreprises, jusqu'à 2-3 centimes par minute pour les entreprises avec un volume élevé (+ coût LLM) ~15 centimes par minute [6 centimes par minute en entrée, 24 centimes par minute en sortie]
Clonage vocalOui, apportez votre propre voix avec un PVCPas de clonage vocal
Accès APIOui, tous les plansOui, tous les plans

Comment ils se comparent

Comprendre les émotions et la prononciation

Lorsque notre IA conversationnelle convertit la parole en texte, certaines informations sont perdues, notamment l’émotion, le ton et la prononciation du discours. Étant donné que l'API en temps réel d'OpenAI passe directement de la parole à la parole, aucun contexte n'est perdu. Cela le rend plus adapté à certains cas d'utilisation comme la correction de la prononciation d'une personne lors de l'apprentissage d'une nouvelle langue ou l'identification et la réponse aux émotions en thérapie.

Flexibilité

Lorsque vous utilisez l'API en temps réel, vous utilisez l'infrastructure d'OpenAI pour une expérience conversationnelle complète. Il n'est pas possible d'intégrer le LLM d'une autre entreprise, ni d'apporter le vôtre, car l'API en temps réel ne prend que l'audio en entrée et renvoie l'audio en sortie.

Avec notre plateforme d'IA conversationnelle, vous pouvez modifier le LLM qui alimente votre modèle à tout moment (y compris en utilisant les modèles d'OpenAI). Alors qu'Anthropic, OpenAI, Google, NVIDIA et d'autres continuent de se surpasser dans la course pour avoir le LLM le plus performant, vous pouvez mettre à jour à tout moment afin de toujours utiliser la technologie de pointe.

Et pour les entreprises qui ont créé leur propre LLM interne affiné, que ce soit pour des raisons de performances ou de confidentialité, il est possible de l'intégrer à la plateforme d'IA conversationnelle d'ElevenLab mais pas à l'API en temps réel d'OpenAI.

Latence

Lors de l'évaluation d'un modèle de latence, deux facteurs importants doivent être pris en compte

(1) La latence moyenne est-elle suffisamment faible pour créer une expérience utilisateur fluide ?

(2) Dans quelle mesure la latence fluctue-t-elle et à quoi ressemble l'expérience utilisateur pour la latence P90 et P99 ?

L’un des avantages potentiels de l’API OpenAI Realtime est que, comme elle supprime l’étape intermédiaire de transformation de la parole en texte, elle est susceptible d’avoir une latence globale plus faible.

Il existe toutefois un inconvénient potentiel lié à la flexibilité dont nous avons parlé plus tôt. Lors de nos tests au cours des dernières semaines, le 40-mini était initialement le LLM à latence la plus faible à associer à notre plateforme d'IA conversationnelle. Cette semaine, sa latence a plus que doublé, ce qui a conduit nos utilisateurs à passer à Gemini Flash 1.5. Avec l'API en temps réel, il n'est pas possible de passer à un LLM plus rapide.

Notez également que la latence de bout en bout de votre application d'IA conversationnelle dépendra non seulement de votre fournisseur, mais également de la taille de la base de connaissances de votre agent et des conditions de votre réseau.

Options vocales

L'API en temps réel d'OpenAI dispose actuellement de 6 options vocales. Notre bibliothèque vocale compte plus de 3 000 voix. Vous pouvez également utiliser le clonage vocal professionnel pour utiliser votre propre voix personnalisée sur notre plateforme.  Cela signifie que l'API en temps réel ne vous permettra pas de choisir une voix unique pour votre marque ou votre contenu.

Prix

Dans l'API en temps réel, l'entrée audio est facturée 100 $ pour 1 M de jetons et la sortie est facturée 200 $ pour 1 M de jetons. Cela équivaut à environ 0,06 $ par minute d’entrée audio et 0,24 $ par minute de sortie audio. 

ElevenLabs Conversational AI coûte 1 000 crédits par minute (+ coûts LLM), soit 10 cents par minute (+ coûts LLM) sur notre plan Business et aussi peu que quelques cents par minute pour les clients Enterprise avec des volumes d'appels élevés.

Fonctionnalités supplémentaires de la plateforme

À la fin de chaque appel, l'API en temps réel envoie des événements au format JSON contenant des morceaux de texte et d'audio, y compris la transcription et les enregistrements de l'appel et de tous les appels fonctionnels effectués. C'est à vous de lire, de traiter, de signaler et d'afficher ces informations d'une manière utile à votre équipe.

Notre plateforme dispose de fonctionnalités intégrées permettant d'évaluer le succès d'un appel, d'extraire les données de structure et de les afficher avec la transcription, le résumé et l'enregistrement dans notre tableau de bord pour que votre équipe puisse les examiner.

En voir plus

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter