
Giving voice back to stroke survivors
On World Stroke Day, the ElevenLabs Impact Program is partnering with Stroke Onward to help survivors reclaim their voices.
Un guide pour choisir la bonne plateforme d'agents conversationnels
Nous avons considérablement élargi notre offre d'agents conversationnels avec des lancements majeurs cette année et l'avons rebaptisée ElevenLabs Agents. Pendant ce temps, OpenAI a publié des mises à jour importantes du modèle gpt-realtime et de ses capacités API Realtime.
Ce guide compare la dernière version des deux produits pour vous aider à évaluer celui qui convient le mieux à vos besoins de développement d'agents conversationnels.
Les agents conversationnels sont des systèmes où les gens peuvent parler naturellement, les agents comprennent ce qu'ils veulent dire et répondent oralement en temps réel. Les deux produits permettent aux développeurs de créer des agents conversationnels, mais adoptent des approches architecturales différentes.
L'API Realtime d'OpenAI utilise un modèle intégré de speech-to-speech qui simplifie le traitement en réduisant les étapes intermédiaires. ElevenLabs Agents, en revanche, utilise une architecture modulaire qui enchaîne des composants Speech to Text, LLM et Text to Speech séparés.

Bien qu'OpenAI offre des atouts en compréhension émotionnelle et ajustement dynamique de la voix, ElevenLabs Agents se distingue par plusieurs avantages clés par rapport à l'API Realtime :
Independent evaluation show advantages for ElevenLabs Agents across reasoning, instruction following, and function calling:
Des performances de benchmark plus élevées se traduisent directement par une réduction de la gestion des erreurs, des expériences utilisateur plus fluides et une réduction des frais opérationnels. Avec ElevenLabs Agents, vous pouvez concevoir des systèmes qui répondront plus précisément et de manière cohérente.
Avec l'API Realtime d'OpenAI, les développeurs ont un contrôle limité sur la sortie du système. Les transcriptions échouent souvent à capturer avec précision l'entrée audio originale. La gestion des langues est également moins prévisible : l'API peut changer de langue en cours de conversation sans l'intention de l'utilisateur, entraînant des interactions confuses.
Les ElevenLabs Agents, en revanche, offrent une plus grande fiabilité de sortie. Son architecture modulaire nous permet d'exploiter un modèle Speech to Text hautement spécialisé, avec la sortie de transcription passant directement dans le modèle de langue sans traitement intermédiaire.
Cette chaîne simplifiée permet à ElevenLabs de produire des transcriptions qui représentent plus fidèlement l'audio original. De plus, les développeurs peuvent spécifier exactement quelles langues un agent est capable de comprendre et de parler, garantissant que les conversations restent cohérentes et alignées avec les attentes des utilisateurs.

L'API Realtime d'OpenAI est limitée aux modèles gpt-realtime, ce qui peut inquiéter les organisations cherchant à éviter l'enfermement propriétaire ou nécessitant des caractéristiques de modèle spécifiques.
ElevenLabs Agents offre de la flexibilité en prenant en charge plusieurs fournisseurs de LLM, y compris des alternatives open-source, des modèles GPT, Claude, Gemini et des modèles entraînés sur mesure. Cela vous permet d'exploiter les derniers modèles SOTA LLM ou d'utiliser vos propres modèles lorsque la confidentialité est une priorité.
Imaginez parler à quelqu'un qui interrompt constamment en milieu de phrase ou laisse des silences gênants lorsqu'il devrait répondre. C'est pourquoi la prise de parole représente l'un des plus grands défis de l'IA conversationnelle : savoir quand répondre.
L'API Realtime d'OpenAI repose sur une détection simple de l'activité vocale (VAD) qui répond fréquemment avant que les utilisateurs ne terminent leurs pensées. Le système manque également souvent de conscience contextuelle, traitant les signaux conversationnels naturels comme "hmm", "d'accord", comme des interruptions plutôt que des schémas de discours normaux. Cela conduit à des échanges frustrants où l'agent intervient prématurément ou crée un flux de conversation non naturel.
ElevenLabs a développé un modèle de prise de parole propriétaire qui analyse à la fois le texte et l'audio simultanément. En incorporant des indices prosodiques - ton, rythme et accentuation vocale - aux côtés du contenu linguistique, notre système comprend réellement la différence entre une pause en milieu de phrase et un point final de conversation. Nous appliquons également une optimisation spécifique au domaine, reconnaissant que les schémas de prise de parole varient considérablement selon les contextes. Par exemple, les agents ElevenLabs s'adaptent au contexte de différents cas d'utilisation tels que les appels de support client, les interactions web et les questions avec réponses numériques.
Alors que l'API Realtime d'OpenAI propose seulement 10 voix préréglées, ElevenLabs Agents offre la plus grande bibliothèque de voix du marché avec plus de 5 000 voix à travers les langues et les accents régionaux. De plus, les développeurs peuvent également créer des voix entièrement personnalisées avec des fonctionnalités de clonage, de conception ou de remixage. Cela signifie que vous pouvez facilement concevoir une voix pour votre marque ou choisir une voix de haute qualité pour votre cas d'utilisation.

OpenAI privilégie une faible latence comme essentielle pour des expériences conversationnelles naturelles. Bien que la latence absolue soit importante, sa cohérence est tout aussi cruciale pour l'expérience utilisateur finale. L'API Realtime d'OpenAI offre une latence absolue supérieure mais dépend exclusivement des modèles OpenAI, créant une vulnérabilité aux interruptions de service pouvant entraîner des pics de latence inattendus.
Grâce à un écosystème diversifié de fournisseurs de LLM, ElevenLabs Agents montre une gamme plus large de performances de latence. Nos modèles auto-hébergés offrent une latence comparable à la meilleure performance d'OpenAI, tandis que les fournisseurs tiers peuvent introduire des délais supplémentaires selon le modèle sélectionné.
Ce qui nous distingue, c'est notre architecture de secours en cascade - lorsqu'un modèle principal rencontre des problèmes, le système passe automatiquement à des LLM de secours. Cette approche garantit des performances plus cohérentes même lorsque des fournisseurs individuels rencontrent des pannes ou des ralentissements.
L'API RealTime d'OpenAI fonctionne uniquement en mode agent unique, ce qui limite son applicabilité pour des scénarios commerciaux complexes.
ElevenLabs Agents permet des architectures multi-agents où des agents spécialisés gèrent des fonctions distinctes (facturation, support, ventes) et transfèrent sans heurt les conversations à d'autres agents ou humains. Le créateur de workflow sans code peut aider à créer ces processus sans connaissances en programmation. Le support pour la configuration multi-agents permet aux agents de s'adapter naturellement à la croissance organisationnelle au lieu de nécessiter que les développeurs contournent les limitations de la plateforme.

L'API Realtime d'OpenAI utilise un traitement de la parole de bout en bout, rendant les tests complexes puisque les entrées et sorties sont basées sur l'audio. Créer et évaluer des cas de test audio est techniquement difficile.
ElevenLabs adopte une approche différente, permettant des tests basés sur le texte des composants individuels. Notre plateforme Agents est conçue pour le développement axé sur les tests - vous pouvez définir des attentes comportementales, générer des scénarios de test à partir de conversations réelles et valider automatiquement les changements avant le déploiement en production. Ce cadre de test est disponible via l'interface utilisateur et l'API.
Notre plateforme Agents inclut également des analyses intégrées avec des métriques de performance granulaires et des normes d'évaluation, ainsi que l'enregistrement automatique des appels et l'archivage des transcriptions pour une collecte de données approfondie soutenant à la fois l'analyse et la conformité réglementaire.
En revanche, l'API Realtime d'OpenAI manque de ces capacités de niveau entreprise, laissant les développeurs construire leurs propres systèmes d'analyse et gérer indépendamment la gestion du stockage des données.
L'API Realtime d'OpenAI a récemment introduit le support du trunking SIP. ElevenLabs Agents offre des capacités téléphoniques plus larges, y compris des intégrations natives avec Twilio et Genesys en plus du trunking SIP.
De plus, ElevenLabs propose des fonctionnalités d'appel sortant complètes telles que la détection de messagerie vocale, la navigation IVR et les appels en masse. Cela peut débloquer des cas d'utilisation sortants tels que la qualification de prospects, les suivis clients, les notifications de rendez-vous, le recouvrement de créances, etc.
ElevenLabs Agents a un tarif de niveau entreprise de 0,096 $ par minute au plus haut, avec des remises importantes sur le volume et pour les entreprises disponibles. Les coûts LLM sont supplémentaires et varient selon le modèle sélectionné.
L'API Realtime d'OpenAI utilise une tarification basée sur les jetons : 32 $ par 1M de jetons d'entrée audio (0,5 $ pour l'entrée mise en cache) et 64 $ par 1M de jetons de sortie audio. Converti en estimations par minute, l'utilisation de base commencerait autour de 0,1 $ par minute mais dépasse souvent 0,2 $ par minute en incorporant les invites typiques du système de production.
Pour des prototypes simples, OpenAI peut offrir des coûts inférieurs. Cependant, ElevenLabs Agents devient nettement plus rentable pour les déploiements en production nécessitant une utilisation à haut volume et des invites système complètes.

L'API Realtime d'OpenAI se concentre sur une bonne latence et une adaptation dynamique de la voix, ce qui la rend idéale pour créer des prototypes et des applications telles que des compagnons personnels.
ElevenLabs Agents met l'accent sur la performance fiable des agents, des expériences conversationnelles naturelles et une plateforme de développement de bout en bout avec un prix compétitif à grande échelle. Les développeurs qui valorisent la fiabilité, les options de personnalisation étendues et une infrastructure prête pour l'entreprise trouveront que nos Agents offrent une base plus large pour développer des applications sophistiquées de voix IA.
Référence

On World Stroke Day, the ElevenLabs Impact Program is partnering with Stroke Onward to help survivors reclaim their voices.

Increasing client engagement with voice-first assistants
Propulsé par ElevenLabs Agents