
How we scaled our customer interview process with ElevenLabs Agents
We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.
Notre modèle de streaming Speech to Text à ultra-faible latence, optimisé pour les cas d'utilisation agentiques, est maintenant disponible sur la plateforme Agents.
Cette semaine, nous avons introduit
Scribe v2 Realtime transcribes speech in under 150ms with state-of-the-art accuracy, enabling agents to respond as naturally as humans do in conversation.
La plupart des systèmes Speech to Text fonctionnent bien dans des environnements de test propres mais ont du mal face à la réalité - bruits de fond, accents divers, ou identifiants comme les noms, emails et identifiants.
Scribe v2 Realtime a été entraîné pour gérer précisément ces défis.
Dans des benchmarks internes sur des centaines d'échantillons de conversations anglaises difficiles avec une mauvaise qualité audio, des accents divers et des mots de remplissage, Scribe v2 Realtime a capturé l'intention de l'utilisateur plus précisément que tout autre modèle ASR en temps réel concurrent.
Voici quelques exemples réels où nous avons testé la précision de transcription de Scribe v2 Realtime dans différents environnements.
En tant qu'entreprise mondiale avec une grande part d'agents déployés en espagnol, portugais, hindi et bien d'autres langues, il était crucial que Scribe v2 Realtime maintienne une performance de pointe dans toutes les régions.
Sur le benchmark multilingue FLEURS, qui mesure la précision dans 30 langues, Scribe v2 Realtime a atteint le taux d'erreur de mots (WER) le plus bas de tous les modèles ASR à faible latence.
Cela permet aux entreprises de lancer des agents multilingues qui répondent instantanément et avec précision, sans compromettre la vitesse ou la précision.
Scribe v2 Realtime est entièrement intégré dans ElevenLabs Agents et peut être activé dans la section de configuration avancée.


We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.

Enabling cinematic storytelling with Text to Speech and Music
Propulsé par ElevenLabs Agents