
How we scaled our customer interview process with ElevenLabs Agents
We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.
Unser Streaming-Sprach-zu-Text-Modell mit extrem niedriger Latenz, optimiert für agentische Anwendungsfälle, ist jetzt auf der Agents-Plattform verfügbar.
Diese Woche haben wir
Scribe v2 Realtime transcribes speech in under 150ms with state-of-the-art accuracy, enabling agents to respond as naturally as humans do in conversation.
Die meisten Sprach-zu-Text-Systeme funktionieren gut in sauberen Testumgebungen, haben jedoch Schwierigkeiten in der Realität - bei lauten Hintergründen, unterschiedlichen Akzenten oder Identifikatoren wie Namen, E-Mails und IDs.
Scribe v2 Realtime wurde genau für diese Herausforderungen trainiert.
In internen Benchmarks mit Hunderten von herausfordernden englischen Gesprächsproben mit schlechter Audioqualität, unterschiedlichen Akzenten und Füllwörtern erfasste Scribe v2 Realtime die Benutzerabsicht genauer als jedes konkurrierende Echtzeit-ASR-Modell.
Unten sind ein paar reale Beispiele, bei denen wir die Transkriptionsgenauigkeit von Scribe v2 Realtime in verschiedenen Umgebungen getestet haben.
Als globales Unternehmen mit einem großen Anteil an Agenten, die in Spanisch, Portugiesisch, Hindi und vielen anderen Sprachen eingesetzt werden, war es entscheidend, dass Scribe v2 Realtime in allen Regionen eine erstklassige Leistung beibehält.
Beim FLEURS-Mehrsprachen-Benchmark, der die Genauigkeit in 30 Sprachen misst, erreichte Scribe v2 Realtime die niedrigste Wortfehlerrate (WER) aller ASR-Modelle mit niedriger Latenz.
Dies ermöglicht es Unternehmen, mehrsprachige Agenten einzusetzen, die sofort und genau reagieren, ohne Kompromisse bei Geschwindigkeit oder Präzision einzugehen.
Scribe v2 Realtime ist vollständig in ElevenLabs Agents integriert und kann im Abschnitt Erweiterte Konfiguration aktiviert werden.


We used ElevenLabs Agents to interview over 230 users of our ElevenReader app in 24 Hours.

Enabling cinematic storytelling with Text to Speech and Music
Bereitgestellt von ElevenLabs Agenten