Direkt zum Inhalt

Speech to Text

Die genauesten Speech to Text-Modelle

Scribe v2 ist das genaueste Speech to Text-Modell. Scribe v2 Realtime setzt den Maßstab für Live-Transkriptionen – unterstützt Agenten und Echtzeitanwendungen. Beide über API verfügbar.

Scribe v2 Realtime

Echtzeit-Speech to Text in unter 150 ms mit Scribe v2 Realtime

Scribe v2 Realtime nutzt die Streaming-First-Architektur von ElevenLabs, um Live-Sprache sofort in Text umzuwandeln, in über 90 Sprachen.

Live call
I’m
happy
to
help.
What’s
your
email
address?
It’s
john.doe@me.com
Thanks.
And
your
phone
number?
1-800-404

Live-Sprache transkribieren

Scribe v2 Realtime erfasst Live-Sprache in unter 150 ms mit außergewöhnlicher Genauigkeit – entwickelt für Agenten, Meetings und KI-Agenten, die sofortiges Verständnis erfordern.

Ein Balkendiagramm zeigt, dass Scribe Realtime Gemini, OpenAI und Deepgram Speech to Text-Modelle in der Genauigkeit übertrifft.

Hohe Genauigkeit und extrem niedrige Latenz

Scribe v2 Realtime liefert branchenführende Genauigkeit mit einer Latenz von unter 150 ms und setzt einen neuen Maßstab für die Echtzeit-Spracherkennung.

Sprachaktivitätserkennung

Erkennen Sie automatisch, wann Sprache beginnt und endet, und segmentieren Sie Sprache präzise für eine reibungslosere Live-Verarbeitung.

Transkribieren in über 90 Sprachen

Bietet außergewöhnliche Genauigkeit über Akzente, Dialekte und Aufnahmebedingungen hinweg.

Live in der API

Integrieren Sie Scribe Realtime v2 in Ihre Produkte mit der API. Mit vollständiger Streaming-Unterstützung und Kontrollmöglichkeiten.

Scribe v2

Sprache in Text umwandeln, Untertitel erstellen und Audio und Video bearbeiten mit Scribe v2

Erstellen Sie Untertitel, Überschriften und bearbeitbare Transkripte für Podcasts, Videos, Interviews und andere aufgezeichnete Inhalte – alles mit branchenführender Genauigkeit im Studio oder über API.

Amidst the outer atmosphere of the planet Aurora, the sky shimmered with fractured light, as though the planet's veil were made of stained glass suspended in space.
Sensors pulsed with irregular patterns, the kind no algorithm could quite reconcile.
Amidst the outer atmosphere of the planet Aurora, the sky shimmered with fractured light, as though the planet's veil were made of stained glass suspended in space.

Audio und Video transkribieren

Laden Sie Audio oder Video in jedem Format hoch — MP4, MOV, MP3, WAV und mehr. Scribe v2 wandelt Sprache automatisch in präzisen Text um, bereit für Untertitel, Überschriften oder Bearbeitung.

Ein Balkendiagramm zeigt, dass Scribe v2 Gemini, OpenAI und Deepgram Speech to Text-Modelle in der Genauigkeit übertrifft.

Branchenführende Transkriptionsgenauigkeit

Scribe v2 erreicht branchenführende Transkriptionsgenauigkeit und liefert sauberen, bearbeitbaren Text, selbst unter schwierigen Audio-Bedingungen oder bei unterschiedlichen Akzenten.

Schlüsselwort-Prompting

Wählen Sie bis zu 100 spezifische Wörter oder Sätze aus, die Scribe basierend auf dem Kontext genau transkribieren soll.

Dynamische Audiokennzeichnung

Von Lachen bis zu Schritten, Scribe v2 kennzeichnet jedes Geräuschereignis und bereichert Ihre Transkripte mit dem vollständigen Kontext.

Sprecher- und Entitätenerkennung

Scribe v2 unterscheidet intuitiv und kennzeichnet jeden Sprecher und berechnet Entitätszeitstempel.

Unternehmenssicherheit und Infrastruktur im großen Maßstab

Foreground

Für jeden Workflow entwickelt, von API bis Agenten

Speech to Text APIs und SDKs

Integrieren Sie Scribe v2 und Scribe v2 Realtime in Ihr Produkt mit der API oder SDKs.

Scribe API code snippet

ElevenLabs Agents

Ermöglichen Sie Echtzeit-Sprachinteraktionen mit sofortiger, latenzarmer Transkription.

Agents UI screenshot

ElevenLabs Studio

Wandeln Sie Aufnahmen in bearbeitbaren Text, Untertitel und wiederverwendbare Inhalte um.

Studio UI mockup

Häufig gestellte Fragen

Neueste Updates

Die realistischste Voice-AI-Plattform