Direkt zum Inhalt

Echtzeit Speech to Text API

Sprache live mit Scribe v2 Realtime transkribieren

Scribe v2 Realtime ist das präziseste Echtzeit-Transkriptionsmodell mit 150 ms Latenz in über 90 Sprachen. Verfügbar per API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Für Geschwindigkeit und Präzision entwickelt

Extrem schnell, präzise und für Live-Sprache entwickelt. Scribe v2 Realtime liefert sofortige Transkription für Echtzeitanwendungen.

Scribe v2 Realtime erreicht branchenführende Transkriptionsgenauigkeit mit ~150 ms Latenz – auch bei schwierigen Audioquellen oder unterschiedlichen Akzenten.

Höchste Genauigkeit in Echtzeit

Scribe v2 Realtime erreicht branchenführende Transkriptionsgenauigkeit mit ~150 ms Latenz – auch bei schwierigen Audioquellen oder unterschiedlichen Akzenten.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Für jeden Anwendungsfall entwickelt

Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.

Spracherkennung für Echtzeit-Performance optimiert

Basierend auf Scribe v1 bietet Scribe v2 Realtime ~150 ms Latenz mit hoher Genauigkeit über Akzente, Tonlagen und Umgebungen hinweg.

Kann ich eine Rückerstattung bekommen?
Natürlich. Können Sie mir bitte Ihre Bestellnummer mitteilen?
Es ist EL4543490
Danke. Ich habe den Rückerstattungsprozess eingeleitet.
Rückerstattung abgeschlossen

Speziell für Agents und Voice-Anwendungen entwickelt

Scribe v2 Realtime ist speziell für Entwickler konzipiert, die Conversational Agents, Meeting-Assistenten und Voice-Anwendungen bauen, bei denen Geschwindigkeit und Genauigkeit entscheidend sind.

Scribe
makes
uses
is
has
new

Prädiktive Transkription für niedrige Latenz

Scribe v2 Realtime nutzt prädiktive Transkription, um die wahrscheinlichsten nächsten Wörter und Satzzeichen vorherzusagen – für präzise Echtzeit-Ergebnisse.

Spracherkennung (Voice Activity Detection)

Erkennt, wann Sprache beginnt und endet, und segmentiert Audio präzise für eine reibungslose Echtzeit-Transkription.

Manuelle Commit-Steuerung

Entwickler steuern, wann Transkripte finalisiert werden – ideal für individuelles Streaming und maximale Genauigkeit.

Mehrere Audioformate

Unterstützt PCM (8–48 kHz) und μ-law-Codierung für Kompatibilität mit Telefonie, Browser und Studio.

Modelle für jeden Anwendungsfall optimiert

Scribe v2 für große Datenmengen und Scribe v2 Realtime für Anwendungen mit niedriger Latenz

Black Mountain

Scribe v2

Höchste Genauigkeit, für Batch-Workloads entwickelt.

  • >95 % Genauigkeit
  • Über 90 Sprachen
  • Erkennung von Nicht-Sprachereignissen
  • Entitätenerkennung
  • Keyterm Prompting
Mountains

Scribe v2 Echtzeit

Niedrigste Latenz, für Echtzeit-Anwendungen.

  • Unter 150 ms Latenz
  • Über 90 Sprachen
  • Transkriptions-Streaming
  • Sprachaktivitätserkennung
  • Automatische Spracherkennung

Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten

Hohe Genauigkeit bei Akzenten, Dialekten und unterschiedlichen Aufnahmebedingungen.

Ändern Sie den languageCode, um Sprachen zu testen

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Sprache festlegen onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Englisch
Flag for zh
Chinesisch
Flag for es
Spanisch
Flag for fr
Französisch
Flag for pt
Portugiesisch
Flag for de
Deutsch
Flag for ja
Japanisch
Flag for it
Italienisch
Flag for hi
Hindi
Flag for en
EnglischZum Vorschau klicken

Im Einsatz bei führenden Unternehmen und Marken weltweit

  • Von der Synchronisation von Reels in Landessprachen bis zur Erstellung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, Stimme, Musik und Sound in großem Maßstab einzusetzen.
    Meta Color Logo
  • Die hohe Genauigkeit von Scribe in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe ist die Nutzerbindung bei Fieldy um 50 % gestiegen.
    Fieldy logo
  • Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzeranfragen oder visuelle Rückmeldungen reagieren.
    Stream Color Logo
  • Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay erweitert. Damit können Unternehmen und Entwickler KI-basierte Sprachinteraktionen erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über Twilio CPaaS reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu verbessern.
    Twilio logo

APIs für den Produktiveinsatz

Foreground

Flexible Preise nach Bedarf

Erleben Sie höchste Genauigkeit und Reaktionsgeschwindigkeit – mit Preisen, die vom Startup bis zum Enterprise-Team skalieren.

Ab $0,28 pro Stunde und günstiger

bei jährlichen Business-Tarifen

UI Screenshot

Häufig gestellte Fragen

Neueste Updates

Die realistischste Audio-KI-Plattform