Passer au contenu

API Speech to Text en temps réel

Transcrivez la parole en direct avec Scribe v2 Realtime

Scribe v2 Realtime est le modèle de transcription en temps réel le plus précis avec 150 ms de latence dans plus de 90 langues. Disponible via API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Pensé pour la rapidité et la précision

Ultra-rapide, ultra-précis, conçu pour la parole en direct. Scribe v2 Realtime offre une transcription instantanée pour les usages en temps réel.

Scribe v2 Realtime atteint une précision de transcription inégalée avec environ 150 ms de latence, même dans des conditions audio difficiles ou avec des accents variés.

Transcription en temps réel la plus précise

Scribe v2 Realtime atteint une précision de transcription inégalée avec environ 150 ms de latence, même dans des conditions audio difficiles ou avec des accents variés.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Conçue pour tous les usages

Une transcription efficace même dans le bruit, avec musique de fond, accents marqués et audio de faible qualité.

Reconnaissance vocale optimisée pour la performance en temps réel

Basé sur Scribe v1, Scribe v2 Realtime atteint environ 150 ms de latence avec une précision inédite sur les accents, les tons et tous les environnements.

Puis-je obtenir un remboursement ?
Bien sûr. Pouvez-vous partager votre numéro de commande s'il vous plaît ?
C’est EL4543490
Merci. J'ai lancé le processus de remboursement de la commande.
Remboursement effectué

Conçu pour les Agents et applications vocales

Scribe v2 Realtime est conçu pour les développeurs qui créent des agents conversationnels, des assistants de réunion et des applications vocales où la rapidité et la précision sont essentielles.

Scribe
makes
uses
is
has
new

Transcription prédictive pour une faible latence

Scribe v2 Realtime utilise la transcription prédictive pour anticiper les mots et la ponctuation les plus probables – garantissant une précision en temps réel.

Détection d’Activité Vocale

Détecte le début et la fin de la parole, segmente l’audio précisément pour une transcription fluide et efficace en temps réel.

Contrôle manuel de validation

Permet aux développeurs de choisir quand finaliser les transcriptions – idéal pour le streaming personnalisé et une précision ajustée.

Formats audio multiples

Compatible avec l’audio PCM (8–48 kHz) et l’encodage μ-law pour la téléphonie, les navigateurs et les studios.

Des modèles optimisés pour chaque usage

Scribe v2 pour les usages en volume, et Scribe v2 Realtime pour les besoins à faible latence

Black Mountain

Scribe v2

Précision maximale, conçu pour les traitements par lots.

  • Précision >95 %
  • Plus de 90 langues
  • Détection des événements non vocaux
  • Détection d’entités
  • Saisie de mots-clés
Mountains

Scribe v2 Realtime

Latence minimale, pour les usages en temps réel.

  • Moins de 150 ms de latence
  • Plus de 90 langues
  • Transcription en streaming
  • Détection d’activité vocale
  • Reconnaissance automatique des langues

Transcrivez la parole dans plus de 90 langues et de nombreux accents

Une précision exceptionnelle, quels que soient les accents, dialectes ou conditions d’enregistrement.

Modifiez le languageCode pour prévisualiser les langues

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Définir la langue onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Anglais
Flag for zh
Chinois
Flag for es
Espagnol
Flag for fr
Français
Flag for pt
Portugais
Flag for de
Allemand
Flag for ja
Japonais
Flag for it
Italien
Flag for hi
Hindi
Flag for en
AnglaisCliquez pour prévisualiser

Nous accompagnons les plus grandes entreprises et marques du monde

  • Du doublage de Reels dans des langues locales à la création de musiques et de voix de personnages dans Horizon, la plateforme ElevenLabs permet aux créateurs, entreprises et organisations du monde entier de travailler la voix, la musique et le son à grande échelle.
    Meta Color Logo
  • La précision inégalée de Scribe dans autant de langues permet à Fieldy de comprendre chaque conversation quotidienne et de se développer facilement à l’international. Fieldy a augmenté la fidélité de ses utilisateurs de 50 % après être passé à ElevenLabs Scribe.
    Fieldy logo
  • ElevenLabs nous a permis d’intégrer rapidement des fonctionnalités puissantes de Text to Speech à notre SDK, pour que les Agents répondent en temps réel avec des voix expressives aux questions des utilisateurs ou en retour sur ce qu’ils voient.
    Stream Color Logo
  • Twilio a intégré la technologie de voix IA générative d’ElevenLabs à sa CPaaS, améliorant ConversationRelay. Cette intégration permet aux entreprises et développeurs de créer des interactions vocales IA conversationnelles, naturelles, expressives et en temps réel directement depuis la plateforme CPaaS de Twilio. Chez ElevenLabs, nous sommes ravis que Twilio ait choisi ElevenLabs pour enrichir ConversationRelay avec les voix les plus expressives et naturelles disponibles.
    Twilio logo

Des API prêtes pour la production

Foreground

Tarifs flexibles selon vos besoins

Profitez d’une précision et d’une réactivité de pointe avec des tarifs adaptés aussi bien aux start-ups qu’aux équipes en entreprise.

0,28 $ de l’heure et moins

avec les offres Business annuelles

UI Screenshot

Questions fréquentes

Dernières nouveautés

La plateforme audio IA la plus réaliste