
Transcrivez la parole en temps réel avec l’API ElevenLabs
API Speech to Text en temps réel
Transcrivez la parole en direct avec Scribe v2 Realtime
Scribe v2 Realtime est le modèle de transcription en temps réel le plus précis avec 150 ms de latence dans plus de 90 langues. Disponible via API.
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
Pensé pour la rapidité et la précision
Ultra-rapide, ultra-précis, conçu pour la parole en direct. Scribe v2 Realtime offre une transcription instantanée pour les usages en temps réel.
Transcription en temps réel la plus précise
Scribe v2 Realtime atteint une précision de transcription inégalée avec environ 150 ms de latence, même dans des conditions audio difficiles ou avec des accents variés.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Conçue pour tous les usages
Une transcription efficace même dans le bruit, avec musique de fond, accents marqués et audio de faible qualité.
Reconnaissance vocale optimisée pour la performance en temps réel
Basé sur Scribe v1, Scribe v2 Realtime atteint environ 150 ms de latence avec une précision inédite sur les accents, les tons et tous les environnements.

Conçu pour les Agents et applications vocales
Scribe v2 Realtime est conçu pour les développeurs qui créent des agents conversationnels, des assistants de réunion et des applications vocales où la rapidité et la précision sont essentielles.
Transcription prédictive pour une faible latence
Scribe v2 Realtime utilise la transcription prédictive pour anticiper les mots et la ponctuation les plus probables – garantissant une précision en temps réel.
Détection d’Activité Vocale
Détecte le début et la fin de la parole, segmente l’audio précisément pour une transcription fluide et efficace en temps réel.
Contrôle manuel de validation
Permet aux développeurs de choisir quand finaliser les transcriptions – idéal pour le streaming personnalisé et une précision ajustée.
Formats audio multiples
Compatible avec l’audio PCM (8–48 kHz) et l’encodage μ-law pour la téléphonie, les navigateurs et les studios.
Des modèles optimisés pour chaque usage
Scribe v2 pour les usages en volume, et Scribe v2 Realtime pour les besoins à faible latence

Scribe v2
Précision maximale, conçu pour les traitements par lots.
- Précision >95 %
- Plus de 90 langues
- Détection des événements non vocaux
- Détection d’entités
- Saisie de mots-clés

Scribe v2 Realtime
Latence minimale, pour les usages en temps réel.
- Moins de 150 ms de latence
- Plus de 90 langues
- Transcription en streaming
- Détection d’activité vocale
- Reconnaissance automatique des langues
Transcrivez la parole dans plus de 90 langues et de nombreux accents
Une précision exceptionnelle, quels que soient les accents, dialectes ou conditions d’enregistrement.
Modifiez le languageCode pour prévisualiser les langues
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Définir la langue
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});Nous accompagnons les plus grandes entreprises et marques du monde
“Du doublage de Reels dans des langues locales à la création de musiques et de voix de personnages dans Horizon, la plateforme ElevenLabs permet aux créateurs, entreprises et organisations du monde entier de travailler la voix, la musique et le son à grande échelle.”
“La précision inégalée de Scribe dans autant de langues permet à Fieldy de comprendre chaque conversation quotidienne et de se développer facilement à l’international. Fieldy a augmenté la fidélité de ses utilisateurs de 50 % après être passé à ElevenLabs Scribe.”
“ElevenLabs nous a permis d’intégrer rapidement des fonctionnalités puissantes de Text to Speech à notre SDK, pour que les Agents répondent en temps réel avec des voix expressives aux questions des utilisateurs ou en retour sur ce qu’ils voient.”

“Twilio a intégré la technologie de voix IA générative d’ElevenLabs à sa CPaaS, améliorant ConversationRelay. Cette intégration permet aux entreprises et développeurs de créer des interactions vocales IA conversationnelles, naturelles, expressives et en temps réel directement depuis la plateforme CPaaS de Twilio. Chez ElevenLabs, nous sommes ravis que Twilio ait choisi ElevenLabs pour enrichir ConversationRelay avec les voix les plus expressives et naturelles disponibles.”
Des API prêtes pour la production

Tarifs flexibles selon vos besoins
Profitez d’une précision et d’une réactivité de pointe avec des tarifs adaptés aussi bien aux start-ups qu’aux équipes en entreprise.
0,28 $ de l’heure et moins
avec les offres Business annuelles

Questions fréquentes
Dernières nouveautés

.webp&w=3840&q=80)
Parlez à une statue : créer une application multi-modale avec ElevenAgents




Fonds des ingénieurs OSS ElevenLabs : soutenir les projets open-source qui façonnent notre travail
.webp&w=3840&q=80)
Ajoutez un agent vocal du Père Noël à votre application React en quelques minutes

Découvrez ElevenLabs UI : composants audio et agents open source pour le web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API : Duel des Agents Conversationnels