Question 1

Qu’est-ce que Scribe v2 Realtime ?

Accepted Answer

Scribe v2 Realtime est un modèle Speech to Text en streaming conçu pour la transcription en direct. Il offre une latence de 150 ms avec 93,5 % de précision sur 30 langues – surpassant Gemini Flash 2.5, GPT-4o Mini Transcribe et Deepgram Nova 3 sur le benchmark FLEURS.

Question 2

Quelle est la différence entre Scribe v2 Realtime et Scribe v2 ?

Accepted Answer

Scribe v2 Realtime est optimisé pour le streaming avec une latence de 150 ms. Scribe v2 (batch) est conçu pour l’audio enregistré avec des fonctionnalités supplémentaires comme la diarisation des locuteurs, le marquage audio dynamique et la prise en charge de 99 langues. Utilisez Realtime pour les agents et les applications en direct ; utilisez batch pour les workflows de post-traitement.

Question 3

Quelle est la précision de Scribe pour la transcription en temps réel ?

Accepted Answer

Scribe v2 Realtime atteint une précision de pointe sur 99 langues et reste performant même dans des conditions audio difficiles, avec différents accents et qualités d’enregistrement. Il surpasse les modèles précédents et les principales API sur les benchmarks publics.

Question 4

Quelle est la latence ?

Accepted Answer

Environ 150 ms de bout en bout, hors latence de l’application et du réseau. C’est 3 fois plus rapide que GPT-4o Mini Transcribe à 500 ms.

Question 5

Qu’est-ce que la latence négative / transcription prédictive ?

Accepted Answer

Scribe anticipe le prochain mot et la ponctuation avant qu’ils ne soient prononcés. Cela permet de valider les transcriptions sans attendre de silence, pour un rendu en temps réel plus fluide.

Question 6

Quelles langues sont prises en charge ?

Accepted Answer

Plus de 90 langues avec détection automatique. Le modèle gère les changements de langue en cours de conversation sans configuration.

Question 7

Quels formats audio sont pris en charge ?

Accepted Answer

Audio PCM de 8 kHz à 48 kHz et encodage μ-law. Compatible avec la téléphonie, les navigateurs et les sources studio.

Question 8

Scribe v2 Realtime gère-t-il la diarisation des locuteurs ?

Accepted Answer

Non, pas pour l’instant. Pour l’identification de plusieurs locuteurs, utilisez Scribe v2 (batch) qui prend en charge jusqu’à 48 locuteurs.

Question 9

Quelle est la limite de flux simultanés ?

Accepted Answer

Plus de 30 flux simultanés avec les offres Business. Les offres Enterprise incluent des limites supérieures. Contactez le service commercial pour des besoins importants.

Question 10

Scribe v2 Realtime est-il disponible dans ElevenLabs Agents ?

Accepted Answer

Oui. Scribe v2 Realtime est intégré par défaut à la plateforme Agents.

Question 11

Quelles certifications de conformité sont disponibles ?

Accepted Answer

SOC 2, ISO 27001, PCI DSS Niveau 1, HIPAA et RGPD. Mode rétention nulle et résidence des données UE/Inde disponibles pour l’Enterprise.

API Speech to Text en temps réel

Transcrivez la parole en direct avec Scribe v2 Realtime

Pensé pour la rapidité et la précision

Transcription en temps réel la plus précise

Conçue pour tous les usages

Reconnaissance vocale optimisée pour la performance en temps réel

Conçu pour les Agents et applications vocales

Transcription prédictive pour une faible latence

Détection d’Activité Vocale

Contrôle manuel de validation

Formats audio multiples

Des modèles optimisés pour chaque usage

Scribe v2

Scribe v2 Realtime

Transcrivez la parole dans plus de 90 langues et de nombreux accents

Nous accompagnons les plus grandes entreprises et marques du monde

Des API prêtes pour la production

Protection des données de niveau entreprise

SDK Python et TypeScript

Support avancé et déploiements personnalisés

Tarifs flexibles selon vos besoins

Questions fréquentes

Dernières nouveautés