Qu’est-ce que l’API de Transcription en Masse ElevenLabs ?

L’API de Transcription en Masse fait partie de Scribe, notre système Speech to Text conçu pour la transcription audio et vidéo à grande échelle. Elle permet aux développeurs et entreprises de traiter des heures de contenu enregistré avec une précision inégalée dans 99 langues.

Quels types de fichiers audio et vidéo puis-je importer ?

Scribe prend en charge tous les formats courants, dont MP4, MOV, MP3, WAV et plus.

Quelle est la précision de Scribe pour la transcription en masse ?

Scribe v2 offre la meilleure précision sur 99 langues et reste performant même dans des conditions audio difficiles, avec des accents ou une qualité d’enregistrement variable. Il surpasse les modèles précédents et les autres APIs leaders sur les benchmarks publics.

Combien de temps prend la transcription de gros fichiers ?

Le temps de traitement dépend de la longueur du fichier et de la concurrence. Scribe est optimisé pour le débit et gère de gros volumes en parallèle, livrant les transcriptions en quelques secondes à quelques minutes.

Scribe gère-t-il la séparation des intervenants et les horodatages ?

Oui. L’API propose une diarisation intelligente des intervenants, des horodatages au mot et au caractère près, et un tag audio dynamique pour les événements non verbaux comme les rires ou la musique.

Puis-je personnaliser le modèle pour des termes spécifiques à mon domaine ?

Oui. Vous pouvez définir des vocabulaires personnalisés pour garantir la transcription correcte des noms de produits, termes techniques ou expressions de marque grâce aux mots-clés.

L’API de Transcription en Masse est-elle sécurisée et conforme ?

Scribe est conforme SOC 2, RGPD et propose en option la conformité HIPAA. Les données sont chiffrées en transit et au repos, et les équipes peuvent activer la résidence des données UE ou le mode Rétention Zéro pour un contrôle renforcé.

Comment l’API de Transcription en Masse est-elle tarifée ?

La tarification est à l’usage, calculée à la minute d’audio traité. Des remises sur volume et des offres entreprise sont disponibles pour les gros volumes. Contactez notre équipe commerciale pour discuter de vos besoins.

Vous pouvez commencer à transcrire immédiatement en générant une clé API et en consultant la documentation.

API Speech to Text

Transcrivez la parole avec ElevenLabs Scribe v2

Obtenir une clé API Explorer la documentation

La meilleure précision STT pour les usages en volume. Détectez l’accentuation et les effets sonores, et orientez la transcription grâce aux mots-clés.

Démo

Code

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

L’API Speech to Text la plus précise pour les traitements par lots

Obtenir une clé API Explorer la documentation

Créez des sous-titres, des transcriptions éditables et des légendes pour podcasts, vidéos, interviews et autres contenus enregistrés – tout cela avec une précision inégalée via l’API.

Une précision de transcription inégalée

Scribe v2 offre une précision de transcription inégalée, avec un texte propre et éditable même dans des conditions audio difficiles ou avec des accents variés.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Conçue pour tous les usages

Une transcription efficace même dans le bruit, avec musique de fond, accents marqués et audio de faible qualité.

Contrôle précis du timing, des intervenants et des événements non verbaux.

L’API de transcription ElevenLabs détecte les rires, les émotions et les effets sonores. Utilisez l’invite de mots-clés pour orienter la transcription avec des termes spécifiques à votre domaine.

Transcrivez l’audio et la vidéo

Importez des fichiers MP3, MP4, WAV, MOV et d’autres formats courants. Scribe gère des fichiers jusqu’à 10 heures avec traitement asynchrone et notifications webhook pour les gros volumes.

Transcriptions propres et éditables

Obtenez un texte ponctué et structuré en paragraphes, prêt à être édité, publié ou utilisé dans vos processus. Aucun nettoyage nécessaire.

Invite de mots-clés

Améliorez la reconnaissance de jusqu’à 100 termes spécifiques à votre domaine. Les noms de produits, le jargon technique et le vocabulaire spécialisé sont transcrits correctement dès la première fois.

Étiquetage audio dynamique

Identifiez les événements non verbaux comme les rires, les applaudissements, la musique ou les bruits de fond. Les transcriptions incluent tout le contexte audio, pas seulement les mots.

Diarisation intelligente des intervenants

Identifiez et attribuez automatiquement jusqu’à 48 intervenants. Attribution claire de chaque intervention, organisée dans des transcriptions faciles à lire.

Détection d’entités

Identifiez et étiquetez automatiquement 56 types d’entités, dont les noms, dates, lieux et organisations dans vos transcriptions.

Scribe v2

Précision maximale, conçu pour les traitements par lots.

>95% de précision
90+ langues
Détection d’événements non verbaux
Détection d’entités
Invite de mots-clés

Scribe v2 en temps réel

Latence minimale, pour les usages en temps réel.

Moins de 150 ms de latence
90+ langues
Transcription en streaming
Détection d’activité vocale
Reconnaissance automatique de la langue

Transcrivez la parole dans plus de 90 langues et de nombreux accents

Une précision exceptionnelle sur tous les accents, dialectes et conditions d’enregistrement.

Modifiez le languageCode pour prévisualiser les langues

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Définir la langue
	  diarize: true
	});

console.log(transcription);

Anglais

Chinois

Espagnol

Français

Portugais

Allemand

Japonais

Italien

Hindi

AnglaisCliquez pour prévisualiser

Au service des plus grandes entreprises et marques mondiales

Voir les témoignages clients

“Du doublage de Reels dans les langues locales à la génération de musique et de voix de personnages dans Horizon, la plateforme ElevenLabs permet aux créateurs, entreprises et organisations du monde entier de créer à grande échelle avec la voix, la musique et le son.”
“La précision inégalée de Scribe sur autant de langues permet à Fieldy de comprendre chaque conversation quotidienne et de se développer facilement à l’international. Fieldy a augmenté la rétention de ses utilisateurs de 50% après être passé à ElevenLabs Scribe.”
“ElevenLabs nous a permis d’intégrer rapidement des fonctionnalités puissantes de Text to Speech à notre SDK, pour que les Agents répondent en temps réel avec des voix expressives aux questions des utilisateurs ou en retour sur ce qu’ils voient.”
“Twilio a intégré la technologie de voix IA générative d’ElevenLabs à sa CPaaS, améliorant ConversationRelay. Cette intégration permet aux entreprises et développeurs de créer des interactions vocales IA conversationnelles, naturelles, expressives et en temps réel directement depuis la plateforme Twilio CPaaS. Chez ElevenLabs, nous sommes ravis que Twilio ait choisi ElevenLabs pour enrichir ConversationRelay avec les voix les plus expressives et naturelles disponibles.”

Des APIs prêtes pour la production

Questions fréquentes

Dernières mises à jour

Toutes les mises à jour

API Speech to Text

Transcrivez la parole avec ElevenLabs Scribe v2