
Transcrivez la parole avec l’API ElevenLabs
API Speech to Text
Transcrivez la parole avec ElevenLabs Scribe v2
La transcription Speech to Text la plus précise pour les usages en masse. Détectez l’emphase et les effets sonores, et orientez la transcription avec des mots-clés.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
L’API Speech to Text la plus précise pour les traitements par lots
Créez des sous-titres, des transcriptions éditables et des légendes pour podcasts, vidéos, interviews et autres contenus enregistrés – tout cela avec une précision inégalée via l’API.
Une précision de transcription inégalée
Scribe v2 offre une précision de transcription inégalée, avec un texte propre et éditable même dans des conditions audio difficiles ou avec des accents variés.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Conçue pour tous les usages
Une transcription efficace même dans le bruit, avec musique de fond, accents marqués et audio de faible qualité.
Contrôle précis du timing, des intervenants et des événements non verbaux.
L’API de transcription ElevenLabs détecte les rires, les émotions et les effets sonores. Utilisez l’invite de mots-clés pour orienter la transcription avec des termes spécifiques à votre domaine.
Transcrivez l’audio et la vidéo
.webp&w=3840&q=95)
Transcriptions propres et éditables
.webp&w=3840&q=95)
Invite de mots-clés

Étiquetage audio dynamique
Identifiez les événements non verbaux comme les rires, les applaudissements, la musique ou les bruits de fond. Les transcriptions incluent tout le contexte audio, pas seulement les mots.
Diarisation intelligente des intervenants
Identifiez et attribuez automatiquement jusqu’à 48 intervenants. Attribution claire de chaque intervention, organisée dans des transcriptions faciles à lire.
Détection d’entités
Identifiez et étiquetez automatiquement 56 types d’entités, dont les noms, dates, lieux et organisations dans vos transcriptions.

Scribe v2
Précision maximale, conçu pour les traitements par lots.
- >95% de précision
- 90+ langues
- Détection d’événements non verbaux
- Détection d’entités
- Invite de mots-clés

Scribe v2 en temps réel
Latence minimale, pour les usages en temps réel.
- Moins de 150 ms de latence
- 90+ langues
- Transcription en streaming
- Détection d’activité vocale
- Reconnaissance automatique de la langue
Transcrivez la parole dans plus de 90 langues et de nombreux accents
Une précision exceptionnelle sur tous les accents, dialectes et conditions d’enregistrement.
Modifiez le languageCode pour prévisualiser les langues
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // Définir la langue
diarize: true
});
console.log(transcription);Au service des plus grandes entreprises et marques mondiales
“Du doublage de Reels dans les langues locales à la génération de musique et de voix de personnages dans Horizon, la plateforme ElevenLabs permet aux créateurs, entreprises et organisations du monde entier de créer à grande échelle avec la voix, la musique et le son.”
“La précision inégalée de Scribe sur autant de langues permet à Fieldy de comprendre chaque conversation quotidienne et de se développer facilement à l’international. Fieldy a augmenté la rétention de ses utilisateurs de 50% après être passé à ElevenLabs Scribe.”
“ElevenLabs nous a permis d’intégrer rapidement des fonctionnalités puissantes de Text to Speech à notre SDK, pour que les Agents répondent en temps réel avec des voix expressives aux questions des utilisateurs ou en retour sur ce qu’ils voient.”

“Twilio a intégré la technologie de voix IA générative d’ElevenLabs à sa CPaaS, améliorant ConversationRelay. Cette intégration permet aux entreprises et développeurs de créer des interactions vocales IA conversationnelles, naturelles, expressives et en temps réel directement depuis la plateforme Twilio CPaaS. Chez ElevenLabs, nous sommes ravis que Twilio ait choisi ElevenLabs pour enrichir ConversationRelay avec les voix les plus expressives et naturelles disponibles.”
Des APIs prêtes pour la production

Questions fréquentes
Dernières mises à jour

.webp&w=3840&q=80)
Parlez à une statue : créer une application multi-modale avec ElevenAgents




Fonds des ingénieurs OSS ElevenLabs : soutenir les projets open-source qui façonnent notre travail
.webp&w=3840&q=80)
Ajoutez un agent vocal du Père Noël à votre application React en quelques minutes

Découvrez ElevenLabs UI : composants audio et agents open source pour le web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API : Duel des Agents Conversationnels