Passer au contenu

API Speech to Text

Transcrivez la parole avec ElevenLabs Scribe v2

La transcription Speech to Text la plus précise pour les usages en masse. Détectez l’emphase et les effets sonores, et orientez la transcription avec des mots-clés.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

L’API Speech to Text la plus précise pour les traitements par lots

Créez des sous-titres, des transcriptions éditables et des légendes pour podcasts, vidéos, interviews et autres contenus enregistrés – tout cela avec une précision inégalée via l’API.

Scribe v2 offre une précision de transcription inégalée, avec un texte propre et éditable même dans des conditions audio difficiles ou avec des accents variés.

Une précision de transcription inégalée

Scribe v2 offre une précision de transcription inégalée, avec un texte propre et éditable même dans des conditions audio difficiles ou avec des accents variés.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Conçue pour tous les usages

Une transcription efficace même dans le bruit, avec musique de fond, accents marqués et audio de faible qualité.

Contrôle précis du timing, des intervenants et des événements non verbaux.

L’API de transcription ElevenLabs détecte les rires, les émotions et les effets sonores. Utilisez l’invite de mots-clés pour orienter la transcription avec des termes spécifiques à votre domaine.

Transcrivez l’audio et la vidéo

Importez des fichiers MP3, MP4, WAV, MOV et d’autres formats courants. Scribe gère des fichiers jusqu’à 10 heures avec traitement asynchrone et notifications webhook pour les gros volumes.
Transcription Formats

Transcriptions propres et éditables

Obtenez un texte ponctué et structuré en paragraphes, prêt à être édité, publié ou utilisé dans vos processus. Aucun nettoyage nécessaire.
Editable transcripts

Invite de mots-clés

Améliorez la reconnaissance de jusqu’à 100 termes spécifiques à votre domaine. Les noms de produits, le jargon technique et le vocabulaire spécialisé sont transcrits correctement dès la première fois.
Keyterm Prompting

Étiquetage audio dynamique

Identifiez les événements non verbaux comme les rires, les applaudissements, la musique ou les bruits de fond. Les transcriptions incluent tout le contexte audio, pas seulement les mots.

Diarisation intelligente des intervenants

Identifiez et attribuez automatiquement jusqu’à 48 intervenants. Attribution claire de chaque intervention, organisée dans des transcriptions faciles à lire.

Détection d’entités

Identifiez et étiquetez automatiquement 56 types d’entités, dont les noms, dates, lieux et organisations dans vos transcriptions.

Black Mountain

Scribe v2

Précision maximale, conçu pour les traitements par lots.

  • >95% de précision
  • 90+ langues
  • Détection d’événements non verbaux
  • Détection d’entités
  • Invite de mots-clés
Mountains

Scribe v2 en temps réel

Latence minimale, pour les usages en temps réel.

  • Moins de 150 ms de latence
  • 90+ langues
  • Transcription en streaming
  • Détection d’activité vocale
  • Reconnaissance automatique de la langue

Transcrivez la parole dans plus de 90 langues et de nombreux accents

Une précision exceptionnelle sur tous les accents, dialectes et conditions d’enregistrement.

Modifiez le languageCode pour prévisualiser les langues

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Définir la langue diarize: true }); console.log(transcription);
Flag for en
Anglais
Flag for zh
Chinois
Flag for es
Espagnol
Flag for fr
Français
Flag for pt
Portugais
Flag for de
Allemand
Flag for ja
Japonais
Flag for it
Italien
Flag for hi
Hindi
Flag for en
AnglaisCliquez pour prévisualiser

Au service des plus grandes entreprises et marques mondiales

  • Du doublage de Reels dans les langues locales à la génération de musique et de voix de personnages dans Horizon, la plateforme ElevenLabs permet aux créateurs, entreprises et organisations du monde entier de créer à grande échelle avec la voix, la musique et le son.
    Meta Color Logo
  • La précision inégalée de Scribe sur autant de langues permet à Fieldy de comprendre chaque conversation quotidienne et de se développer facilement à l’international. Fieldy a augmenté la rétention de ses utilisateurs de 50% après être passé à ElevenLabs Scribe.
    Fieldy logo
  • ElevenLabs nous a permis d’intégrer rapidement des fonctionnalités puissantes de Text to Speech à notre SDK, pour que les Agents répondent en temps réel avec des voix expressives aux questions des utilisateurs ou en retour sur ce qu’ils voient.
    Stream Color Logo
  • Twilio a intégré la technologie de voix IA générative d’ElevenLabs à sa CPaaS, améliorant ConversationRelay. Cette intégration permet aux entreprises et développeurs de créer des interactions vocales IA conversationnelles, naturelles, expressives et en temps réel directement depuis la plateforme Twilio CPaaS. Chez ElevenLabs, nous sommes ravis que Twilio ait choisi ElevenLabs pour enrichir ConversationRelay avec les voix les plus expressives et naturelles disponibles.
    Twilio logo

Des APIs prêtes pour la production

Foreground

Questions fréquentes

Dernières mises à jour

La plateforme audio IA la plus réaliste