Cos’è l’API Bulk Transcription di ElevenLabs?

L’API Bulk Transcription fa parte di Scribe, il nostro sistema Speech to Text pensato per la trascrizione su larga scala di audio e video. Permette a sviluppatori e aziende di elaborare ore di contenuti registrati con la massima precisione su 99 lingue.

Che tipi di file audio e video posso caricare?

Scribe supporta tutti i formati più comuni, inclusi MP4, MOV, MP3, WAV e altri.

Quanto è precisa Scribe per la trascrizione di grandi volumi?

Scribe v2 raggiunge la massima precisione su 99 lingue ed è robusto anche in condizioni audio difficili, con accenti diversi e qualità di registrazione variabile. Supera i modelli precedenti e le altre API leader nei benchmark pubblici.

Quanto tempo serve per trascrivere file di grandi dimensioni?

Il tempo di elaborazione dipende dalla lunghezza del file e dalla concorrenza. Scribe è ottimizzato per l’elaborazione in parallelo e gestisce pipeline su larga scala, consegnando le trascrizioni in pochi secondi o minuti.

Scribe supporta la separazione degli speaker e i timestamp?

Sì. L’API offre diarizzazione intelligente degli speaker, timestamp a livello di parola e carattere, e tag audio dinamici per eventi non vocali come risate o musica.

Posso personalizzare il modello per termini specifici del settore?

Sì. Puoi definire vocabolari personalizzati per garantire la trascrizione corretta di nomi di prodotti, termini tecnici o frasi uniche del brand usando i suggerimenti di termini chiave.

L’API Bulk Transcription è sicura e conforme?

Scribe supporta la conformità SOC 2, GDPR e, opzionalmente, HIPAA. I dati sono criptati sia in transito che a riposo e i team possono attivare la residenza dati UE o la modalità Zero Retention per un controllo più rigoroso.

Come viene calcolato il prezzo dell’API Bulk Transcription?

Il prezzo si basa sull’utilizzo, calcolato al minuto di audio in ingresso. Sono disponibili sconti per volumi elevati e piani enterprise per grandi carichi di lavoro. Contatta il nostro team commerciale per discutere le tue esigenze.

Puoi iniziare subito a trascrivere generando una API key ed esplorando la documentazione API.

API Speech to Text

Trascrivi l’audio con ElevenLabs Scribe v2

Ottieni API key Esplora la documentazione

La massima accuratezza STT per applicazioni su larga scala. Rileva enfasi ed effetti sonori e guida la trascrizione con suggerimenti di parole chiave.

Demo

Codice

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

L’API Speech to Text più precisa per grandi carichi di lavoro

Ottieni API key Esplora la documentazione

Crea sottotitoli, trascrizioni modificabili e didascalie per podcast, video, interviste e altri contenuti registrati – tutto con la massima precisione tramite API.

Precisione di trascrizione senza precedenti

Scribe v2 raggiunge una precisione di trascrizione leader nel settore, offrendo testo pulito e modificabile anche in condizioni audio difficili o con accenti diversi.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensata per ogni scenario

Trascrizione che funziona anche in ambienti rumorosi, con musica di sottofondo, accenti marcati e audio di bassa qualità.

Controllo dettagliato su tempi, speaker ed eventi non vocali.

L’API di Trascrizione ElevenLabs rileva risate, emozioni ed effetti sonori. Usa i suggerimenti di termini chiave per guidare la trascrizione con termini specifici del tuo settore.

Trascrivi audio e video

Carica MP3, MP4, WAV, MOV e altri formati comuni. Scribe gestisce file fino a 10 ore con elaborazione asincrona e notifiche webhook per grandi volumi.

Trascrizioni pulite e modificabili

Ottieni testo ben punteggiato e strutturato in paragrafi, pronto per essere modificato, pubblicato o elaborato. Nessuna pulizia necessaria.

Suggerimenti di termini chiave

Migliora la precisione di riconoscimento per fino a 100 termini specifici del settore. Nomi di prodotti, termini tecnici e vocabolario specialistico trascritti correttamente al primo tentativo.

Tag audio dinamici

Rileva eventi non vocali come risate, applausi, musica e rumori di fondo. Le trascrizioni includono tutto il contesto audio, non solo le parole.

Diarizzazione intelligente degli speaker

Riconosce e assegna automaticamente fino a 48 speaker. Attribuzione chiara di chi ha detto cosa, organizzata in trascrizioni leggibili.

Rilevamento entità

Riconosce e tagga automaticamente 56 tipi di entità, tra cui nomi, date, luoghi e organizzazioni all’interno delle trascrizioni.

Scribe v2

Massima precisione, pensato per grandi volumi.

Precisione >95%
Oltre 90 lingue
Rilevamento eventi non vocali
Rilevamento entità
Suggerimenti di termini chiave

Scopri di più

Scribe v2 in tempo reale

Minima latenza, per esigenze in tempo reale.

Latenza inferiore a 150ms
Oltre 90 lingue
Trascrizione in streaming
Rilevamento attività vocale
Riconoscimento automatico della lingua

Scopri di più

Trascrivi l’audio in oltre 90 lingue e tanti accenti diversi

Precisione eccezionale su accenti, dialetti e condizioni di registrazione diverse.

Cambia il languageCode per vedere l’anteprima delle lingue

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Imposta lingua
	  diarize: true
	});

console.log(transcription);

Inglese

Cinese

Spagnolo

Francese

Portoghese

Tedesco

Giapponese

Italiano

Hindi

IngleseClicca per ascoltare l’anteprima

Al servizio delle aziende e dei brand leader nel mondo

Scopri le storie dei clienti

“Dalla localizzazione dei Reels nelle lingue locali, alla generazione di musica e voci di personaggi in Horizon, la piattaforma ElevenLabs permette a creator, aziende e imprese di tutto il mondo di creare con voce, musica e suono su larga scala.”
“La precisione di Scribe su così tante lingue permette a Fieldy di comprendere ogni conversazione quotidiana e di espandersi facilmente in tutto il mondo. Dopo il passaggio a ElevenLabs Scribe, Fieldy ha aumentato la retention degli utenti del 50%.”
“ElevenLabs ci ha permesso di integrare rapidamente funzionalità avanzate di text-to-speech nel nostro SDK, così gli Agent possono rispondere in tempo reale con voci espressive alle domande degli utenti o come feedback a ciò che vedono.”
“Twilio ha integrato la tecnologia di generazione vocale IA di ElevenLabs nel suo CPaaS, migliorando ConversationRelay. Questa integrazione consente a aziende e sviluppatori di creare interazioni vocali IA conversazionali che suonano naturali, sono espressive e rispondono in tempo reale direttamente dalla piattaforma Twilio CPaaS. Noi di ElevenLabs siamo entusiasti che Twilio abbia scelto ElevenLabs per rendere ConversationRelay ancora più espressivo e naturale.”

API pronte per la produzione

Domande frequenti

Ultimi aggiornamenti

Tutti gli aggiornamenti

API Speech to Text

Trascrivi l’audio con ElevenLabs Scribe v2

L’API Speech to Text più precisa per grandi carichi di lavoro