Salta al contenuto

API Speech to Text

Trascrivi l’audio con ElevenLabs Scribe v2

La massima accuratezza STT per applicazioni su larga scala. Rileva enfasi ed effetti sonori e guida la trascrizione con suggerimenti di parole chiave.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

L’API Speech to Text più precisa per grandi carichi di lavoro

Crea sottotitoli, trascrizioni modificabili e didascalie per podcast, video, interviste e altri contenuti registrati – tutto con la massima precisione tramite API.

Scribe v2 raggiunge una precisione di trascrizione leader nel settore, offrendo testo pulito e modificabile anche in condizioni audio difficili o con accenti diversi.

Precisione di trascrizione senza precedenti

Scribe v2 raggiunge una precisione di trascrizione leader nel settore, offrendo testo pulito e modificabile anche in condizioni audio difficili o con accenti diversi.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensata per ogni scenario

Trascrizione che funziona anche in ambienti rumorosi, con musica di sottofondo, accenti marcati e audio di bassa qualità.

Controllo dettagliato su tempi, speaker ed eventi non vocali.

L’API di Trascrizione ElevenLabs rileva risate, emozioni ed effetti sonori. Usa i suggerimenti di termini chiave per guidare la trascrizione con termini specifici del tuo settore.

Trascrivi audio e video

Carica MP3, MP4, WAV, MOV e altri formati comuni. Scribe gestisce file fino a 10 ore con elaborazione asincrona e notifiche webhook per grandi volumi.
Transcription Formats

Trascrizioni pulite e modificabili

Ottieni testo ben punteggiato e strutturato in paragrafi, pronto per essere modificato, pubblicato o elaborato. Nessuna pulizia necessaria.
Editable transcripts

Suggerimenti di termini chiave

Migliora la precisione di riconoscimento per fino a 100 termini specifici del settore. Nomi di prodotti, termini tecnici e vocabolario specialistico trascritti correttamente al primo tentativo.
Keyterm Prompting

Tag audio dinamici

Rileva eventi non vocali come risate, applausi, musica e rumori di fondo. Le trascrizioni includono tutto il contesto audio, non solo le parole.

Diarizzazione intelligente degli speaker

Riconosce e assegna automaticamente fino a 48 speaker. Attribuzione chiara di chi ha detto cosa, organizzata in trascrizioni leggibili.

Rilevamento entità

Riconosce e tagga automaticamente 56 tipi di entità, tra cui nomi, date, luoghi e organizzazioni all’interno delle trascrizioni.

Black Mountain

Scribe v2

Massima precisione, pensato per grandi volumi.

  • Precisione >95%
  • Oltre 90 lingue
  • Rilevamento eventi non vocali
  • Rilevamento entità
  • Suggerimenti di termini chiave
Mountains

Scribe v2 in tempo reale

Minima latenza, per esigenze in tempo reale.

  • Latenza inferiore a 150ms
  • Oltre 90 lingue
  • Trascrizione in streaming
  • Rilevamento attività vocale
  • Riconoscimento automatico della lingua

Trascrivi l’audio in oltre 90 lingue e tanti accenti diversi

Precisione eccezionale su accenti, dialetti e condizioni di registrazione diverse.

Cambia il languageCode per vedere l’anteprima delle lingue

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Imposta lingua diarize: true }); console.log(transcription);
Flag for en
Inglese
Flag for zh
Cinese
Flag for es
Spagnolo
Flag for fr
Francese
Flag for pt
Portoghese
Flag for de
Tedesco
Flag for ja
Giapponese
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
IngleseClicca per ascoltare l’anteprima

Al servizio delle aziende e dei brand leader nel mondo

  • Dalla localizzazione dei Reels nelle lingue locali, alla generazione di musica e voci di personaggi in Horizon, la piattaforma ElevenLabs permette a creator, aziende e imprese di tutto il mondo di creare con voce, musica e suono su larga scala.
    Meta Color Logo
  • La precisione di Scribe su così tante lingue permette a Fieldy di comprendere ogni conversazione quotidiana e di espandersi facilmente in tutto il mondo. Dopo il passaggio a ElevenLabs Scribe, Fieldy ha aumentato la retention degli utenti del 50%.
    Fieldy logo
  • ElevenLabs ci ha permesso di integrare rapidamente funzionalità avanzate di text-to-speech nel nostro SDK, così gli Agent possono rispondere in tempo reale con voci espressive alle domande degli utenti o come feedback a ciò che vedono.
    Stream Color Logo
  • Twilio ha integrato la tecnologia di generazione vocale IA di ElevenLabs nel suo CPaaS, migliorando ConversationRelay. Questa integrazione consente a aziende e sviluppatori di creare interazioni vocali IA conversazionali che suonano naturali, sono espressive e rispondono in tempo reale direttamente dalla piattaforma Twilio CPaaS. Noi di ElevenLabs siamo entusiasti che Twilio abbia scelto ElevenLabs per rendere ConversationRelay ancora più espressivo e naturale.
    Twilio logo

API pronte per la produzione

Foreground

Domande frequenti

Ultimi aggiornamenti

La piattaforma audio IA più realistica