Salta al contenuto

Presentiamo Eleven v3 (alpha)

Il modello Text to Speech più espressivo

v3
Eleven v3 is no longer in alpha, and is now generally available.


Siamo felici di presentare Eleven v3 (alpha) — il modello Text to Speech più espressivo.

Questa anteprima di ricerca offre un controllo e un realismo senza precedenti nella generazione vocale grazie a:

  • Oltre 70 lingue
  • Dialogo multi-speaker
  • Tag audio come [excited], [whispers] e [sighs]

Eleven v3 (alpha) richiede più prompt engineering rispetto ai modelli precedenti — ma i risultati sono sorprendenti.

Se lavori su video, audiolibri o strumenti per i media, puoi raggiungere un nuovo livello di espressività. Per casi d’uso in tempo reale o conversazionali, ti consigliamo di continuare a usare v2.5 Turbo o Flash per ora. Una versione real-time di v3 è in sviluppo.

Eleven v3 è disponibile da oggi sul nostro sito e tramite API.

Perché abbiamo creato v3

Dopo il lancio di Multilingual v2, abbiamo visto la voce IA adottata in film professionali, sviluppo di videogiochi, istruzione e accessibilità. Ma il limite principale non era la qualità audio — era l’espressività. Emozioni più marcate, interruzioni conversazionali e scambi credibili erano difficili da ottenere.

Eleven v3 colma questa lacuna. È stato progettato da zero per offrire voci che sospirano, sussurrano, ridono e reagiscono — generando parlato che sembra davvero vivo e reattivo.

Novità di Eleven v3 (alpha)

Feature What it unlocks
Audio tags Inline control of tone, emotion, and non-verbal reactions
Dialogue mode Multi-speaker conversations with natural pacing and interruptions
70+ languages Full coverage of high-demand global languages
Deeper text understanding Better stress, cadence, and expressivity from text input

Hear v3 for yourself

Background
Background

Come usare i tag audio

I tag audio si inseriscono direttamente nello script e sono scritti tra parentesi quadre minuscole. Puoi scoprire di più sui tag audio nella nostra guida al prompting per v3 nella documentazione.

I Professional Voice Clones (PVC) al momento non sono completamente ottimizzati per Eleven v3, quindi la qualità della clonazione potrebbe essere inferiore rispetto ai modelli precedenti. In questa fase di anteprima, ti consigliamo di scegliere un Instant Voice Clone (IVC) o una voce progettata appositamente se vuoi usare le funzionalità di v3. L’ottimizzazione dei PVC per v3 arriverà presto.

Ad esempio, puoi scrivere: “[whispers] Sta arrivando qualcosa… [sighs] Lo sento.” Oppure, per un controllo ancora più espressivo, puoi combinare più tag:

“[happily][shouts] We did it! [laughs].”

Creare dialoghi multi-speaker

Eleven v3 è supportato nel nostro endpoint Text to Speech attuale. Inoltre, introduciamo un nuovo endpoint API Text to Dialogue. Fornisci un array strutturato di oggetti JSON — ognuno rappresenta un turno di parlata — e il modello genera un file audio coeso e sovrapposto:

[
  {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
  {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
  {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
]

L’endpoint gestisce automaticamente i cambi di speaker, le variazioni emotive e le interruzioni.

Scopri di più qui.

v3 is our most expressive model

Background
Background

Prezzi e disponibilità

Plan Launch promo At the end of June
UI (self-serve) 80% off (~5× cheaper) Same as Multilingual V2
UI (enterprise) 80% off business plan pricing Business plan pricing

Per attivare v3:

  • Usa il Selettore modello e seleziona Eleven v3 (alpha)

L’accesso API e il supporto in Studio arriveranno presto. Per l’accesso anticipato, contatta il team commerciale.

Quando non usare v3

Eleven v3 (alpha) richiede più prompt engineering rispetto ai nostri modelli precedenti. Quando funziona, il risultato è sorprendente, ma l’affidabilità e la latenza più alta lo rendono inadatto a casi d’uso in tempo reale o conversazionali. Per questi, ti consigliamo Eleven v2.5 Turbo/Flash.

Per maggiori dettagli, consulta la documentazione completa di v3 e le FAQ.

Try it today

Background
Background
  1. Accedi all’interfaccia ElevenLabs
  2. Seleziona v3 (alpha) dal menu dei modelli
  3. Incolla il tuo script — usa tag o dialoghi 
  4. Genera audio

Non vediamo l’ora di scoprire come userai v3 in nuovi casi d’uso — dalla narrazione immersiva alle pipeline di produzione cinematografica.

Scopri gli articoli del team ElevenLabs

Crea con l'audio IA della massima qualità