Presentiamo Eleven v3 (alpha)
- Pubblicato
AscoltaAscolta questo articolo
Siamo felici di presentare Eleven v3 (alpha) — il modello Text to Speech più espressivo.
Questa anteprima di ricerca offre un controllo e un realismo senza precedenti nella generazione vocale grazie a:
- Oltre 70 lingue
- Dialogo multi-speaker
- Tag audio come [excited], [whispers] e [sighs]
Eleven v3 (alpha) richiede più prompt engineering rispetto ai modelli precedenti — ma i risultati sono sorprendenti.
Se lavori su video,
Eleven v3 è disponibile da oggi sul nostro sito e tramite API.
Perché abbiamo creato v3
Dopo il lancio di Multilingual v2, abbiamo visto la voce IA adottata in film professionali, sviluppo di videogiochi, istruzione e accessibilità. Ma il limite principale non era la qualità audio — era l’espressività. Emozioni più marcate, interruzioni conversazionali e scambi credibili erano difficili da ottenere.
Eleven v3 colma questa lacuna. È stato progettato da zero per offrire voci che sospirano, sussurrano, ridono e reagiscono — generando parlato che sembra davvero vivo e reattivo.
Novità di Eleven v3 (alpha)
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Come usare i tag audio
I tag audio si inseriscono direttamente nello script e sono scritti tra parentesi quadre minuscole. Puoi scoprire di più sui tag audio nella nostra guida al prompting per v3 nella documentazione.
I Professional Voice Clones (PVC) al momento non sono completamente ottimizzati per Eleven v3, quindi la qualità della clonazione potrebbe essere inferiore rispetto ai modelli precedenti. In questa fase di anteprima, ti consigliamo di scegliere un Instant Voice Clone (IVC) o una voce progettata appositamente se vuoi usare le funzionalità di v3. L’ottimizzazione dei PVC per v3 arriverà presto.
Ad esempio, puoi scrivere: “[whispers] Sta arrivando qualcosa… [sighs] Lo sento.” Oppure, per un controllo ancora più espressivo, puoi combinare più tag:
Creare dialoghi multi-speaker
Eleven v3 è supportato nel nostro endpoint Text to Speech attuale. Inoltre, introduciamo un nuovo endpoint API Text to Dialogue. Fornisci un array strutturato di oggetti JSON — ognuno rappresenta un turno di parlata — e il modello genera un file audio coeso e sovrapposto:
L’endpoint gestisce automaticamente i cambi di speaker, le variazioni emotive e le interruzioni.
Scopri di più qui.
Prezzi e disponibilità
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Per attivare v3:
- Usa il Selettore modello e seleziona Eleven v3 (alpha)
L’accesso API e il supporto in Studio arriveranno presto. Per l’accesso anticipato, contatta il team commerciale.
Quando non usare v3
Eleven v3 (alpha) richiede più prompt engineering rispetto ai nostri modelli precedenti. Quando funziona, il risultato è sorprendente, ma l’affidabilità e la latenza più alta lo rendono inadatto a casi d’uso in tempo reale o conversazionali. Per questi, ti consigliamo Eleven v2.5 Turbo/Flash.
Per maggiori dettagli, consulta la documentazione completa di v3 e le FAQ.
- Accedi all’interfaccia ElevenLabs
- Seleziona v3 (alpha) dal menu dei modelli
- Incolla il tuo script — usa tag o dialoghi
- Genera audio
Non vediamo l’ora di scoprire come userai v3 in nuovi casi d’uso — dalla narrazione immersiva alle pipeline di produzione cinematografica.










