
Presentiamo Voice Design v3
- Categoria
- Ricerca
- Data
Il modello Text to Speech più espressivo
Siamo felici di presentare Eleven v3 (alpha) — il modello Text to Speech più espressivo.
Questa anteprima di ricerca offre un controllo e un realismo senza precedenti nella generazione vocale grazie a:
Eleven v3 (alpha) richiede più prompt engineering rispetto ai modelli precedenti — ma i risultati sono sorprendenti.
Se lavori su video, audiolibri o strumenti per i media, puoi raggiungere un nuovo livello di espressività. Per casi d’uso in tempo reale o conversazionali, ti consigliamo di continuare a usare v2.5 Turbo o Flash per ora. Una versione real-time di v3 è in sviluppo.
Eleven v3 è disponibile da oggi sul nostro sito e tramite API.
Dopo il lancio di Multilingual v2, abbiamo visto la voce IA adottata in film professionali, sviluppo di videogiochi, istruzione e accessibilità. Ma il limite principale non era la qualità audio — era l’espressività. Emozioni più marcate, interruzioni conversazionali e scambi credibili erano difficili da ottenere.
Eleven v3 colma questa lacuna. È stato progettato da zero per offrire voci che sospirano, sussurrano, ridono e reagiscono — generando parlato che sembra davvero vivo e reattivo.
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
I tag audio si inseriscono direttamente nello script e sono scritti tra parentesi quadre minuscole. Puoi scoprire di più sui tag audio nella nostra guida al prompting per v3 nella documentazione.
I Professional Voice Clones (PVC) al momento non sono completamente ottimizzati per Eleven v3, quindi la qualità della clonazione potrebbe essere inferiore rispetto ai modelli precedenti. In questa fase di anteprima, ti consigliamo di scegliere un Instant Voice Clone (IVC) o una voce progettata appositamente se vuoi usare le funzionalità di v3. L’ottimizzazione dei PVC per v3 arriverà presto.
Ad esempio, puoi scrivere: “[whispers] Sta arrivando qualcosa… [sighs] Lo sento.” Oppure, per un controllo ancora più espressivo, puoi combinare più tag:
Eleven v3 è supportato nel nostro endpoint Text to Speech attuale. Inoltre, introduciamo un nuovo endpoint API Text to Dialogue. Fornisci un array strutturato di oggetti JSON — ognuno rappresenta un turno di parlata — e il modello genera un file audio coeso e sovrapposto:
L’endpoint gestisce automaticamente i cambi di speaker, le variazioni emotive e le interruzioni.
Scopri di più qui.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Per attivare v3:
L’accesso API e il supporto in Studio arriveranno presto. Per l’accesso anticipato, contatta il team commerciale.
Eleven v3 (alpha) richiede più prompt engineering rispetto ai nostri modelli precedenti. Quando funziona, il risultato è sorprendente, ma l’affidabilità e la latenza più alta lo rendono inadatto a casi d’uso in tempo reale o conversazionali. Per questi, ti consigliamo Eleven v2.5 Turbo/Flash.
Per maggiori dettagli, consulta la documentazione completa di v3 e le FAQ.
Non vediamo l’ora di scoprire come userai v3 in nuovi casi d’uso — dalla narrazione immersiva alle pipeline di produzione cinematografica.



