
Ora puoi usare i crediti commit GCP sui modelli di voce IA di ElevenLabs
- Categoria
- Prodotto
- Data
Trasforma la tua voce in quella di un altro personaggio con il pieno controllo su emozioni, tempi e interpretazione.
Il Modificatore di Voce si chiamava originariamente speech-to-speech. Nel contesto degli agenti vocali IA, "speech-to-speech" indica anche architetture integrate in cui un unico modello gestisce direttamente input e output audio. ElevenAgents utilizza un'architettura avanzata a cascata per la sua piattaforma. Scopri di più: Modelli a cascata vs modelli fusi.
Abbiamo aggiunto
Estrai più emozione da una voce.

Ecco una guida realizzata da un membro della nostra community:
Un altro modo di usare il modificatore di voce è fornire un ‘riferimento’ per l’interpretazione. Anche se il nostro TTS di solito azzecca subito l’intonazione, a volte potresti volerla perfezionare. Qui il modificatore di voce ti permette di mostrare come intonare una frase e poi farla pronunciare da qualsiasi voce tu scelga nello stesso modo. Questa funzione sarà ancora più utile e semplice da usare quando integreremo il modificatore di voce direttamente in Studio, ma il nostro obiettivo è già quello di migliorare radicalmente la tua capacità di modificare l’output con precisione.
Ricerca
Per convertire un parlato di origine in un parlato di destinazione, dobbiamo esprimere il contenuto della voce di origine con le caratteristiche della voce di destinazione. Un buon paragone sono le app di face-swapping che ti permettono di mescolare il tuo volto con quello di qualcun altro per creare un’immagine unica.
Il modo per farlo è prendere l’immagine di un volto e mappare le sue caratteristiche. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto verrà ricreato.
Prodotto e aggiornamenti recenti
Cambiamenti alle voci predefinite
Eleven Turbo v2 e formato uLaw 8kHz
Turbo v2 è il risultato di mesi di ricerca del nostro team. È pensato per interazioni in tempo reale ma funziona per qualsiasi esigenza. Supporta anche il formato standard (m)uLaw 8kHz per sistemi IVR.
Studio ora supporta le linee guida standard del settore per la consegna di audiolibri, inclusa la regolazione del gain e la compressione dinamica. Puoi anche inserire i metadata (ISBN, autore e titolo) direttamente nel tuo progetto Studio.
Questa è stata una delle funzioni più richieste. Il mese scorso abbiamo aggiunto il supporto ai tag SSML per specificare la pronuncia tramite i dizionari IPA e CMU nei nostri modelli inglesi. Ora abbiamo rilasciato il supporto al dizionario di pronuncia anche nell’interfaccia di Studio, permettendoti di caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole (alias). I file del dizionario usano il formato open standard .PLS
L’aggiunta di un Dizionario di Pronuncia è stata una delle funzionalità più richieste. Il mese scorso abbiamo introdotto i tag SSML per specificare la pronuncia usando i dizionari IPA e CMU nei nostri modelli inglesi. Ora il supporto al dizionario di pronuncia è disponibile anche nell’interfaccia di Studio, così puoi caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole. I file del dizionario vengono caricati usando lo standard aperto .PLS formato file lessico.
Se hai feedback, scrivici pure su Discord!qui.
Dì quello che vuoi e ascoltalo riprodotto con una voce completamente diversa, con il pieno controllo sull’interpretazione. Cattura sussurri, risate, accenti e sfumature emotive.



