Presentiamo il Modificatore di Voce
- Pubblicato
AscoltaAscolta questo articolo
Il Modificatore di Voce si chiamava originariamente speech-to-speech. Nel contesto degli agenti vocali IA, "speech-to-speech" indica anche architetture integrate in cui un unico modello gestisce direttamente input e output audio. ElevenAgents utilizza un'architettura avanzata a cascata per la sua piattaforma. Scopri di più: Modelli a cascata vs modelli fusi.
Abbiamo aggiunto
Questo ti dà un livello di controllo che
Estrai più emozione da una voce.

Ecco una guida realizzata da un membro della nostra community:
Un altro modo di usare il modificatore di voce è fornire un ‘riferimento’ per l’interpretazione. Anche se il nostro TTS di solito azzecca subito l’intonazione, a volte potresti volerla perfezionare. Qui il modificatore di voce ti permette di mostrare come intonare una frase e poi farla pronunciare da qualsiasi voce tu scelga nello stesso modo. Questa funzione sarà ancora più utile e semplice da usare quando integreremo il modificatore di voce direttamente in Studio, ma il nostro obiettivo è già quello di migliorare radicalmente la tua capacità di modificare l’output con precisione.
Ricerca
Il modo per farlo è prendere l’immagine di un volto e mappare i suoi attributi. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto viene ricostruito.
Per convertire un parlato di origine in un parlato di destinazione, dobbiamo esprimere il contenuto della voce di origine con le caratteristiche della voce di destinazione. Un buon paragone sono le app di face-swapping che ti permettono di mescolare il tuo volto con quello di qualcun altro per creare un’immagine unica.
Il modo per farlo è prendere l’immagine di un volto e mappare le sue caratteristiche. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto verrà ricreato.
Prodotto e aggiornamenti recenti
Cambiamenti alle voci predefinite
Stiamo apportando modifiche alle voci predefinite disponibili nella Sintesi Vocale. Alcune voci verranno ritirate e sostituite con nuove, con oltre 20 aggiunte previste nelle prossime settimane.
Inoltre inizieremo a fornire informazioni nell’interfaccia su quanto tempo ogni voce resterà disponibile. Durante dicembre, aggiorneremo le funzioni di condivisione delle voci e di compensazione per l’utilizzo, così da aumentare la varietà delle voci. Altri dettagli in arrivo.
Eleven Turbo v2 e formato uLaw 8kHz
Turbo v2 è il risultato di mesi di ricerca del nostro team. È pensato per interazioni in tempo reale ma funziona per qualsiasi esigenza. Supporta anche il formato standard (m)uLaw 8kHz per sistemi IVR.
Normalizzazione e metadata con Studio
Studio ora supporta le linee guida standard del settore per la consegna di audiolibri, inclusa la regolazione del gain e la compressione dinamica. Puoi anche inserire i metadata (ISBN, autore e titolo) direttamente nel tuo progetto Studio.
Dizionario di pronuncia
Questa è stata una delle funzioni più richieste. Il mese scorso abbiamo aggiunto il supporto ai tag SSML per specificare la pronuncia tramite i dizionari IPA e CMU nei nostri modelli inglesi. Ora abbiamo rilasciato il supporto al dizionario di pronuncia anche nell’interfaccia di Studio, permettendoti di caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole (alias). I file del dizionario usano il formato open standard .PLS
IPA e CMU sono attualmente supportati da Turbo v2 English. Le sostituzioni di parole sono supportate da tutti i modelli e lingue. La documentazione completa è disponibile
L’aggiunta di un Dizionario di Pronuncia è stata una delle funzionalità più richieste. Il mese scorso abbiamo introdotto i tag SSML per specificare la pronuncia usando i dizionari IPA e CMU nei nostri modelli inglesi. Ora il supporto al dizionario di pronuncia è disponibile anche nell’interfaccia di Studio, così puoi caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole. I file del dizionario vengono caricati usando lo standard aperto .PLS formato file lessico.
Se hai feedback, scrivici pure su Discord!qui.
Dì quello che vuoi e ascoltalo riprodotto con una voce completamente diversa, con il pieno controllo sull’interpretazione. Cattura sussurri, risate, accenti e sfumature emotive.

.webp&w=3840&q=80)


