Presentiamo il Modificatore di Voce

Pubblicato: 22 nov 2023

AscoltaAscolta questo articolo

0:00

0:000:00

Il Modificatore di Voce si chiamava originariamente speech-to-speech. Nel contesto degli agenti vocali IA, "speech-to-speech" indica anche architetture integrate in cui un unico modello gestisce direttamente input e output audio. ElevenAgents utilizza un'architettura avanzata a cascata per la sua piattaforma. Scopri di più: Modelli a cascata vs modelli fusi.

Abbiamo aggiunto

Questo ti dà un livello di controllo che

Estrai più emozione da una voce.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Ecco una guida realizzata da un membro della nostra community:

Un altro modo di usare il modificatore di voce è fornire un ‘riferimento’ per l’interpretazione. Anche se il nostro TTS di solito azzecca subito l’intonazione, a volte potresti volerla perfezionare. Qui il modificatore di voce ti permette di mostrare come intonare una frase e poi farla pronunciare da qualsiasi voce tu scelga nello stesso modo. Questa funzione sarà ancora più utile e semplice da usare quando integreremo il modificatore di voce direttamente in Studio, ma il nostro obiettivo è già quello di migliorare radicalmente la tua capacità di modificare l’output con precisione.

Ricerca

Il modo per farlo è prendere l’immagine di un volto e mappare i suoi attributi. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto viene ricostruito.

Per convertire un parlato di origine in un parlato di destinazione, dobbiamo esprimere il contenuto della voce di origine con le caratteristiche della voce di destinazione. Un buon paragone sono le app di face-swapping che ti permettono di mescolare il tuo volto con quello di qualcun altro per creare un’immagine unica.

Il modo per farlo è prendere l’immagine di un volto e mappare le sue caratteristiche. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto verrà ricreato.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

Prodotto e aggiornamenti recenti

Cambiamenti alle voci predefinite

Stiamo apportando modifiche alle voci predefinite disponibili nella Sintesi Vocale. Alcune voci verranno ritirate e sostituite con nuove, con oltre 20 aggiunte previste nelle prossime settimane.

Inoltre inizieremo a fornire informazioni nell’interfaccia su quanto tempo ogni voce resterà disponibile. Durante dicembre, aggiorneremo le funzioni di condivisione delle voci e di compensazione per l’utilizzo, così da aumentare la varietà delle voci. Altri dettagli in arrivo.

Eleven Turbo v2 e formato uLaw 8kHz

Turbo v2 è il risultato di mesi di ricerca del nostro team. È pensato per interazioni in tempo reale ma funziona per qualsiasi esigenza. Supporta anche il formato standard (m)uLaw 8kHz per sistemi IVR.

Normalizzazione e metadata con Studio

Studio ora supporta le linee guida standard del settore per la consegna di audiolibri, inclusa la regolazione del gain e la compressione dinamica. Puoi anche inserire i metadata (ISBN, autore e titolo) direttamente nel tuo progetto Studio.

Dizionario di pronuncia

Questa è stata una delle funzioni più richieste. Il mese scorso abbiamo aggiunto il supporto ai tag SSML per specificare la pronuncia tramite i dizionari IPA e CMU nei nostri modelli inglesi. Ora abbiamo rilasciato il supporto al dizionario di pronuncia anche nell’interfaccia di Studio, permettendoti di caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole (alias). I file del dizionario usano il formato open standard .PLS

IPA e CMU sono attualmente supportati da Turbo v2 English. Le sostituzioni di parole sono supportate da tutti i modelli e lingue. La documentazione completa è disponibile

L’aggiunta di un Dizionario di Pronuncia è stata una delle funzionalità più richieste. Il mese scorso abbiamo introdotto i tag SSML per specificare la pronuncia usando i dizionari IPA e CMU nei nostri modelli inglesi. Ora il supporto al dizionario di pronuncia è disponibile anche nell’interfaccia di Studio, così puoi caricare un file che specifica la pronuncia tramite IPA, CMU o sostituzioni di parole. I file del dizionario vengono caricati usando lo standard aperto .PLS formato file lessico.

Se hai feedback, scrivici pure su Discord!qui.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

Dì quello che vuoi e ascoltalo riprodotto con una voce completamente diversa, con il pieno controllo sull’interpretazione. Cattura sussurri, risate, accenti e sfumature emotive.

Presentiamo il Modificatore di Voce

Questo ti dà un livello di controllo che

Il modo per farlo è prendere l’immagine di un volto e mappare i suoi attributi. I marker nell’esempio qui sotto fanno proprio questo: sono i limiti entro cui l’altro volto viene ricostruito.

Stiamo apportando modifiche alle voci predefinite disponibili nella Sintesi Vocale. Alcune voci verranno ritirate e sostituite con nuove, con oltre 20 aggiunte previste nelle prossime settimane.

Inoltre inizieremo a fornire informazioni nell’interfaccia su quanto tempo ogni voce resterà disponibile. Durante dicembre, aggiorneremo le funzioni di condivisione delle voci e di compensazione per l’utilizzo, così da aumentare la varietà delle voci. Altri dettagli in arrivo.

Normalizzazione e metadata con Studio

Dizionario di pronuncia

IPA e CMU sono attualmente supportati da Turbo v2 English. Le sostituzioni di parole sono supportate da tutti i modelli e lingue. La documentazione completa è disponibile

Articoli simili

Gestione di immagini e documenti in ElevenAgents

Presentiamo gli Avatar in ElevenCreative

Presentiamo Flows Agent in ElevenCreative

Riepilogo webinar: Distribuire agenti su ogni canale