
Presentiamo Text To Bark: una svolta nell'AI Pawdio
- Categoria
- Prodotto
- Data
È arrivato il primo modello generativo per creare voci sintetiche
Il mese scorso abbiamo annunciato che stava per arrivare il nostro modello generativo per la creazione di voci. Ora è finalmente disponibile ed è il primo nel suo genere: lo chiamiamo Voice Design. Questa funzione ti permette di creare nuove voci da zero scegliendo le caratteristiche principali come genere, età e accento. Anche impostando gli stessi parametri di base, il nostro modello aggiunge sempre un tocco di casualità ogni volta che generi una voce, così ogni risultato è davvero unico. Voice Design fa parte del nostro impegno per offrire a publisher e creator gli strumenti di IA più versatili per lo storytelling.
Il modello alla base di Voice Design nasce soprattutto dalla nostra ricerca sulla sintesi vocale e sulla clonazione della voce, anche se da sempre ci piaceva l’idea di uno strumento generativo per il parlato. Abbiamo già visto applicazioni pratiche per i modelli generativi di testo-immagine e chatbot, ma mancava ancora qualcosa di simile per l’audio. Fin dal lancio abbiamo ricevuto richieste per aggiungere più speaker alla nostra banca voci. Invece di riempire la libreria con infinite voci e costringerti ad ascoltare ogni anteprima per capire chi è chi, abbiamo deciso di cambiare approccio e lasciarti scegliere l’identità dello speaker, permettendo comunque una varietà infinita all’interno di questi parametri.
Aggiungere un certo grado di controllo nella selezione delle voci era importante, perché spesso chi usa ElevenLabs cerca caratteristiche vocali precise per i propri script. Garantire che ogni voce generata sia unica era altrettanto fondamentale, visto che molti casi d’uso richiedono, o comunque traggono vantaggio, dall’avere accesso esclusivo a una voce. Oltre a offrire un nuovo spazio creativo, le voci generate con Voice Design sono completamente artificiali e non appartengono a nessuna persona reale.
Oltre a trasformare facilmente i testi in audio di qualità con il nostro strumento di punta Sintesi vocale, gli autori di libri ora possono usare Voice Design per avere pieno controllo artistico sulla narrazione e dare a ogni personaggio una voce su misura.
Gli editori di notizie che si avvicinano all’audio hanno bisogno di voci per le loro storie. Poiché i narratori diventano parte dell’identità delle pubblicazioni che rappresentano, scegliere la voce giusta è una decisione importante che spesso non si ripete. Con Voice Design, gli editori possono scegliere e confrontare praticamente infiniti narratori in tempo reale. Inoltre, possono avere la certezza che una voce rappresenti solo loro.
Gli sviluppatori di videogiochi non devono più scegliere se un personaggio merita i costi di registrazione. Decine di migliaia di NPC prima muti ora possono avere personalità uniche, ampliando i confini dell’immersione virtuale.
Che tu sia un creatore di contenuti al lavoro sulla prossima uscita o un responsabile aziendale che vuole dare voce alle comunicazioni della propria azienda, ora puoi creare audio realistici e coinvolgenti per ogni esigenza e pubblico.
Voice Design è una delle tante funzioni per l’editing della narrazione che introdurremo quest’anno. La prossima sarà Studio – la nostra nuova workstation per strutturare testi lunghi, inserire pause, rigenerare parti di audio e assegnare sezioni di testo a speaker diversi. Studio arriverà a fine marzo e sarà arricchito dal supporto all’editing dell’intonazione nel corso del secondo trimestre.

.webp&w=3840&q=80)

