
ElevenLabs lancia nuovi prodotti di Voice AI generativa e annuncia un round Series A da 19 milioni di dollari guidato da Nat Friedman, Daniel Gross e Andreessen Horowitz
- Categoria
- Azienda
- Data
La conferenza di quest'anno è stata la migliore occasione che abbiamo avuto finora per condividere la nostra ricerca e i suoi risultati
Siamo appena tornati dalla conferenza INTERSPEECH di quest’anno, che è stata la migliore occasione che abbiamo avuto finora per presentare e ricevere feedback su tutti gli sviluppi a cui abbiamo lavorato negli ultimi mesi.
È stato fantastico imparare e scambiare idee con i migliori del settore e creare nuove relazioni per il futuro. Abbiamo incontrato team di startup straordinarie che lavorano nel nostro stesso campo, in particolare sulla clonazione vocale, la sintesi vocale (TTS) e la conversione vocale (VC) (Supertone e LOVO, per citarne due). Siamo stati altrettanto entusiasti di parlare con alcune delle aziende più affermate come Meta e Google del lavoro dietro le quinte necessario per sviluppare software TTS e VC.
Siamo andati subito al sodo. L’entusiasmo sincero per il nostro lavoro ci ha resi felicissimi – ha superato ogni nostra aspettativa. Nei quattro giorni successivi abbiamo discusso la nostra ricerca e i progressi fatti proprio in quei tre ambiti della tecnologia vocale: passaggi fondamentali per arrivare a sviluppare il nostro strumento proprietario di doppiaggio automatico, la cui versione 1.0 puntiamo a rilasciare all’inizio del prossimo anno.
La cosa più importante per noi era dimostrare di poter clonare fedelmente le voci – cioè di riuscire a mantenere la somiglianza tra la voce di partenza su cui addestriamo il nostro algoritmo e il modo in cui la stessa voce viene generata sinteticamente. In secondo luogo, era fondamentale dimostrare che i nostri strumenti TTS stanno diventando parte di una piattaforma di sintesi vocale sintetica dal suono sempre più naturale e umano, offrendo prosodia e tonalità senza paragoni.
La prima è ovviamente importante perché le nuove frasi generate devono essere subito riconoscibili come pronunciate da una persona specifica – dobbiamo preservare correttamente l’identità del parlante. Prosodia e tonalità sono fondamentali perché tono e ritmo trasmettono l’intenzione, che è ciò che rende il parlato davvero umano. L’obiettivo qui è che il programma non solo pronunci le parole in modo fluido, ma riesca anche a dare all’enunciato la giusta carica emotiva, così da sembrare che capisca quello che sta dicendo.
Qui sotto puoi vedere una delle demo TTS che abbiamo usato durante la conferenza. Il primo link è il video originale, seguito dal nostro esempio con lo stesso messaggio pronunciato da una voce diversa. Attenzione, questa è sintesi vocale, non conversione vocale. L’unico input è stato trascrivere le parole pronunciate nel video originale per generare la voce che senti. Tutta la prosodia e l’intonazione sono gestite dall’algoritmo, senza alcun post-processing. Riesci a riconoscere di chi è la voce?
Troverai altri dettagli sulla tecnologia Eleven TTS nel nostro prossimo articolo dedicato proprio alla generazione di parlato da testo.
Se ti piace la nostra tecnologia e vuoi diventare nostro beta-tester, puoi iscriverti cliccando qui.
Originale:
Clonazione vocale TTS Eleven Labs:
Nei mesi che hanno preceduto la conferenza ci siamo concentrati quasi esclusivamente sul presentare esempi concreti della nostra tecnologia e mostrare la nostra ricerca proprietaria. Dopotutto, INTERSPEECH è una conferenza di ricerca e volevamo che il contenuto venisse prima della forma, soprattutto in un contesto così specifico. Il giorno della conferenza abbiamo iniziato a scherzare sul fatto che questa attenzione alla tecnologia forse aveva reso il nostro branding un po’ troppo minimalista. Siamo stati presto sollevati – se non addirittura confortati! – nel vedere che anche altri, compresi i grandi nomi, avevano scelto soluzioni altrettanto semplici.
Il viaggio in Corea è stato un grande successo per Eleven e una bella dose di motivazione per spingere ancora di più. Siamo già entusiasti pensando ai progressi che potremo fare quest’anno sia nella ricerca che nei modi di presentarla. Speriamo che per allora avremo pronti i nostri strumenti di doppiaggio di qualità professionale e che potremo usare le voci delle persone per farle parlare lingue che non conoscono.



