Eleven på INTERSPEECH 2022

Årets konferens var den bästa möjligheten vi haft hittills att dela vår forskning och dess resultat

Hur det gick

Vi har precis kommit tillbaka från årets INTERSPEECH-konferens som var den bästa möjligheten hittills att presentera och få feedback på alla utvecklingar vi har arbetat med de senaste månaderna.

Det har varit fantastiskt att lära sig av och dela idéer med de bästa inom området och att skapa framtida relationer under processen. Vi träffade team från några fantastiska startups som arbetar inom samma område som vi, särskilt med voice cloning, speech synthesis (TTS) och voice conversion (VC) (Supertone och LOVO för att nämna två). Vi var lika glada att prata med några av de mest etablerade företagen som Meta och Google om arbetet bakom kulisserna med att utveckla TTS och VC-programvara.

Vi gick rakt på sak. Den uppriktiga entusiasmen för vårt arbete kunde inte ha gjort oss gladare - det överträffade alla förväntningar vi hade. Under de kommande fyra dagarna diskuterade vi vår forskning och framsteg inom de tre talteknikområdena ovan - de absolut avgörande första stegen på vår väg mot att utveckla vårt egna automatiska dubbningsverktyg, version 1.0 som vi planerar att släppa tidigt nästa år.

Det viktigaste för oss här var att bevisa att vi kan klona röster troget - att vi kan bevara röstlikheten mellan källröstdata som vi tränar vår algoritm på och hur samma röst låter när den genereras syntetiskt. Och för det andra var det avgörande för oss att bevisa att våra TTS-verktyg är på väg att bli en del av den mest mänskliga och naturligt ljudande syntetiska talplattformen där ute genom att erbjuda oöverträffad prosodi och ton.

Det förstnämnda är naturligtvis viktigt eftersom vi behöver att de nygenererade yttrandena lätt kan identifieras som talade av en viss person - vi måste korrekt bevara talarens identitet. Prosodi och ton är viktiga eftersom ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Den heliga graalen här är att programmet inte bara uttalar ord flytande utan också lägger till yttrandet med en lämplig emotionell laddning så att det låter som om det förstårvad det säger.

TTS-demo

Du kan se en sådan TTS-demo som vi använde under konferensen nedan. Den första länken är originalvideon och sedan följer vårt exempel med samma meddelande talat i en annan röst. Kom ihåg, detta är text-to-speech - inte voice conversion. Vårt enda indata var att skriva ner orden som talades i originalvideon för att generera talet du hör. All prosodi och intonation är algoritmens verk, det finns ingen efterbearbetning inblandad. Se om du känner igen vems röst det är!

Du kommer att läsa mer om Eleven TTS-teknologi i vårt nästa inlägg som är specifikt dedikerat till att generera tal från textinmatning.

Om du gillar vår teknik och vill bli vår beta-testare, kan du anmäla dig för detta här.

Original:

ElevenLabs Voice Cloning TTS:

Innehåll över form

Under månaderna före konferensen fokuserade vi nästan uteslutande på att leverera demonstrerbara exempel på vår teknik och på att visa vår egen forskning. Trots allt är INTERSPEECH en forskningskonferens och vi var bestämda att innehåll måste gå före form, särskilt vid en så specifikt inriktad sammankomst. När konferensdagen kom började vi dock skämta om att vårt ökade fokus på teknik kanske fick våra varumärkesinsatser att verka för minimalistiska. Vi blev snart ganska lättade, om inte rättfärdigade!, att upptäcka att andra, inklusive de stora aktörerna, också valde enklare uppsättningar.

Till nästa år

Vår resa till Korea var en stor framgång för Eleven och en rejäl dos motivation att satsa ännu hårdare. Vi är redan exalterade bara av tanken på de framsteg vi kan göra under det kommande året både i vår forskning och i sätt att presentera den. Förhoppningsvis har vi då våra produktionskvalitetsdubbningsverktyg redo och vi kommer att använda människors röster för att låta dem tala de språk de inte kan.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in