Eleven på INTERSPEECH 2022

Publicerad: 5 okt. 2022

LyssnaLyssna på den här artikeln

0:00

0:000:00

Hur det gick

Vi har precis kommit tillbaka från årets INTERSPEECH-konferens som var den bästa möjligheten vi haft hittills att presentera och få feedback på alla de utvecklingar vi arbetat med de senaste månaderna.

Det har varit fantastiskt att lära av och dela idéer med de bästa inom området och att knyta framtida relationer under processen. Vi träffade team från några fantastiska startups som arbetar inom samma område som vi, särskilt med voice cloning, speech synthesis (TTS) och voice conversion (VC) (Supertone och LOVO för att nämna två). Vi var lika glada att prata med några av de mest etablerade företagen som Meta och Google om arbetet bakom kulisserna med att utveckla TTS- och VC-programvara.

Vi gick rakt på sak. Den uppriktiga entusiasmen för vårt arbete kunde inte ha gjort oss gladare - det överträffade alla förväntningar vi hade. Under de kommande fyra dagarna diskuterade vi vår forskning och framsteg inom de tre talteknikområdena ovan - de absolut avgörande första stegen på vår väg att utveckla vårt egenutvecklade automatiska dubbningsverktyg, version 1.0 som vi planerar att släppa tidigt nästa år.

Det viktigaste för oss här var att bevisa att vi kan klona röster troget - att vi kan bevara röstlikheten mellan källröstdata som vi tränar vår algoritm på och hur samma röst låter när den genereras syntetiskt. Och för det andra var det avgörande för oss att bevisa att våra TTS-verktyg är på väg att bli en del av den mest mänskliga och naturligt ljudande syntetiska talplattformen där ute genom att erbjuda oöverträffad prosodi och ton.

Det förstnämnda är naturligtvis viktigt eftersom vi behöver att de nygenererade yttrandena lätt kan identifieras som talade av en viss person - vi måste korrekt bevara talarens identitet. Prosodi och ton är viktiga eftersom ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Den heliga graalen här är att programmet inte bara uttalar ord flytande utan också lägger till yttrandet med en lämplig emotionell laddning så att det låter som om det förstårvad det säger.

TTS-demo

Du kan se en sådan TTS-demo som vi använde under konferensen nedan. Den första länken är originalvideon och sedan följer vårt exempel som innehåller samma meddelande talat med en annan röst. Kom ihåg, detta är text-to-speech - inte voice conversion. Vårt enda indata var att skriva ner orden som talades i originalvideon för att generera talet du hör. All prosodi och intonation beror på algoritmen själv, det finns ingen efterbearbetning inblandad. Se om du känner igen vems röst det är!

Du kommer att läsa mer om Eleven TTS-teknik i vårt nästa inlägg som är specifikt dedikerat till att generera tal från textinmatning.

Om du gillar vår teknik och vill bli vår beta-testare, kan du anmäla dig för detta klicka här.

Original:

ElevenLabs

Innehåll över form

Under månaderna före konferensen fokuserade vi nästan uteslutande på att leverera demonstrerbara exempel på vår teknik och på att visa vår egen forskning. Trots allt är INTERSPEECH en forskningskonferens och vi var bestämda att innehåll måste gå före form, särskilt vid en så specifikt inriktad sammankomst. När konferensdagen kom började vi dock skämta om att vårt ökade fokus på teknik kanske fick våra varumärkesinsatser att verka för minimalistiska. Vi blev snart ganska lättade, om inte rättfärdigade!, att se andra, inklusive de stora aktörerna, välja enklare uppsättningar också.

Till nästa år

Vår resa till Korea blev en stor framgång för ElevenLabs och gav oss massor av motivation att satsa ännu hårdare. Vi är redan taggade på att se hur mycket vi kan utvecklas under det kommande året, både i vår forskning och i hur vi presenterar den. Förhoppningsvis har vi då vår produktionsklara

Eleven på INTERSPEECH 2022

Hur det gick

TTS-demo

Innehåll över form

Till nästa år

Liknande artiklar

ElevenLabs passerar $500M ARR och välkomnar nya investerare som BlackRock, NVIDIA, Jamie Foxx och Eva Longoria

Articulatory Intelligence: ger en glaciär en röst

Vi presenterar ElevenMusic

ElevenLabs växer i Spanien