.webp&w=3840&q=95)
Yvonne Johnson at the 11/11 ElevenLabs Summit
An authentic voice for change
Black Friday
Årets konferens var den bästa möjligheten vi haft hittills att dela vår forskning och dess resultat
Vi har precis kommit tillbaka från årets INTERSPEECH-konferens som var den bästa möjligheten vi haft hittills att presentera och få feedback på alla de utvecklingar vi arbetat med de senaste månaderna.
Det har varit fantastiskt att lära av och dela idéer med de bästa inom området och att knyta framtida relationer under processen. Vi träffade team från några fantastiska startups som arbetar inom samma område som vi, särskilt med voice cloning, speech synthesis (TTS) och voice conversion (VC) (Supertone och LOVO för att nämna två). Vi var lika glada att prata med några av de mest etablerade företagen som Meta och Google om arbetet bakom kulisserna med att utveckla TTS- och VC-programvara.
Vi gick rakt på sak. Den uppriktiga entusiasmen för vårt arbete kunde inte ha gjort oss gladare - det överträffade alla förväntningar vi hade. Under de kommande fyra dagarna diskuterade vi vår forskning och framsteg inom de tre talteknikområdena ovan - de absolut avgörande första stegen på vår väg att utveckla vårt egenutvecklade automatiska dubbningsverktyg, version 1.0 som vi planerar att släppa tidigt nästa år.
Det viktigaste för oss här var att bevisa att vi kan klona röster troget - att vi kan bevara röstlikheten mellan källröstdata som vi tränar vår algoritm på och hur samma röst låter när den genereras syntetiskt. Och för det andra var det avgörande för oss att bevisa att våra TTS-verktyg är på väg att bli en del av den mest mänskliga och naturligt ljudande syntetiska talplattformen där ute genom att erbjuda oöverträffad prosodi och ton.
Det förstnämnda är naturligtvis viktigt eftersom vi behöver att de nygenererade yttrandena lätt kan identifieras som talade av en viss person - vi måste korrekt bevara talarens identitet. Prosodi och ton är viktiga eftersom ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Den heliga graalen här är att programmet inte bara uttalar ord flytande utan också lägger till yttrandet med en lämplig emotionell laddning så att det låter som om det förstårvad det säger.
Du kan se en sådan TTS-demo som vi använde under konferensen nedan. Den första länken är originalvideon och sedan följer vårt exempel som innehåller samma meddelande talat med en annan röst. Kom ihåg, detta är text-to-speech - inte voice conversion. Vårt enda indata var att skriva ner orden som talades i originalvideon för att generera talet du hör. All prosodi och intonation beror på algoritmen själv, det finns ingen efterbearbetning inblandad. Se om du känner igen vems röst det är!
Du kommer att läsa mer om Eleven TTS-teknik i vårt nästa inlägg som är specifikt dedikerat till att generera tal från textinmatning.
Om du gillar vår teknik och vill bli vår beta-testare, kan du anmäla dig för detta klicka här.
Original:
Eleven Labs voice cloning TTS:
Under månaderna före konferensen fokuserade vi nästan uteslutande på att leverera demonstrerbara exempel på vår teknik och på att visa vår egen forskning. Trots allt är INTERSPEECH en forskningskonferens och vi var bestämda att innehåll måste gå före form, särskilt vid en så specifikt inriktad sammankomst. När konferensdagen kom började vi dock skämta om att vårt ökade fokus på teknik kanske fick våra varumärkesinsatser att verka för minimalistiska. Vi blev snart ganska lättade, om inte rättfärdigade!, att se andra, inklusive de stora aktörerna, välja enklare uppsättningar också.
Vår resa till Korea var en stor framgång för Eleven och en rejäl dos motivation att satsa ännu hårdare. Vi är redan entusiastiska bara av tanken på de framsteg vi kan göra under det kommande året både i vår forskning och i sätt att presentera den. Förhoppningsvis har vi då våra produktionskvalitetsdubbningsverktyg redo och vi kommer att använda människors röster för att låta dem tala de språk de inte kan.
.webp&w=3840&q=95)
An authentic voice for change

Expanding access and productivity with voice-first AI
Drivs av ElevenLabs Agenter