.webp&w=3840&q=95)
How to monetize your voice with ElevenLabs Voice Library and create a passive income
Start creating passive income from your voice today.
Presenterar Eleven v3 Alpha
Prova v3Röstkonvertering låter dig omvandla en persons röst till en annans. Det använder en process som kallas Voice Cloning för att koda målrösten - alltså rösten vi konverterar till - och generera samma meddelande talat på ett sätt som matchar målpersonens identitet men bevarar den ursprungliga intonationen.
Högkvalitativ röstkonvertering och Voice Cloning-teknologi har potential att revolutionera hur innehåll produceras, levereras och interageras med inom olika branscher. De lovar att optimera produktionstid och kostnader och ge dem som delar sina röster för att träna konverteringsalgoritmer möjligheter att tjäna passiva avgifter.
Även om vi utvecklar röstkonverteringsprogramvara på Eleven som en del av vårt verktygspaket, är vår forskning inom Voice Cloning och röstsyntes främst inriktad på utvecklingen av vår huvudprodukt som vi planerar att släppa tidigt nästa år: det identitetsbevarande automatiska dubbningsverktyget.
Vårt mål här är att göra allt talat innehåll tillgängligt över språk i den ursprungliga talarens röst, med ett knapptryck. Tänk dig en utbildningsvideo på YouTube på engelska. Om någon bara talar spanska (men annars skulle finna ämnet intressant om de bara kunde språket), är det ett problem. Visst, undertexter ger en lösning men vårt mål är att ge ett mycket mer engagerande och underhållande sätt att interagera med innehåll. Vi vill kunna generera samma person som talar samma meddelande naturligt på spanska av hög kvalitet, även om de egentligen inte gör det.
För detta ändamål låter Voice Cloning oss bevara deras identitet - ljudet av deras röst. Vi använder det för att generera nya uttalanden på ett annat språk så att det låter som om det är samma person som talar.
Röstkonvertering kommer in i bilden eftersom vi vill bevara deras känslor, avsikt och leveransstil för maximal inlevelse. Vi tränar robusta flerspråkiga modeller som gör det möjligt för oss att tolka uttalanden på källspråket och överföra dem till målspråket med rätt intonation.
För att konvertera en persons röst till en annans, dvs. källtal till måltal, behöver vi en algoritm för att uttrycka källtalets innehåll med måltalets egenskaper. En bra analogi här är ansiktsbytesappar som låter dig blanda ditt ansikte med någon annans för att skapa en bild av båda som en.
Sättet att göra detta är att ta bilden av ett ansikte och kartlägga dess attribut. Prickarna i exemplet nedan gör just det: de är gränserna inom vilka den andra ansiktets drag skulle återges.
I röstkonvertering behöver vi ett sätt för algoritmen att koda måltalets egenskaper. Algoritmen tränas på en uppsättning data som består av många exempel på det talet. Den bryter ner dessa prover till en grundläggande nivå - talets "atomer", så att säga. Tal består av meningar. Meningar består av ord. Ord består av fonem och de markerar måltalets egenskaper. De är den grundläggande nivån på vilken algoritmen verkar.
Tricket i röstkonvertering är att återge källtalets innehåll med hjälp av måltalets fonem. Men det finns en avvägning här, precis som i ansiktsbytesexemplet: ju fler markörer du använder för att kartlägga ett ansikts attribut, desto fler begränsningar inför du på ansiktet du kartlägger inom dem. Färre markörer innebär färre begränsningar. Detsamma gäller för röstkonvertering. Ju mer preferens vi ger till måltal, desto mer riskerar vi att komma ur synk med källtalet. Men om vi inte ger det tillräckligt med preferens, riskerar vi att förlora mycket av det som gör det talet karakteristiskt. Till exempel, om vi skulle återge inspelningen av någon som skriker argt i Morgan Freemans röst, skulle vi få problem. Ger vi för mycket preferens till källtalets känslor är priset vi betalar att förlora intrycket av att det verkligen är Morgan Freeman som talar. För mycket betoning på hans talmönster och vi förlorar den känslomässiga laddningen av källtalet.
Etiska frågor kring Voice Cloning förtjänar att tas upp eftersom potentialen att missbruka teknologin gör att allt fler människor oroar sig. År 2020 användes ljuddeepfakes av bedragare som utgav sig för att vara en VD under ett telefonsamtal för att godkänna en banköverföring på 35 miljoner dollar. En teknologi som övertygande kan få det att verka som om någon sa något de inte gjorde väcker naturligtvis farhågor om att användas för att desinformera, förtala eller begå bedrägeri. På samma sätt väcker röstkonvertering viktiga frågor om upphovsrättsintrång om det tillåter användare att kapitalisera på innehåll som genereras utan samtycke från röstägare.
På Eleven känner vi behovet av att göra vad vi kan för att se till att vår teknologi inte används för onda syften och att införa skyddsåtgärder för att skydda mot dess faror:
Vi tror att rädslan för missbruk inte bör vara den dominerande faktorn som styr vår inställning till kraftfull ny teknologi. Snarare bör vi sträva efter att säkerställa att lämpliga skyddsåtgärder införs vid utveckling för att minimera risken för skada samtidigt som vi utnyttjar den potential teknologin erbjuder för det bredare samhället.
Röstkonvertering och Voice Cloning-teknologi lovar att revolutionera film, tv, innehållsskapande, spelutveckling, podcast och ljudbok, samt reklambranscher. Men deras tillämpningar går bortom det kommersiella med potentiella användningar inom medicin, utbildning och kommunikation.
Voice Cloning banar väg för en framtid där allt innehåll kan genereras på vilket språk och röst som helst för att nå miljontals människor världen över och skapa en helt ny ekonomi. Vårt mål på Eleven är att hjälpa till att förverkliga denna framtid.
Start creating passive income from your voice today.
Our most powerful AI voice tools are now available for iOS and Android.