Möt Eleven Music. Skapa den perfekta låten för varje ögonblick.

Röstkonvertering

6 sep. 2022 • 7 minuter lästid

Få en person att tala med en annans röst

A man wearing glasses and headphones speaking into a microphone, smiling.

Vad är röstkonvertering?

Röstkonvertering låter dig omvandla en persons röst till en annans. Det använder en process som kallas Voice Cloning för att koda målrösten - alltså rösten vi konverterar till - och generera samma meddelande talat på ett sätt som matchar målpersonens identitet men bevarar den ursprungliga intonationen.

Användningsområden

Högkvalitativ röstkonvertering och Voice Cloning-teknologi har potential att revolutionera hur innehåll produceras, levereras och interageras med inom olika branscher. De lovar att optimera produktionstid och kostnader och ge dem som delar sina röster för att träna konverteringsalgoritmer möjligheter att tjäna passiva avgifter.

Inom film kan skådespelare dela sina röstdatabaser med producenter för att skapa ljudspår utan att behöva resa till inspelningsplats eller studio;
felaktigt uttalade repliker kan spelas in igen mycket mer effektivt i efterproduktion;
teknologin kan också användas för att troget återskapa historiska personers röster i fiktiva scenarier eller för att återuppliva avlidna skådespelare;
inom spelutveckling kommer teknologin att vara användbar i liknande utsträckning: korrigera uttal eller bara experimentera kan göras direkt utan att skådespelaren fysiskt är närvarande för inspelning;
inom medicin kan patienter som förlorat förmågan att tala, till exempel som ett resultat av strupcancerbehandling, få möjlighet att kommunicera igen med sin egen röst;
virtuella assistenter kan bli personliga då hemanvändare kanske finner det mer naturligt att interagera med, säg, en älskads röst snarare än en virtuell främlings;
å andra sidan kan reklambranschen dra nytta av att införa syntetiska voice-overs som låter lika verkliga som någon människa men undviker problem med rättighetsägande och royalties. Om det däremot är en igenkännbar röst som behövs, kan även här reklamproducenter använda teknologin för att med samtycke klona en viss skådespelares röst utan att behöva ha dem fysiskt närvarande vid långa inspelningssessioner;
ljudboks- och podcastindustrin är ytterligare två växande verksamheter där användning av Voice Cloning och röstkonverteringsteknologi erbjuder möjligheten att optimera produktion och redigering av engagerande innehåll.

Eleven Labs Röstkonvertering

Även om vi utvecklar röstkonverteringsprogramvara på Eleven som en del av vårt verktygspaket, är vår forskning inom Voice Cloning och röstsyntes främst inriktad på utvecklingen av vår huvudprodukt som vi planerar att släppa tidigt nästa år: det identitetsbevarande automatiska dubbningsverktyget.

Vårt mål här är att göra allt talat innehåll tillgängligt över språk i den ursprungliga talarens röst, med ett knapptryck. Tänk dig en utbildningsvideo på YouTube på engelska. Om någon bara talar spanska (men annars skulle finna ämnet intressant om de bara kunde språket), är det ett problem. Visst, undertexter ger en lösning men vårt mål är att ge ett mycket mer engagerande och underhållande sätt att interagera med innehåll. Vi vill kunna generera samma person som talar samma meddelande naturligt på spanska av hög kvalitet, även om de egentligen inte gör det.

För detta ändamål låter Voice Cloning oss bevara deras identitet - ljudet av deras röst. Vi använder det för att generera nya uttalanden på ett annat språk så att det låter som om det är samma person som talar.

Röstkonvertering kommer in i bilden eftersom vi vill bevara deras känslor, avsikt och leveransstil för maximal inlevelse. Vi tränar robusta flerspråkiga modeller som gör det möjligt för oss att tolka uttalanden på källspråket och överföra dem till målspråket med rätt intonation.

Process

För att konvertera en persons röst till en annans, dvs. källtal till måltal, behöver vi en algoritm för att uttrycka källtalets innehåll med måltalets egenskaper. En bra analogi här är ansiktsbytesappar som låter dig blanda ditt ansikte med någon annans för att skapa en bild av båda som en.

Sättet att göra detta är att ta bilden av ett ansikte och kartlägga dess attribut. Prickarna i exemplet nedan gör just det: de är gränserna inom vilka den andra ansiktets drag skulle återges.

I röstkonvertering behöver vi ett sätt för algoritmen att koda måltalets egenskaper. Algoritmen tränas på en uppsättning data som består av många exempel på det talet. Den bryter ner dessa prover till en grundläggande nivå - talets "atomer", så att säga. Tal består av meningar. Meningar består av ord. Ord består av fonem och de markerar måltalets egenskaper. De är den grundläggande nivån på vilken algoritmen verkar.

Tricket i röstkonvertering är att återge källtalets innehåll med hjälp av måltalets fonem. Men det finns en avvägning här, precis som i ansiktsbytesexemplet: ju fler markörer du använder för att kartlägga ett ansikts attribut, desto fler begränsningar inför du på ansiktet du kartlägger inom dem. Färre markörer innebär färre begränsningar. Detsamma gäller för röstkonvertering. Ju mer preferens vi ger till måltal, desto mer riskerar vi att komma ur synk med källtalet. Men om vi inte ger det tillräckligt med preferens, riskerar vi att förlora mycket av det som gör det talet karakteristiskt. Till exempel, om vi skulle återge inspelningen av någon som skriker argt i Morgan Freemans röst, skulle vi få problem. Ger vi för mycket preferens till källtalets känslor är priset vi betalar att förlora intrycket av att det verkligen är Morgan Freeman som talar. För mycket betoning på hans talmönster och vi förlorar den känslomässiga laddningen av källtalet.

Etik

Etiska frågor kring Voice Cloning förtjänar att tas upp eftersom potentialen att missbruka teknologin gör att allt fler människor oroar sig. År 2020 användes ljuddeepfakes av bedragare som utgav sig för att vara en VD under ett telefonsamtal för att godkänna en banköverföring på 35 miljoner dollar. En teknologi som övertygande kan få det att verka som om någon sa något de inte gjorde väcker naturligtvis farhågor om att användas för att desinformera, förtala eller begå bedrägeri. På samma sätt väcker röstkonvertering viktiga frågor om upphovsrättsintrång om det tillåter användare att kapitalisera på innehåll som genereras utan samtycke från röstägare.

På Eleven känner vi behovet av att göra vad vi kan för att se till att vår teknologi inte används för onda syften och att införa skyddsåtgärder för att skydda mot dess faror:

vi samarbetar endast med kunder som följer våra villkor som förbjuder skadlig användning av vår teknologi med avsikt att desinformera, förtala, begå bedrägeri eller för något annat syfte som kan anses olagligt eller skadligt;
syntetiskt videoinnehåll producerat av Eleven inkluderar en tydlig vattenstämpel som anger att det är AI-genererat. Ljudinnehåll innehåller en tydlig filbeskrivning. När vi använder igenkännbara röster gör vi det för demonstrationsändamål och i sammanhang som inte ger upphov till intressekonflikter;
samtidigt strävar vi efter att stödja röstägare och deras licensgivare i att hävda sina rättigheter.
Om du har idéer om hur vi kan förbättra vår hållning, låt oss veta på ethics@elevenlabs.io

Vi tror att rädslan för missbruk inte bör vara den dominerande faktorn som styr vår inställning till kraftfull ny teknologi. Snarare bör vi sträva efter att säkerställa att lämpliga skyddsåtgärder införs vid utveckling för att minimera risken för skada samtidigt som vi utnyttjar den potential teknologin erbjuder för det bredare samhället.

Framtid

Röstkonvertering och Voice Cloning-teknologi lovar att revolutionera film, tv, innehållsskapande, spelutveckling, podcast och ljudbok, samt reklambranscher. Men deras tillämpningar går bortom det kommersiella med potentiella användningar inom medicin, utbildning och kommunikation.

Voice Cloning banar väg för en framtid där allt innehåll kan genereras på vilket språk och röst som helst för att nå miljontals människor världen över och skapa en helt ny ekonomi. Vårt mål på Eleven är att hjälpa till att förverkliga denna framtid.

Utforska artiklar av ElevenLabs-teamet

Developer

Developer

Eleven v3 (alpha), now available in the API

Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.

Impact

Sarah Ezekiel, a woman using eye gaze technology to operate a tablet displaying Smartbox Grid communication software

Impact

ElevenLabs Impact Program Innovates in Assistive Technology

By integrating ElevenLabs voice technology into Smartbox, a leading provider of tablet-based communication devices, people facing voice loss can speak in a way that feels natural - even in their own voice rebuilt from past recordings - on a device they already use and trust. Our Impact Program ensures those with MND/ALS can access this technology at no cost. For artist and MND advocate Sarah Ezekiel, this meant hearing her authentic voice again after decades.

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in