
Automatisera voiceover till videor, uppläsning av reklam, poddar och mycket mer med din egen röst
Presenterar Eleven v3 Alpha
Prova v3Vi lanserar vårt AI-röstöversättningsverktyg nästa månad. Det låter användare konvertera ljud- eller videoinnehåll till ett annat språk samtidigt som den ursprungliga talarens röst bevaras. Vårt mål är enkelt: göra flerspråkigt innehåll tillgängligt och autentiskt över medier som streaming, spel och filmer.
Vi har sett Spotify och OpenAI visa upp sina framsteg inom röstöversättning och talförmågor, och vi är glada att dela nyheter om våra egna utvecklingar.
This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
Det kommande verktyget handlar inte bara om översättning; det handlar om att bevara talarens identitet och ursprungliga talmönster över språk, vilket ger en mer sammanhängande och uppslukande upplevelse än vad traditionell textning kan erbjuda.
Tänk dig en utbildningsvideo på engelska. Om någon bara talar spanska (men annars skulle tycka ämnet är intressant), är det ett problem. Vi vill kunna generera den ursprungliga personen som talar det ursprungliga budskapet naturligt på spanska av hög kvalitet.
Detta kräver att vi kombinerar röstkonvertering, voice cloning och flerspråkig talssyntes funktioner i ett enda nytt verktyg. Här låter voice cloning oss bevara talarens identitet - ljudet av deras röst. Vi använder talssyntes för att generera nya yttranden på ett annat språk som om det är samma person som talar. Röstkonvertering kommer in i bilden eftersom vi vill bevara de ursprungliga känslorna, avsikten och leveransstilen för maximal inlevelse.
Automatisera voiceover till videor, uppläsning av reklam, poddar och mycket mer med din egen röst
Vi har lagt mycket forskning och innovation på att utveckla teknik som kan återge mänskligt tal ultrarealistiskt, förstå kontext och koda röstprofiler. Vårt AI-röstöversättningsverktyg är ett betydande steg mot att möjliggöra för skapare att nå en bredare publik och hjälpa potentiella tittare att upptäcka innehåll de finner relevant och fängslande, oavsett vilket språk de förstår.
Dubbning är en process för att ge en video ett ljudspår på ett annat språk genom att ersätta de ursprungliga skådespelarnas röster med de av artister som talar ett annat språk - även kallat "omröstning" - traditionellt en kostsam och tidskrävande uppgift. På Eleven är vårt mål att göra detta automatiskt samtidigt som vi bevarar de ursprungliga rösterna över språk.
Röstkonvertering gör det möjligt för en person att tala med en annan persons röst. Det använder voice cloning för att koda en målröst och lägga den över källrösten. Resultatet är det ursprungliga budskapet som till synes talas av någon annan.
Text-to-speech (TTS) är grunden för all talssyntesteknik. TTS tekniken har förbättrats radikalt över åren även om den fortfarande ofta låter robotaktig. Det beror på att det inte räcker att uttala ord flytande för att ge tal mänsklig kvalitet. Det är den avsiktsdrivna tonen och tempot som kommer från att förstå vad som sägs som gör att det låter naturligt. På Eleven försöker vi uppnå just det: genom att exponera vår modell för en mängd mänskligt taldata, tränar vi den att förstå både det logiska och emotionella sammanhanget av yttranden och att justera leveransen därefter.
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
Vi ser fram emot oktoberlanseringen och att förändra hur vi interagerar med flerspråkigt innehåll.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.