AI-röstöversättning

26 sep. 2023 • 4 minuter lästid

AI Dubbing-verktyg kommer i oktober

Röstöversättning / AI-dubbning

Vi lanserar vårt AI-röstöversättningsverktyg nästa månad. Det låter användare konvertera ljud- eller videoinnehåll till ett annat språk samtidigt som den ursprungliga talarens röst bevaras. Vårt mål är enkelt: göra flerspråkigt innehåll tillgängligt och autentiskt över medier som streaming, spel och filmer.

Vi har sett Spotify och OpenAI visa upp sina framsteg inom röstöversättning och talförmågor, och vi är glada att dela nyheter om våra egna utvecklingar.

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

Det kommande verktyget handlar inte bara om översättning; det handlar om att bevara talarens identitet och ursprungliga talmönster över språk, vilket ger en mer sammanhängande och uppslukande upplevelse än vad traditionell textning kan erbjuda.

Tänk dig en utbildningsvideo på engelska. Om någon bara talar spanska (men annars skulle tycka ämnet är intressant), är det ett problem. Vi vill kunna generera den ursprungliga personen som talar det ursprungliga budskapet naturligt på spanska av hög kvalitet.

Detta kräver att vi kombinerar röstkonvertering, voice cloning och flerspråkig talssyntes funktioner i ett enda nytt verktyg. Här låter voice cloning oss bevara talarens identitet - ljudet av deras röst. Vi använder talssyntes för att generera nya yttranden på ett annat språk som om det är samma person som talar. Röstkonvertering kommer in i bilden eftersom vi vill bevara de ursprungliga känslorna, avsikten och leveransstilen för maximal inlevelse.

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatisera voiceover till videor, uppläsning av reklam, poddar och mycket mer med din egen röst

Vi har lagt mycket forskning och innovation på att utveckla teknik som kan återge mänskligt tal ultrarealistiskt, förstå kontext och koda röstprofiler. Vårt AI-röstöversättningsverktyg är ett betydande steg mot att möjliggöra för skapare att nå en bredare publik och hjälpa potentiella tittare att upptäcka innehåll de finner relevant och fängslande, oavsett vilket språk de förstår.

Vad är dubbning, röstkonvertering och talssyntes?

Dubbning är en process för att ge en video ett ljudspår på ett annat språk genom att ersätta de ursprungliga skådespelarnas röster med de av artister som talar ett annat språk - även kallat "omröstning" - traditionellt en kostsam och tidskrävande uppgift. På Eleven är vårt mål att göra detta automatiskt samtidigt som vi bevarar de ursprungliga rösterna över språk.

Röstkonvertering gör det möjligt för en person att tala med en annan persons röst. Det använder voice cloning för att koda en målröst och lägga den över källrösten. Resultatet är det ursprungliga budskapet som till synes talas av någon annan.

Text to Speech (TTS) är grunden för all talssyntesteknik. TTS tekniken har förbättrats radikalt över åren även om den fortfarande ofta låter robotaktig. Det beror på att det inte räcker att uttala ord flytande för att ge tal mänsklig kvalitet. Det är den avsiktsdrivna tonen och tempot som kommer från att förstå vad som sägs som gör att det låter naturligt. På Eleven försöker vi uppnå just det: genom att exponera vår modell för en mängd mänskligt taldata, tränar vi den att förstå både det logiska och emotionella sammanhanget av yttranden och att justera leveransen därefter.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Skapa mänskliga röster med vårt Text to Speech (TTS)-system, byggt för högkvalitativ berättarröst, spel, video och tillgänglighet. Uttrycksfulla röster, flerspråkigt stöd och API-integration gör det enkelt att skala från personliga projekt till företagsarbetsflöden.