Denna Röst Existerar Inte - Generativ Röst-AI

Publicerad: 11 jan. 2023

LyssnaLyssna på den här artikeln

0:00

0:000:00

Nyligen verkar det som om alla pratar om generativ AI. Djupinlärningsdrivna stora språk- och text-till-bild-modeller som ChatGPT, Stable Diffusion, DALL-E och Midjourney har skapat mycket uppståndelse i teknikvärlden och bortom. Många anser dem vara bland de mest betydande utvecklingarna inom AI på senare tid. Oavsett om du håller med eller inte, verkar den allmänna känslan vara att något mycket kraftfullt har dykt upp. Under 2023 kommer vi att höra om modeller som kan hjälpa dig att rita eller skapa videor. Precis som frågor om vad som är den senaste och bästa smartphonen, kommer vi snart att fråga om vad som är den senaste och bästa grundmodellen. Men trots all denna uppståndelse känner vi att det finns ett område inom generativa medier som fortfarande är kraftigt underhypat: röst-AI. Det är också det område vi strävar efter att bli ledande inom. På Eleven förlitar vi oss dagligen på potentialen som frigörs av djupinlärningstekniker för att driva vår verklighetstrogna text till tal och röstkloning verktyg. Och nu lanserar vi också vår egen generativa modell som låter dig designa helt nya syntetiska röster från grunden.

Röstgenerator - designa en röst

Våra användare använder plattformen varje dag för att ge liv åt sina karaktärer – oavsett om det gäller

Vi hade en idé om hur vi skulle gå tillväga när vi packade upp de metoder vi för närvarande använder för talsyntes och röstkloning. Båda processerna kräver ett sätt att koda egenskaperna hos en viss röst. Talarembeddingar är det som bär denna identitet - de är en vektorrepresentation av en talares röst. Vi insåg att vi kunde ta prover från distributionen av talarembeddingar genom att träna en dedikerad modell för att låta oss skapa oändligt många nya röster.

Eftersom våra användare oftast letar efter specifika talegenskaper, behövde vi lägga till en grad av kontroll över processen. Vi utökade vår modell med konditionering för att generera röster baserat på deras egenskaper. Modellen låter dig nu ställa in vissa grundläggande parametrar som etablerar den nya röstens kärnidentitet: kön, ålder, accent, tonhöjd och talstil. Med andra ord, varje gång du trycker på 'generera', även om du väljer samma grundparametrar, får du en helt ny röst som inte fanns tidigare.

Nedan är några exempel på röster som kan designas på detta sätt:

'Design Voice' kommer att bli tillgänglig på vår plattform i februari, som en del av Voice Lab.

Vad är användningen?

Våra verktyg kan redan producera tal som är lika verklighetstroget som vilket mänskligt tal som helst och vi förväntar oss att sfären av potentiella tillämpningar för artificiella röster bara kommer att expandera. Många av dessa nya tillämpningar, inklusive inspelning av ljud för nyhetspublikationer eller reklam, kommer att kräva att en röst är begränsad till, och identifierad med, ett visst varumärke eller användningsfall, och inte används någon annanstans. Andra användningsområden, som berättande och videospel, prioriterar flexibilitet och friheten att experimentera tidigt i utvecklingen. Så istället för att skapa en gigantisk uppsättning virtuella talare, satte vi oss för att låta användarna ha sista ordet om vilka röster som bäst passar deras syften.

Bok författare får nu inte bara möjligheten att enkelt konvertera sina verk till ljud utan de behåller också konstnärlig kontroll över att designa skräddarsydd berättelse. Detta ger deras publik intressanta nya sätt att interagera med publikationer, samt ökar avsevärt antalet böcker vi kommer att kunna njuta av att lyssna på.

Nyhets utgivare har alltmer gett sig in i ljud och att välja distinkta röster för att representera sina publikationer är en viktig uppgift - många lyssnare värderar form såväl som innehåll. Lika viktigt är att utgivare nu kan vara säkra på att en viss röst representerar dem, och bara dem.

Videospel utvecklare kan nu ge röst åt en mängd annars tysta NPC:er med alla nödvändiga verktyg tillgängliga vid sina fingertoppar. De kan inte bara vara mer kostnadseffektiva utan att kompromissa med kvaliteten, utan de kan nu också designa röster som kommer att vara helt unika för de virtuella världar de skapar.

Reklam kreatörer behöver voice-overs som passar specifika kampanjer, så att kunna designa resonansfull och ändamålsenlig berättelse i början av utvecklingen är en betydande fördel. De kan nu experimentera med flera röster och leveransstilar direkt och utan att engagera ytterligare resurser.

Från skapare som producerar alla typer av ljud- och videoinnehåll till företags tjänstemän som söker att ge röst åt företagskommunikation, är möjligheterna att designa övertygande ljud som både är unikt och skräddarsytt för ett specifikt användningsfall nu oändliga.

Etisk AI

På samma sätt som röstkloning väcker farhågor om konsekvenserna av dess potentiella missbruk, oroar sig allt fler människor för att spridningen av AI-teknik kommer att sätta yrkesverksammas försörjning i fara. På Eleven ser vi en framtid där röstskådespelare kan licensiera sina röster för att träna talmodeller för specifik användning, i utbyte mot avgifter. Kunder och studior kommer fortfarande gärna att använda professionell rösttalang i sina projekt och att använda AI kommer helt enkelt att bidra till snabbare genomloppstider och större frihet att experimentera och etablera riktning i tidig utveckling. Tekniken kommer att förändra hur talat ljud designas och spelas in men det faktum att röstskådespelare inte längre behöver vara fysiskt närvarande vid varje session ger dem verkligen friheten att vara involverade i fler projekt samtidigt, samt att verkligen odödliggöra sina röster.

Utöver detta är anledningen till att vi är entusiastiska att en mängd böcker, nyheter, oberoende spel och annat innehåll vars författare och utvecklare annars inte skulle ha råd med inspelningskostnader nu kommer att bli tillgängliga genom ett annat medium. Med denna ökade tillgång kommer möjligheten att bredda publiken i varje fall.

På Eleven är vi fullt engagerade i att både respektera immateriella rättigheter och att implementera skyddsåtgärder mot potentiellt missbruk av vår teknik:

Vi samarbetar endast med kunder som följer våra villkor som förbjuder skadlig användning av vår teknik för något syfte som kan anses olagligt eller skadligt;
Vi arbetar också med att vattenmärka allt ljud som genereras av vår modell så att det omedelbart kan spåras tillbaka till oss;
När vi använder igenkännbara röster gör vi det för demonstrationsändamål och i sammanhang som inte ger upphov till intressekonflikter;
Samtidigt strävar vi efter att stödja röstägare och deras licensgivare i att hävda sina rättigheter och alla kända överträdelser kommer att granskas och åtgärdas.

Framåt - förbättra din egen röst

I framtiden planerar vi att kombinera kapaciteterna hos våra röstgenererings- och röstkloningsmodeller för att låta användare förbättra sina egna röster. Du kommer att kunna klona din röst och sedan manipulera den till önskad effekt. Om du är rädd att din naturliga talstil är lite monoton, kommer du att kunna lägga till variation till den. Om du verkligen ogillar att bli inspelad, kommer du att kunna manipulera utgången för att låta mer naturlig. Alla som behöver producera ljud med sin egen röst för något syfte, vare sig det är en förinspelad presentation eller ett ljudmeddelande, kommer att kunna göra det med hjälp av vår verktygssvit, med ett knapptryck.

Gott Nytt År

När 2022 gick mot sitt slut vill vi tacka våra beta-användare för ert fortsatta deltagande och för er feedback. Många av de funktioner vi utvecklar beror på era insikter och förslag. Vi kunde inte vara gladare att ha er med och vi önskar er alla ett Gott Nytt År.

ElevenLabs Beta
Gå här för att registrera dig för vår beta-plattform och prova själv. Vi gör ständigt förbättringar och all användarinsikt är mycket värdefull för oss i detta tidiga skede.

Liknande artiklar

ElevenLabs kommer ut ur beta och släpper Eleven Multilingual v2 - en grundläggande AI-talmodell för nästan 30 språk
Kategori
Forskning
Datum
22 aug. 2023
ElevenLabs lanserar Eleven Multilingual v2, en grundläggande AI-röstmodell för 30 språk i betaversion
Kategori
Forskning
Datum
22 aug. 2023
ElevenLabs lämnar beta-fasen och lanserar Eleven Multilingual v2, en AI-konversationsmodell på 30 språk
Kategori
Forskning
Datum
22 aug. 2023
ElevenLabs lämnar betafasen och lanserar Eleven Multilingual v2 – ett grundläggande AI-språkmodell för 30 språk
Kategori
Forskning
Datum
22 aug. 2023

Skapa med AI-ljud av högsta kvalitet

Prata med försäljning Registrera dig

Röstgenerator - designa en röst

Vad är användningen?

Etisk AI

Framåt - förbättra din egen röst

Gott Nytt År

Liknande artiklar

ElevenLabs kommer ut ur beta och släpper Eleven Multilingual v2 - en grundläggande AI-talmodell för nästan 30 språk

ElevenLabs lanserar Eleven Multilingual v2, en grundläggande AI-röstmodell för 30 språk i betaversion

ElevenLabs lämnar beta-fasen och lanserar Eleven Multilingual v2, en AI-konversationsmodell på 30 språk

ElevenLabs lämnar betafasen och lanserar Eleven Multilingual v2 – ett grundläggande AI-språkmodell för 30 språk