Den första AI:n som kan skratta

Vår modell producerar känslor som ingen annan

I vårt senaste inlägg förhandsgranskade vi några långa prover som genererats av vår verktyg för talsyntes och vi gav en kort översikt av hur vår modells unika design gör det möjligt för den att producera tal som är vältemperat och icke-robotiskt. Idag ska vi visa dig att den också är mer känslomässigt rik och mer kontextmedveten än någon annan. Detta gör den i sin tur inte bara mycket engagerande att lyssna på utan också väl lämpad för applikationer som sträcker sig från röstböcker och videospel till reklam.

Känslor

Båda vår modells styrkor – flyt och korrekt intonation – kommer från en mängd träningsdata som den har sett (över 500 000 timmar!), men egentligen är den centrala faktorn hur den lär sig av denna data, vilket beror på hur den är byggd. På den mest grundläggande nivån är den gjord för att förstå känslorna som finns i skrivandet och för att bestämma om talaren ska låta glad, arg, ledsen eller neutral. Tänk på några exempel:

Alla skillnader i intonation och stämning kommer enbart från text - inget annat påverkade produktionen. Skiljetecken och ordens betydelse spelar en ledande roll när det gäller att avgöra hur en viss mening ska framföras, men lägg också märke till hur när talaren är nöjd med segern, producerar modellen på ett övertygande sätt ljud som inte ingår i vanligt tal, som skratt (vi kommer att släppa en sammanställning av de olika skratt vår AI kan snart!). Likaså överdriver det på lämpligt sätt reaktionen när talaren är road av något lustigt - det ärsåååå roligt.

Sammanhang

Men att veta innebörden av enskilda ord är inte tillräckligt. Vår modell är lika känslig för den vidare situationen kring varje yttrande - den bedömer om något är vettigt genom hur det knyter an till föregående och efterföljande text. Detta utzoomade perspektiv gör att det kan intonera längre fragment på rätt sätt genom att överlagra en viss tankegång som sträcker ut flera meningar med ett förenande känslomönster, som visas i vårt tidigare inlägg med längre innehåll. Men det hjälper den också att undvika logiska misstag. Till exempel är vissa ord skrivna på samma sätt men har olika betydelse, t.ex. 'läs' i presens och dåtid eller 'minut' som betyder en tidsenhet eller något litet. Att bestämma vilken som är lämplig när beror på sammanhanget:

Skriftligt vs talat ord

Eftersom vi designar vår plattform för att möta krav på innehåll i långa former behöver vi också vår modell för att förstå att symboler och förkortningar och vissa konventioner som är vanliga i skrift ska uttalas på ett visst sätt eller inte uttalas bokstavligt. Till exempel måste modellen veta att FBI, TNT och ATM uttalas annorlunda än UNESCO eller NASA. På samma sätt är $3tr helt ok i skrift, men när det läses högt måste det bli det "tre biljoner dollar".

Mänskligt ingripande

Att känna igen dessa subtila distinktioner är avgörande eftersom vårt mål är att minimera behovet av mänskligt ingripande i generationsprocessen. Vi främjar trots allt inte vårt verktygs förmåga att generera en ljudbok på några minuter för att någon ska behöva lyssna igenom hela ljudet för att sedan skriva om hela texten. Trots att vi kontinuerligt uppdaterar vår modells regler för uttal, är det alltid möjligt att något kommer att förvirra den. För detta ändamål utvecklar vi nu ett system för att flagga osäkerhet som gör det möjligt för användare att omedelbart se vilka textbitar som modellen upplevde som problematiska och låta dem lära dem hur de ska sägas.

Otaliga applikationer

Alla funktioner vi har visat är steg på vägen till att göra vår programvara till det mest mångsidiga AI-röstverktyget.

Nyhetsförlag har redan funnit att att öka deras ljudnärvaro är ett bra sätt att behålla abonnenter. Den stora fördelen med att bädda in varje artikel med dess ljudläsning är att människor kan lyssna medan de gör något annat. De förlag som gör det använder ofta röstskådespelare vilket är dyrt och inte alla artiklar täcks. Eller så använder de sina egna reportrar för att läsa berättelser, vilket är tidskrävande, vilket betyder också dyrt. De som använder syntetiskt tal för att uttrycka sitt innehåll sparar pengar men betalar ett annat pris genom att kompromissa med kvaliteten. Nu, med Eleven Labs, finns det ingen anledning att kompromissa och du kan få det bästa av två världar.

Eller föreställ dig att generera Ljudböcker med distinkt, känslomässigt övertygande voiceover för alla karaktärer, inom några minuter. Detta innebär inte bara nya sätt att engagera sig i böcker utan underlättar också åtkomsten avsevärt för personer med inlärningssvårigheter.

Tänk bara på de möjligheter som nu finns videospel utvecklare som inte längre behöver fundera på om en viss karaktär är tillräckligt viktig för att motivera den annars avsevärda kostnaden för att uttrycka dem med riktiga skådespelare. Alla NPC:er kan nu ha sina egna röster och personligheter.

Reklam byråer och producenter kan nu fritt experimentera och justera voiceovers för att passa tonen i alla kampanjer - oavsett om det är för en sport-tv-kanal eller för ett lyxklockmärke. Alla skådespelares röst kan licensieras för kloning så att ändringar kan tillämpas omedelbart och utan att skådespelaren är fysiskt närvarande. Eller om de bestämmer sig för att gå med en helt syntetisk röst, behöver annonsörer inte heller oroa sig för att betala utköp för rösträttigheter.

Virtuella assistenter kan bli mer verklighetstrogen både för att röstkloning tillåter dem att tala med en röst som är bekant för en viss användare och även för att detta nyfunna leveransdjup skulle göra dem mer naturliga att interagera med.

Eleven Labs Beta

här att registrera dig för vår betaplattform och prova det själv. Vi gör ständigt förbättringar och all feedback från användare är mycket värdefull för oss i detta tidiga skede. Njuta!

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in