.webp&w=3840&q=95)
Top 5 Speechify alternatives for reading text aloud
Explore the best alternatives to Speechify.
I vårt senaste inlägg visade vi några längre exempel genererade av vårt speech synthesis tool och vi gav en kort översikt över hur vår modells unika design gör att den kan producera tal som är välbalanserat och icke-robotiskt. Idag ska vi visa att den också är mer känslomässigt rik och mer kontextmedveten än någon annan. Detta gör den inte bara mycket engagerande att lyssna på utan också väl lämpad för applikationer som sträcker sig från att ge röst åt böcker och videospel till reklam.
Både vår modells styrkor - flyt och korrekt intonation - kommer från den stora mängd träningsdata den har sett (över 500 000 timmar!), men den centrala faktorn är hur den lär sig från denna data, vilket beror på hur den är byggd. På den mest grundläggande nivån är den gjord för att förstå de känslor som finns i text och att avgöra om talaren ska låta glad, arg, ledsen eller neutral. Tänk på några exempel:
Alla skillnader i intonation och stämning kommer enbart från text - inget annat påverkade resultatet. Interpunktion och ordens betydelse spelar en ledande roll i hur en viss mening ska levereras, men notera också hur när talaren är glad över en seger, modellen övertygande producerar ljud som inte är en del av vanligt tal, som skratt (vi kommer snart att släppa en samling av de olika skratt vår AI kan göra!). På samma sätt överdriver den lämpligt reaktionen när talaren är road av något väldigt roligt - det är 'såååå roligt'.
Men att känna till betydelsen av enskilda ord räcker inte. Vår modell är lika känslig för den bredare situationen kring varje yttrande - den bedömer om något är logiskt genom hur det knyter an till föregående och efterföljande text. Detta bredare perspektiv gör att den kan intonera längre fragment korrekt genom att överlagra en särskild tankegång som sträcker sig över flera meningar med ett enhetligt känslomönster, som visat i vårt tidigare inlägg med längre innehåll. Men det hjälper också att undvika logiska misstag. Till exempel, vissa ord skrivs på samma sätt men har olika betydelse, t.ex. 'read' i nutid och dåtid eller 'minute' som betyder en tidsenhet eller något litet. Att avgöra vilken som är lämplig beror på kontexten:
Eftersom vi designar vår plattform för att möta kraven på långformatinnehåll, behöver vår modell också förstå att symboler och förkortningar och vissa konventioner som är vanliga i skrift ska uttalas på ett särskilt sätt eller inte uttalas bokstavligt. Till exempel, modellen behöver veta att FBI, TNT och ATM uttalas annorlunda än UNESCO eller NASA. På samma sätt är $3tr helt okej i skrift men när det läses högt, behöver det bli ‘tre biljoner dollar’.
Att känna igen dessa subtila skillnader är avgörande eftersom vårt mål är att minimera behovet av mänsklig intervention i genereringsprocessen. Vi marknadsför ju inte vårt verktygs förmåga att generera en ljudbok på några minuter för att någon sedan ska behöva lyssna igenom hela ljudet för att sedan skriva om hela texten. Även om vi kontinuerligt uppdaterar vår modells regler för uttal, är det alltid möjligt att något kommer att förvirra den. För detta ändamål utvecklar vi nu ett system för att flagga osäkerhet som gör att användare omedelbart kan se vilka delar av texten modellen fann problematiska och låta dem lära den hur de ska sägas.
Alla de funktioner vi har visat är steg på vägen mot att göra vår mjukvara till det mest mångsidiga AI-röstverktyget.
Nyhetsutgivare har redan upptäckt att öka sin ljudnärvaro är ett utmärkt sätt att behålla prenumeranter. Den stora fördelen med att bädda in varje artikel med sin ljuduppläsning är att folk kan lyssna medan de gör något annat. De utgivare som gör det använder ofta röstskådespelare vilket är dyrt och inte alla artiklar täcks. Eller så använder de sina egna reportrar för att läsa berättelser vilket är tidskrävande, vilket också betyder dyrt. De som använder syntetiskt tal för att ge röst åt sitt innehåll sparar pengar men betalar ett annat pris genom att kompromissa med kvaliteten. Nu, med ElevenLabs, behöver du inte kompromissa och du kan få det bästa av båda världar.
Eller föreställ dig att generera ljudböcker med distinkta, känslomässigt engagerande voice-over för alla karaktärer, inom några minuter. Detta presenterar inte bara nya sätt att engagera sig med böcker utan underlättar också tillgången för personer med inlärningssvårigheter.
Tänk bara på de möjligheter som nu öppnas för videospel utvecklare som inte längre behöver överväga om en viss karaktär är tillräckligt viktig för att motivera den annars betydande kostnaden för att ge dem röst med riktiga skådespelare. Alla NPC:er kan nu ha sina egna röster och personligheter.
Reklam byråer och producenter kan nu fritt experimentera och justera voice-overs för att passa tonen i vilken kampanj som helst - oavsett om det är för en sport-TV-kanal eller för ett lyxklockmärke. Vilken skådespelares röst som helst kan licensieras för kloning så att ändringar kan göras direkt och utan att skådespelaren är fysiskt närvarande. Eller om de bestämmer sig för att använda en helt syntetisk röst, behöver annonsörer inte oroa sig för att betala utköp för rösträttigheter.
Virtuella assistenter kan bli mer livfulla både för att röstkloning gör att de kan tala med en röst som är bekant för en viss användare och också för att denna nyfunna djup i leveransen skulle göra dem mer naturliga att interagera med.
Gå här för att registrera dig för vår beta-plattform och prova själv. Vi gör ständigt förbättringar och all användarfeedback är mycket värdefull för oss i detta tidiga skede. Njut!
Explore the best alternatives to Speechify.
Global AI voice technology leader expands to Asia-Pacific region, launching international hub in Japan