För att använda den, välj den helt enkelt från den nyligen tillagda rullgardinsmenyn i panelen Talsyntes.
Forskningsöversikt
I likhet med sin föregångare är den nya modellen helt baserad på vår egen forskning. Det behåller alla styrkor som gjorde Eleven Monolingual v1 ett utmärkt berättande verktyg, såsom förmågan att justera leverans baserat på sammanhang och att förmedla avsikter och känslor hyperrealistiskt. Dessa funktioner har nu utökats till språk som nyligen stöds genom flerspråkig dataträning.
En anmärkningsvärd egenskap hos modellen är dess förmåga att identifiera flerspråkig text och formulera den på lämpligt sätt. Du kan nu generera tal på flera språk med en enda uppmaning samtidigt som varje högtalares unika röstegenskaper bibehålls. För bästa resultat rekommenderar vi att du tillhandahåller en fråga på ett enda språk. Även om modellen redan kan fungera ganska bra med flera språk samtidigt, behövs ytterligare förbättringar.
Den nya modellen är kompatibel med andra VoiceLab funktioner t.ex. Instant Voice Cloning och Voice Design. Alla skapade röster förväntas behålla de flesta av sina ursprungliga talegenskaper på alla språk, inklusive deras ursprungliga accent.
Med detta sagt har modellen kända begränsningar: siffror, akronymer och främmande ord är ibland engelska som standard när de uppmanas på ett annat språk. Till exempel kan siffran "11" eller ordet "radio", som skrivits i en spansk prompt, uttalas som de skulle vara på engelska. Vi rekommenderar att du stavar ut akronymer och siffror på målspråket när vi arbetar med förbättringar.
Demokratisering av rösten
ElevenLabs startades med drömmen om att göra allt innehåll universellt tillgängligt på alla språk och med vilken röst som helst. Våra teammedlemmar kommer från hela Europa, Asien och USA. I takt med att vårt team och världen blir allt mer flerspråkiga, är vi allt mer enade bakom visionen att göra AI-röster av mänsklig kvalitet tillgängliga på alla språk.
Den senaste iterationen av vår Text-till-tal (TTS) modell är bara den första språngbrädan på vår väg för att göra denna vision till verklighet. Med tillkomsten av mänskliga AI-röster kan användare och företag nu skapa och anpassa ljudinnehåll efter deras behov, prioriteringar och preferenser. Detta har redan visat potentialen att jämna ut villkoren för kreatörer, småföretag och oberoende artister. Genom att utnyttja kraften i AI-ljud kan användare nu utveckla högkvalitativa hörselupplevelser som kan konkurrera med de som produceras av större organisationer med mer resurser.
Dessa fördelar sträcker sig nu till flerspråkiga, mångkulturella och pedagogiska tillämpningar genom att ge användare, företag och institutioner möjlighet att producera autentiskt ljud som resonerar med en bredare publik. Genom att tillhandahålla ett omfattande utbud av röster, accenter och språk hjälper AI att överbrygga kulturella klyftor och främjar global förståelse. På Eleven tror vi att denna nyfunna tillgänglighet i slutändan främjar större kreativitet, innovation och mångfald.
Innehållsskapare som strävar efter att engagera sig med olika målgrupper har nu verktygen för att överbrygga kulturella klyftor och främja inkludering.
Spelutvecklare , och förlag kan skapa uppslukande, lokaliserade upplevelser för internationella publiker, överskrida språkbarriärer och få kontakt med spelare och lyssnare för att maximera engagemang och effektivitet, utan förlust av kvalitet eller precision.
Läroanstalter har nu möjlighet att producera ljudinnehåll för olika användare på deras målspråk, vilket stärker språkförståelsen och till och med uttalsförmågan, samt tillgodoser olika undervisningsstilar och inlärningsbehov.
Tillgänglighetsinstitut kan nu ytterligare stärka personer med synnedsättning eller inlärningssvårigheter genom att ge dem medel att enkelt omvandla mindre tillgängliga resurser till ett medium som passar deras behov, både till innehåll och form.
Vi kan inte vänta med att se våra nuvarande och framtida skapare och utvecklare tänja på gränserna för vad som är möjligt!