Första plattformen för långformig talsyntes för utgivare och kreatörer

17 okt. 2022 • 3 minuter lästid

Den första högkvalitativa plattformen för långformig talgenerering

I november lanserar vi den första plattformen för talsyntes som låter utgivare och kreatörer skapa högkvalitativt, känslomässigt engagerande långformatinnehåll.

Vem är det för?

Vi valde denna riktning av flera skäl. Det finns för närvarande inget verktyg som stöder generering av långformatstext i tillräckligt hög kvalitet för att göra det lämpligt för att ge röst åt nyheter eller ljudböcker. Vårt team är ivriga lyssnare av allt som har med ljud att göra och vi kände att det var ett naturligt steg att anta utmaningarna med längre innehåll för att förverkliga våra ambitioner. Men vi är också särskilt glada över att betrakta det som vår utmärkande funktion - vi är den första AI-talplattformen som ger de mest känslosamma, rika och livfulla rösterna till kreatörer och utgivare som söker den ultimata berättarkvaliteten.

I detta avseende låter vår plattform dig generera och ladda ner högkvalitativt tal i röstskådespelarklass från vilken text som helst - vare sig det är nyhetsartiklar, böcker, nyhetsbrev, bloggar eller akademiska artiklar. Du kan välja vilken röst som helst för att läsa innehåll - antingen från en uppsättning fördefinierade syntetiska röster, eller genom att klona en röst från ett prov du tillhandahåller. Användningsområdena vi föreställer oss för vår teknik är oändliga. Från att ge befintligt innehåll tvärmedial tillgänglighet, genom att öka produktiviteten, till att återuppliva texter från det förflutna genom att konvertera dem till ljud, eller skapa nytt innehåll. Vårt nästa mål är att utöka stödet till andra språk.

Vad gör Eleven annorlunda?

Hur vi uppnår detta beror på hur vi har byggt vår modell. Den är tränad för att förstå vad som sägs och att justera leveransen därefter. Den gör detta genom att ta hänsyn inte bara till betydelsen av orden utan också till kontexten kring varje yttrande.

Traditionella algoritmer för talgenerering producerar yttranden på en mening-för-mening-basis. Detta är mindre krävande beräkningsmässigt men uppfattas omedelbart som robotlikt. Känslor och intonation behöver ofta sträcka sig och resonera över flera meningar för att binda ihop en viss tankegång. Ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Så istället för att generera varje yttrande separat, tar vår modell hänsyn till den omgivande kontexten, vilket bibehåller ett lämpligt flöde och prosodi över hela det genererade materialet. Detta känslomässiga djup, i kombination med förstklassig ljudkvalitet, ger användarna det mest genuina och engagerande berättarverktyget som finns.

Bli vår betatestare

Vår plattform kommer att gå live nästa månad och du kan registrera dig för att bli vår betatestare idag på elevenlabs.io

audiostory.ai

Om du är nyfiken på att höra vår programvara i arbete, gå till audiostory.ai - ett sidoprojekt av Eleven Labs som syftar till att visa upp våra långformats talgenereringsmöjligheter där vi använder våra syntetiska röster för att läsa nyhetsartiklar och böcker från det förflutna. Det första avsnittet är en artikel från 1899 från The New York Times om uppfinningen av radio - lyssna på den här. Eller, om du inte redan har gjort det, kan du gå till toppen av denna sida och lyssna på detta inlägg uppläst.

Utforska artiklar av ElevenLabs-teamet

Developer

A bento grid of ui components with the text "Ship agent interfaces faster with ElevenLabs UI"

Developer

Introducing ElevenLabs UI: Open-source audio & agent components for the web

ElevenLabs UI is a component library to help you build multimodal agents faster.

Agents Platform Stories

Sharpen deploys AI voice agents with ElevenLabs

A CCaaS platform now powered by native conversational AI

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in

Drivs av ElevenLabs Agenter