Presenterar Eleven v3 Alpha

Prova v3

Speech to Speech & produktuppdatering

Säg det som du vill ha det!

A microphone on a wooden table in a recording studio with audio equipment in the background.

Vi har lagt till Speech to Speech (STS) till Speech Synthesis. STS är ett verktyg för röstkonvertering som låter dig ändra en inspelning av en röst så att den låter som om den talas av någon annan. Det ger dig möjlighet att kontrollera känslor, ton och uttal bortom vad som är möjligt med TTS enbart. Använd det för att få fram mer känslor från en specifik röst eller som en 'säg det som du vill ha det' referens.

I andra uppdateringar gör vi ändringar i våra förgjorda röster. Vi har också gjort flera förbättringar i Projects, inklusive tillagd normalisering, uttalsordbok och fler anpassningsalternativ.

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Säg det med egna ord och få det uppläst med en annan röst där du har full kontroll över slutprodukten

Speech to speech

STS tar innehållet och stilen i talet från din uppladdning/inspelning och ändrar rösten. Tänk på STS som användbart främst för två saker.

Det ena är att få fram mer känslor från en specifik förgjord röst. Ladda upp/spela in mycket uttrycksfullt tal och STS kommer att replikera känslorna och intonationen i en annan röst. Eftersom inte alla röster kan uttrycka starka känslor med TTS enbart, kan du nu göra en professionell berättare eller en barnboksfigur mer uttrycksfull med din egen röst.

En annan användning för STS är att ge en 'referens' för talleverans. Även om vår TTS vanligtvis får till intonationen direkt, kan du ibland vilja finjustera den. Här låter STS dig visa hur en viss fras ska intoneras och sedan låta vilken röst du väljer säga det så. Denna funktionalitet blir mer användbar och smidig när vi integrerar STS direkt i Projects, men vårt mål här är att radikalt förbättra din förmåga att redigera resultatet exakt.

Titta på videon skapad av en av våra community-medlemmar:

Forskning

För att konvertera källtal till måltal behöver vi uttrycka källtalets innehåll med måltalets egenskaper. En bra analogi skulle vara ansiktsbytesappar som låter dig blanda ditt ansikte med någon annans för att skapa en bild av båda som en.

Sättet att göra detta är att ta bilden av ett ansikte och kartlägga dess attribut. Markörerna i exemplet nedan gör just det: de är gränserna inom vilka det andra ansiktet skulle återges.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Tricket i röstkonvertering är att återge källtalets innehåll med måltalets fonem. Men det finns en avvägning här, precis som i ansiktsbytesexemplet: ju fler markörer du använder för att kartlägga ett ansikts attribut, desto fler begränsningar inför du på ansiktet du kartlägger inom dem. Färre markörer innebär färre begränsningar.

Samma gäller för röstkonvertering. Ju mer vi prioriterar måltal, desto mer riskerar vi att komma ur synk med källtal. Men om vi inte ger det tillräcklig prioritet, riskerar vi att förlora mycket av det som gör talet karakteristiskt. Till exempel, om vi skulle återge inspelningen av någon som skriker argt i en viskande röst, skulle vi få problem. Ger vi för mycket prioritet till källtalets känslor betalar vi priset att förlora intrycket av att det är en viskande röst som talar. För mycket fokus på det viskande talmönstret och vi förlorar den känslomässiga laddningen i källtalet.

Produkt & senaste uppdateringar

Ändringar i förgjorda röster

Vi kommer att göra ändringar i standardrösterna som finns tillgängliga i Speech Synthesis senare denna vecka. Vi kommer att sluta stödja några röster, men vi kommer att ersätta dem med nya. Vi planerar att lägga till över 20 totalt under de kommande veckorna.

Vi kommer också att börja tillhandahålla UI-information om hur länge varje röst förväntas vara tillgänglig. Slutligen kommer vi under hela december att arbeta med att förbättra vår plattforms röstdelning och användningskompensationsfunktioner för att ytterligare förbättra röstvariationen. Mer information om detta kommer snart.

Eleven Turbo v2 & uLaw 8khz-format

Vår Turbo-modell innehåller månader av forskning från vårt tekniska team. Den är designad för realtidsinteraktioner men kan användas för vad du vill. Den kommer också med standardformatet (m)uLaw 8kHz för IVR-system.

Normalisering & metadata med Projects

Du kan nu följa branschstandarder för ljudboksinlämning inom Projects. Detta inkluderar justering av gain och tillämpning av dynamisk kompression. Dessutom finns nu möjligheten att bädda in metadata i dina Projects (ISBN, författare och titel).

Uttalsdagbok

Att lägga till en uttalsordbok har varit en av våra mest efterfrågade funktioner. Förra månaden implementerade vi tillägget av SSML-taggar för att specificera uttal med hjälp av IPA och CMU-ordböcker för våra engelska modeller. Vi har nu släppt stöd för uttalsordbok i vår Projects UI, vilket gör att du kan ladda upp en fil som specificerar uttalet med IPA, CMU eller ordsubstitutioner. Ordboksfiler laddas upp med branschstandard och öppet .PLS lexikonfilformat.

För tillfället stöds IPA och CMU av Turbo V2 English, och ordsubstitutioner (alias) stöds av alla modeller och språk. Fullständig dokumentation finns här.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary
A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Säg det med egna ord och få det uppläst med en annan röst där du har full kontroll över slutprodukten

Om du har några synpunkter, tveka inte att kontakta oss på Discord!

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in