Presenterar Eleven v3 Alpha

Prova v3

Introducerar Speech to Speech

Säg det som du vill och förvandla din röst till en annan karaktär med full kontroll över känslor, timing och leverans

Vi har lagt till Speech to Speech (STS) till Speech Synthesis. STS är ett verktyg för röstkonvertering som låter dig få en inspelning av en röst att låta som om den talas av en annan. Det ger dig möjlighet att kontrollera känslor, ton och uttal bortom vad som är möjligt med TTS enbart. Använd det för att få fram mer känslor från en viss röst eller som en 'säg det som du vill ha det' referens.

I andra uppdateringar gör vi ändringar i våra förgjorda röster. Vi har också gjort flera förbättringar i Studio, inklusive tillagd normalisering, uttalsordbok och fler anpassningsalternativ.

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Säg det med egna ord och få det uppläst med en annan röst där du har full kontroll över slutprodukten

Speech to speech

STS tar innehållet och stilen i talet från din uppladdning/inspelning och ändrar rösten. Tänk på STS som användbart främst för två saker.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Det ena är att få fram mer känslor från en viss förgjord röst. Ladda upp/spela in mycket uttrycksfullt tal och STS kommer att replikera känslorna och intonationen i en annan röst. Eftersom inte alla röster kan uttrycka starka känslor med enbart TTS-promptar, kan du nu göra en professionell berättare eller en barnboksfigur mer uttrycksfull med din egen röst.

En annan användning för STS är att ge en 'referens' för talleverans. Även om vår TTS vanligtvis träffar rätt intonation direkt, kan du ibland vilja finjustera den. Här låter STS dig visa hur en viss fras ska intoneras och sedan låta vilken röst du väljer säga det så. Denna funktionalitet blir mer användbar och smidig när vi integrerar STS direkt i Studio, men vårt mål här är att radikalt förbättra din förmåga att redigera resultatet exakt.

Titta på videon skapad av en av våra community-medlemmar:

Forskning

För att konvertera källtal till måltal behöver vi uttrycka källtalets innehåll med måltalets egenskaper. En bra analogi skulle vara ansiktsbytesappar som låter dig blanda ditt ansikte med någon annans för att skapa en bild av båda som en.

Sättet att göra detta är att ta bilden av ett ansikte och kartlägga dess attribut. Markörerna i exemplet nedan gör just det: de är gränserna inom vilka det andra ansiktet skulle renderas.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Tricket i röstkonvertering är att rendera källtalets innehåll med måltalets fonem. Men det finns en avvägning här, precis som i ansiktsbytesexemplet: ju fler markörer du använder för att kartlägga ett ansiktes attribut, desto fler begränsningar inför du på ansiktet du kartlägger inom dem. Färre markörer innebär färre begränsningar.

Samma sak gäller för röstkonvertering. Ju mer vi föredrar måltal, desto mer riskerar vi att komma ur synk med källtal. Men om vi inte ger det tillräckligt med preferens, riskerar vi att förlora mycket av det som gör det talet karaktäristiskt. Till exempel, om vi skulle rendera inspelningen av någon som skriker argt i en viskande röst, skulle vi få problem. Ger vi för mycket preferens till källtalets känslor är priset vi betalar att förlora intrycket av att det är en viskande röst som talar. För mycket fokus på den viskande talmönstret och vi förlorar den känslomässiga laddningen i källtalet.

Produkt & senaste uppdateringar

Ändringar i förgjorda röster

Vi kommer att göra ändringar i standardrösterna som finns tillgängliga i Speech Synthesis senare denna vecka. Vi kommer att sluta stödja några röster, men vi kommer att ersätta dem med nya. Vi planerar att lägga till över 20 totalt under de kommande veckorna.

Vi kommer också att börja tillhandahålla UI-information om hur länge varje röst förväntas vara tillgänglig. Slutligen, under hela december kommer vi att arbeta med att förnya vår plattforms röstdelning och användningskompensationsfunktioner för att ytterligare förbättra röstvariationen. Mer information om detta snart.

Eleven Turbo v2 & uLaw 8khz-format

Vår Turbo-modell innehåller månader av forskning från vårt tekniska team. Den är designad för realtidsinteraktioner men kan användas för vad du vill. Den kommer också med standard (m)uLaw 8kHz-format för IVR-system.

Normalisering & metadata med Studio

Du kan nu följa branschstandarder för ljudboksinlämning inom Studio. Detta inkluderar justering av gain och tillämpning av dynamisk kompression. Dessutom finns nu möjligheten att bädda in metadata i din Studio (ISBN, författare och titel).

Uttalsdagbok

Att lägga till en Uttalsordbok har varit en av våra mest efterfrågade funktioner. Förra månaden implementerade vi tillägget av SSML-taggar för att specificera uttal med hjälp av IPA- och CMU-ordböcker för våra engelska modeller. Vi har nu släppt stöd för uttalsordbok till vår Studio UI, vilket gör att du kan ladda upp en fil som specificerar uttalet med IPA, CMU eller ordsubstitutioner. Ordboksfiler laddas upp med branschstandard och öppet .PLS lexikonfilformat.

För närvarande stöds IPA och CMU av Turbo V2 English, och ordsubstitutioner (alias) stöds av alla modeller och språk. Fullständig dokumentation finns här.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Om du har några synpunkter, tveka inte att nå oss på Discord!

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Säg det med egna ord och få det uppläst med en annan röst där du har full kontroll över slutprodukten

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in