Nu lanserar vi Voice Changer

Publicerad: 22 nov. 2023

LyssnaLyssna på den här artikeln

0:00

0:000:00

Voice Changer hette tidigare speech-to-speech. Inom AI-röstagenter syftar "speech-to-speech" också på sammansatta arkitekturer där en enda modell hanterar både ljudinmatning och ljudutmatning direkt. ElevenAgents använder en avancerad kaskadarkitektur för sin plattform. Läs mer: Kaskad- vs sammanslagna modeller.

Vi har lagt till

Det ger dig en kontroll som

Få ut mer känsla ur en röst.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Här är en genomgång från en av våra användare:

En annan användning för Voice Changer är att ge ett exempel på hur något ska sägas. Vår TTS träffar oftast rätt direkt, men ibland vill du kanske justera intonationen. Då kan du visa hur en fras ska låta, och sedan låta vilken röst du vill säga det på samma sätt. Den här funktionen blir ännu smidigare när vi bygger in Voice Changer direkt i Studio, men redan nu kan du redigera resultatet mycket mer exakt.

Forskning

Sättet att göra detta är att ta en bild av ett ansikte och kartlägga dess attribut. Markörerna i exemplet nedan gör just det – de sätter gränserna där det andra ansiktet placeras.

För att konvertera källtal till måltal behöver vi uttrycka källtalets innehåll med måltalets egenskaper. En bra analogi skulle vara ansiktsbytesappar som låter dig blanda ditt ansikte med någon annans för att skapa en bild av båda som en.

Sättet att göra detta är att ta bilden av ett ansikte och kartlägga dess attribut. Markörerna i exemplet nedan gör just det: de är gränserna inom vilka det andra ansiktet skulle renderas.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

Produkt och senaste uppdateringar

Ändringar av förinspelade röster

Vi gör ändringar bland standardrösterna i Text to Speech. Några röster tas bort och ersätts med nya, och över 20 nya röster kommer de närmaste veckorna.

Vi kommer också börja visa i gränssnittet hur länge varje röst förväntas finnas kvar. Under december förbättrar vi även funktionerna för röstdelning och ersättning för användning, för att öka variationen. Mer information kommer snart.

Eleven Turbo v2 & uLaw 8khz-format

Turbo v2 är resultatet av flera månaders forskning från vårt team. Den är framtagen för realtidsinteraktioner men fungerar för alla användningsområden. Den stödjer också standardformatet (m)uLaw 8kHz för IVR-system.

Normalisering och metadata i Studio

Studio stödjer nu branschstandard för ljudboksinlämning, inklusive justering av ljudnivå och dynamisk kompression. Du kan även bädda in metadata (ISBN, författare och titel) direkt i ditt Studio-projekt.

Uttalsordbok

Detta har varit en av våra mest efterfrågade funktioner. Förra månaden lade vi till stöd för SSML-taggar för att ange uttal med IPA- och CMU-ordböcker i våra engelska modeller. Nu har vi släppt stöd för uttalsordbok i Studio, så att du kan ladda upp en fil med uttal enligt IPA, CMU eller ordersättningar (alias). Ordboksfiler använder det öppna branschformatet .PLS

IPA och CMU stöds just nu av Turbo v2 English. Ordersättningar stöds av alla modeller och språk. Fullständig dokumentation finns

Att lägga till en Uttalsordbok har varit en av våra mest efterfrågade funktioner. Förra månaden implementerade vi tillägget av SSML-taggar för att specificera uttal med hjälp av IPA- och CMU-ordböcker för våra engelska modeller. Vi har nu släppt stöd för uttalsordbok till vår Studio UI, vilket gör att du kan ladda upp en fil som specificerar uttalet med IPA, CMU eller ordsubstitutioner. Ordboksfiler laddas upp med branschstandard och öppet .PLS lexikonfilformat.

Har du feedback? Hör gärna av dig till oss på Discord!här.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

Säg det på ditt sätt och hör det levererat i en helt annan röst, med full kontroll över uttrycket. Fånga viskningar, skratt, dialekter och subtila känslor.

Nu lanserar vi Voice Changer

Det ger dig en kontroll som

Sättet att göra detta är att ta en bild av ett ansikte och kartlägga dess attribut. Markörerna i exemplet nedan gör just det – de sätter gränserna där det andra ansiktet placeras.

Vi gör ändringar bland standardrösterna i Text to Speech. Några röster tas bort och ersätts med nya, och över 20 nya röster kommer de närmaste veckorna.

Vi kommer också börja visa i gränssnittet hur länge varje röst förväntas finnas kvar. Under december förbättrar vi även funktionerna för röstdelning och ersättning för användning, för att öka variationen. Mer information kommer snart.

Normalisering och metadata i Studio

Uttalsordbok

IPA och CMU stöds just nu av Turbo v2 English. Ordersättningar stöds av alla modeller och språk. Fullständig dokumentation finns

Liknande artiklar

Nu introducerar vi Character Casting i ljudböcker

Nu lanserar vi References: ljudkontroll för Music v2

Nu lanserar vi Vocals – en konsekvent röst för dina ElevenMusic-låtar

Upptäck Verktyg på ElevenMusic