
Vi presenterar Eleven v3 (alpha) — den mest uttrycksfulla Text to Speech-modellen
Eleven v3 är den mest uttrycksfulla Text to Speech-modellen
Förbättra AI-tal med Eleven v3 Audio Tags. Kontrollera ton, känsla och tempo för naturliga samtal. Lägg till situationsmedvetenhet till din text to speech.
Ljudtaggar är en grundläggande del av den nya
I sin enklaste form är Audio Tags ord inom hakparenteser. Modellen tolkar dessa som instruktioner för framträdandet. Det betyder att du kan justera leveransen mitt i en mening för att spegla känslomässiga skiftningar eller situationella förändringar — vilket ger AI:n en viss situationsmedvetenhet.
Situationsmedvetenhet innebär att AI:n anpassar sin leverans för att passa stunden. Med Audio Tags styr du inte bara vad modellen säger — utan hur den svarar.
Oavsett om du lägger till brådska med en [SHOUTING]-tagg, mildrar en varning med en [WHISPER], eller signalerar tvekan med [SIGH], förvandlar taggar berättande till framträdande. De är särskilt värdefulla i högkontext- eller dynamiska scener.
Föreställ dig att du skriver manus till en Veo 3-highlightvideo av en fotbollsmatch mellan 11 United och 12 United. Du vill att intensiteten ska öka med handlingen: “Han dribblar förbi en försvarare — [EXCITED] här kommer inlägget — [SHOUTING] MÅÅÅL!”
Eller att du ger röst åt ett spännande ögonblick i en ljudbok: “[WHISPERING] Jag tror att någon är i huset. [PAUSE] Var tyst.”
Detta är inte stilistiska tillägg. De definierar ögonblicket och styr hur det känns. Modellen läser inte — den framträder.
Audio Tags låter dig simulera en rad känslomässiga och fysiska signaler:
Taggar kan kombineras för att lägga till nyanser: “[NERVOUSLY] Jag... jag är inte säker på att det här kommer att fungera. [GULPS] Men låt oss försöka ändå.”
Eleven v3 stöder dessa taggar med en djupare kontextuell modell. Den kan ändra ton mitt i en replik, hantera avbrott och bibehålla flödet — vilket ger dig en leverans som känns mer naturlig utan att skriva om manuset.
För röstdesigners, spelutvecklare och berättare öppnar detta en ny kreativ nivå. Du skriver inte bara repliker. Du regisserar dem.
Professionella Voice Clones (PVCs) är för närvarande inte fullt optimerade för Eleven v3, vilket kan resultera i lägre kloningskvalitet jämfört med tidigare modeller. Under denna forskningsförhandsvisning är det bäst att hitta en Instant Voice Clone (IVC) eller designad röst för ditt projekt om du behöver använda v3-funktioner. PVC-optimering för v3 kommer inom en snar framtid.
Eleven v3 är den mest uttrycksfulla Text to Speech-modellen
ElevenLabs' audio tags styr AI-röstens känsla, tempo och ljudeffekter.
Drivs av ElevenLabs Conversational AI