ElevenLabs raises $500M Series D at $11B valuation
Transforming how we interact with technology
Det mest uttrycksfulla Text to Speech-modellen
Vi är glada att presentera Eleven v3 (alpha) — det mest uttrycksfulla Text to Speech-modellen.
Eleven v3 är inte längre i alfa och är nu tillgänglig för alla.
70+ språk kräver mer prompt engineering än tidigare modeller — men resultaten är fantastiska.
Om du jobbar med videor, ljudböcker eller medieverktyg öppnar det här upp en helt ny nivå av uttrycksfullhet. För realtids- och konversationsanvändning rekommenderar vi att du fortsätter med v2.5 Turbo eller Flash tills vidare. En realtidsversion av v3 är på gång.
Om du jobbar med video, ljudböcker eller medieverktyg öppnar det här upp för helt nya möjligheter. För realtids- och konversationsanvändning rekommenderar vi att du fortsätter med v2.5 Turbo eller Flash tills vidare. En realtidsversion av v3 är på gång.API.
Varför vi byggde v3uttrycksfullheten. Mer överdrivna känslor, avbrott i samtal och trovärdiga dialoger har varit svåra att få till.
Sedan vi lanserade Multilingual v2 har AI-röster börjat användas inom film, spelutveckling, utbildning och tillgänglighet. Men den största begränsningen har inte varit ljudkvaliteten — utan
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Så använder du ljudtaggarprompting-guide för v3 i dokumentationen.
Ljudtaggar placeras direkt i ditt manus och skrivs med små bokstäver inom hakparenteser. Du kan läsa mer om ljudtaggar i vår
Professional Voice Clones (PVC) är ännu inte helt optimerade för Eleven v3, vilket kan ge sämre kloningskvalitet jämfört med tidigare modeller. Under den här forskningsperioden är det bäst att använda en Instant Voice Clone (IVC) eller en designad röst om du vill använda v3-funktioner. Optimering för PVC i v3 kommer snart.
| 1 | “[happily][shouts] We did it! [laughs].” |
Skapa dialog med flera rösterText to Dialogue API-endpoint. Skicka in en strukturerad array av JSON-objekt — där varje objekt är ett talarbyte — så genererar modellen en sammanhängande, överlappande ljudfil:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
Endpointen hanterar automatiskt byten mellan talare, känsloskiften och avbrott.
Endpointen hanterar automatiskt byten mellan röster, känsloskiften och avbrott.här.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Så aktiverar du v3:
API-åtkomst och stöd i Studio kommer snart. För tidig åtkomst, kontakta säljteamet.
När du inte ska använda v3
Eleven v3 (alpha) kräver mer prompt engineering än våra tidigare modeller. När det fungerar är resultatet fantastiskt, men tillförlitligheten och högre fördröjning gör att den inte passar för realtids- och konversationsanvändning. För det rekommenderar vi Eleven v2.5 Turbo/Flash.v3-dokumentationen och vanliga frågor.
Vi ser fram emot att se hur du använder v3 i nya sammanhang — från berättande till filmproduktion.
Transforming how we interact with technology

Scaling personal, multilingual outreach with privacy-first AI voice and chat agents