
Eleven v3 Audio Tags: Precision delivery control for AI speech
Fine-grained control over timing, rhythm, and emphasis with Eleven v3 Audio Tags. Transform flat delivery into dynamic, performative content.
Przedstawiamy Eleven v3 Alpha
Wypróbuj v3Eleven v3 to najbardziej ekspresyjny model Text to Speech
Z przyjemnością przedstawiamy Eleven v3 (alpha) — najbardziej ekspresyjny model Text to Speech.
Ta wersja badawcza daje niespotykaną kontrolę i realizm w generowaniu mowy dzięki:
Eleven v3 (alpha) wymaga więcej inżynierii promptów niż wcześniejsze modele — ale generacje są zachwycające.
Jeśli pracujesz nad wideo, audiobookami lub narzędziami medialnymi — to otwiera nowy poziom ekspresji. Do zastosowań w czasie rzeczywistym i konwersacyjnych polecamy na razie pozostać przy v2.5 Turbo lub Flash. Wersja v3 w czasie rzeczywistym jest w trakcie opracowywania.
Eleven v3 jest dostępny już dziś na naszej stronie. Publiczny dostęp do API wkrótce. Aby uzyskać wcześniejszy dostęp, skontaktuj się z działem sprzedaży.
Korzystanie z nowego modelu w aplikacji ElevenLabs jest tańsze o 80% do końca czerwca. Zarejestruj się tutaj.
Dlaczego stworzyliśmy v3expressiveness. More exaggerated emotions, conversational interruptions, and believable back-and-forth were difficult to achieve.
Od czasu wprowadzenia Multilingual v2, widzieliśmy, jak głos AI jest wykorzystywany w profesjonalnym filmie, tworzeniu gier, edukacji i dostępności. Ale stałym ograniczeniem nie była jakość dźwięku — była to
Feature | What it unlocks |
---|---|
Audio tags | Inline control of tone, emotion, and non-verbal reactions |
Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
70+ languages | Full coverage of high-demand global languages |
Deeper text understanding | Better stress, cadence, and expressivity from text input |
Korzystanie z tagów audioprompting guide for v3 in the docs.
Tagi audio są wstawiane bezpośrednio w skrypcie i formatowane za pomocą małych nawiasów kwadratowych. Więcej o tagach audio znajdziesz w naszym
1 | “[happily][shouts] We did it! [laughs].” |
Tworzenie dialogów wieloosobowychText to Dialogue API endpoint. Provide a structured array of JSON objects — each representing a speaker turn — and the model generates a cohesive, overlapping audio file:
1 | [ |
2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
5 | ] |
6 |
Eleven v3 jest obsługiwany w naszym istniejącym endpointzie Text to Speech. Dodatkowo wprowadzamy nowy
Endpoint automatycznie zarządza przejściami między mówcami, zmianami emocji i przerwami.here.
Plan | Launch promo | After 30 days |
---|---|---|
UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
API (self-serve & enterprise) | Same as Multilingual V2 | Same |
Enterprise UI | Same as Multilingual V2 | Same |
Ceny i dostępność
Aby włączyć v3:contact sales.
Dostęp do API i wsparcie w Studio wkrótce. Aby uzyskać wczesny dostęp,
Kiedy nie używać v3v3 documentation and FAQ.
We’re excited to see how you bring v3 to life across new use cases — from immersive storytelling to cinematic production pipelines.
Fine-grained control over timing, rhythm, and emphasis with Eleven v3 Audio Tags. Transform flat delivery into dynamic, performative content.
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.