ElevenLabs raises $500M Series D at $11B valuation
Transforming how we interact with technology
Najbardziej ekspresyjny model Text to Speech
Z radością pokazujemy Eleven v3 (alpha) —najbardziej ekspresyjny model Text to Speech.
Eleven v3 nie jest już w wersji alpha — jest dostępny dla wszystkich.
ponad 70 językom wymaga więcej prompt engineeringu niż wcześniejsze modele — ale efekty są zachwycające.
Jeśli tworzysz wideo, audiobooki lub narzędzia medialne — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy na żywo jest w przygotowaniu.
Jeśli tworzysz wideo, audiobooki lub narzędzia do pracy z mediami — to otwiera nowy poziom ekspresji. Do zastosowań na żywo i rozmów polecamy na razie v2.5 Turbo lub Flash. Wersja v3 do pracy w czasie rzeczywistym jest w przygotowaniu.API.
Dlaczego stworzyliśmy v3ekspresja. Silniejsze emocje, przerywanie rozmowy czy naturalne dialogi były trudne do uzyskania.
Od premiery Multilingual v2 widzimy, jak głos AI trafia do profesjonalnych filmów, gier, edukacji i dostępności. Ale największym ograniczeniem nie była jakość dźwięku — tylko
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
Jak używać tagów audioprzewodniku po promptowaniu v3 w dokumentacji.
Tagi audio wpisujesz bezpośrednio w tekst, w nawiasach kwadratowych małymi literami. Więcej o tagach audio znajdziesz w naszym
Profesjonalne klony głosu (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. Na tym etapie najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.
| 1 | “[happily][shouts] We did it! [laughs].” |
Tworzenie dialogów z wieloma głosamiendpoint Text to Dialogue API. Wystarczy podać uporządkowaną tablicę obiektów JSON — każdy to jedna wypowiedź — a model wygeneruje spójny, nakładający się plik audio:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
Endpoint sam zarządza zmianami głosów, emocji i przerwami w rozmowie.
Endpoint sam zarządza zmianami głosów, emocji i przerywaniem.tutaj.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
Aby włączyć v3:
Dostęp przez API i wsparcie w Studio pojawią się wkrótce. Jeśli chcesz wcześniejszy dostęp, skontaktuj się z nami.
Kiedy nie używać v3
Eleven v3 (alpha) wymaga więcej prompt engineeringu niż nasze wcześniejsze modele. Gdy działa, efekty są świetne, ale mniejsza przewidywalność i większe opóźnienia sprawiają, że nie nadaje się do rozmów na żywo. Do tego polecamy Eleven v2.5 Turbo/Flash.dokumentacji v3 i FAQ.
Nie możemy się doczekać, jak wykorzystasz v3 w nowych projektach — od opowieści po produkcje filmowe.
Transforming how we interact with technology

Scaling personal, multilingual outreach with privacy-first AI voice and chat agents