Czym są tagi audio Eleven v3 — i dlaczego są ważne
- Autor
- Ryan Morrison
- Opublikowano
- Ostatnia aktualizacja
PosłuchajPosłuchaj tego artykułu
Wraz z premierą Eleven v3, promptowanie audio stało się kluczową umiejętnością. Zamiast tylko wpisywać tekst, który ma przeczytać głos AI, możesz teraz użyć nowej funkcji — tagów audio — żeby sterować wszystkim: od emocji po sposób wypowiedzi.
Eleven v3 to wersja alfa podgląd badawczy nowego modelu. Wymaga więcej promptowania niż wcześniejsze modele — ale efekty są niesamowite.
Tagi audio ElevenLabs to słowa w nawiasach kwadratowych, które nowy model Eleven v3 rozumie i wykorzystuje do sterowania dźwiękiem. Mogą to być np. [excited], [whispers], [sighs], ale też [gunshot], [clapping] czy [explosion].
Audio Tags pozwalają ci zmieniać brzmienie głosów AI, w tym takie elementy jak ton, pauzy czy tempo. Niezależnie od tego, czy tworzysz wciągające
Reżyserowanie głosu za pomocą tagów audio
Możesz wstawiać tagi audio w dowolnym miejscu skryptu, by na bieżąco zmieniać sposób wypowiedzi. Możesz też łączyć tagi w jednym skrypcie, a nawet zdaniu. Tagi dzielą się na główne kategorie:
Emocje
Te tagi pozwalają ustawić emocjonalny ton głosu — czy ma być poważny, intensywny czy radosny. Możesz użyć np. [sad], [angry], [happily] albo [sorrowful], osobno lub razem.
Sposób wypowiedzi
Te tagi dotyczą tonu i wykonania. Pozwalają zmienić głośność i energię w scenach wymagających ciszy lub siły. Przykłady: [whispers], [shouts], a nawet [x accent].
Reakcje ludzkie
Naturalna mowa to także reakcje. Dzięki nim dodasz realizmu, wstawiając spontaniczne momenty do wypowiedzi. Przykłady: [laughs], [clears throat], [sighs].
Nowy, bardziej ekspresyjny model
Za tymi funkcjami stoi nowa architektura v3. Model lepiej rozumie kontekst tekstu, więc naturalniej podąża za emocjami, zmianami tonu i przejściami między postaciami. W połączeniu z tagami audio daje to większą ekspresję niż wcześniej w TTS.
Możesz też tworzyć dialogi z wieloma postaciami, które brzmią naturalnie — z przerwami, zmianami nastroju i niuansami rozmowy, bez skomplikowanego promptowania.
Dostępne już teraz
Profesjonalne klony głosu (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. W tej fazie podglądu najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.
Eleven v3 jest dostępny w interfejsie ElevenLabs, a my oferujemy 80% zniżki do końca czerwca. Publiczne API dla Eleven v3 (alfa) też jest dostępne. Niezależnie czy testujesz, czy wdrażasz na większą skalę — teraz jest dobry moment, by sprawdzić nowe możliwości.
Tworzenie tagów audio
Tworzenie mowy AI, która gra — a nie tylko czyta — to kwestia opanowania tagów audio. Przygotowaliśmy siedem krótkich, praktycznych przewodników, które pokazują, jak tagi takie jak [SZEPT], [CICHO SIĘ ŚMIEJE], czy [francuski akcent] pozwalają ci sterować kontekstem, emocjami, tempem, a nawet dialogiem wielu postaci jednym modelem.
Zobacz serię
- Reakcja na sytuację – Tagi takie jak
[SZEPT],[KRZYK], czy[WESTCHNIENIE]pozwalają Eleven v3 reagować na sytuację — podkręcać napięcie, łagodzić ostrzeżenia czy robić pauzy dla efektu. - Gra aktorska postaci – Od
[głos pirata]po[francuski akcent], tagi zamieniają narrację w odgrywanie ról. Możesz zmienić postać w trakcie zdania i reżyserować całe sceny bez zmiany modelu. - Kontekst emocjonalny – Wskazówki jak
[westchnienie],[podekscytowany], czy[zmęczony]pozwalają sterować emocjami w każdej chwili — budować napięcie, ulgę czy humor, bez ponownych nagrań. - Inteligencja narracyjna – Opowiadanie historii to kwestia wyczucia czasu. Tagi takie jak
[pauza],[zachwyt], czy[dramatyczny ton]kontroluj rytm i akcenty, żeby - Dialog wielu postaci – Pisz nakładające się kwestie i szybkie dialogi z
[przerywa],[nakładające się głosy], albo zmianami tonu. Jeden model, wiele głosów — naturalna rozmowa za jednym podejściem. - Kontrola wypowiedzi – Dopracuj tempo i akcenty. Tagi jak
[pauza],[pośpiech], czy[przeciągnięte]pozwalają precyzyjnie sterować tempem i zamienić zwykły tekst w prawdziwe wykonanie. - Naśladowanie akcentów – Zmieniaj regiony w locie —
[amerykański akcent],[brytyjski akcent],[południowy akcent USA]i inne — dla bogatszej mowy bez zmiany modelu.









