Pomiń

Czym są tagi audio Eleven v3 — i dlaczego są ważne

Opublikowano
Ostatnia aktualizacja

PosłuchajPosłuchaj tego artykułu

Wraz z premierą Eleven v3, promptowanie audio stało się kluczową umiejętnością. Zamiast tylko wpisywać tekst, który ma przeczytać głos AI, możesz teraz użyć nowej funkcji — tagów audio — żeby sterować wszystkim: od emocji po sposób wypowiedzi.

Eleven v3 to wersja alfa podgląd badawczy nowego modelu. Wymaga więcej promptowania niż wcześniejsze modele — ale efekty są niesamowite.

Tagi audio ElevenLabs to słowa w nawiasach kwadratowych, które nowy model Eleven v3 rozumie i wykorzystuje do sterowania dźwiękiem. Mogą to być np. [excited], [whispers], [sighs], ale też [gunshot], [clapping] czy [explosion].

Audio Tags pozwalają ci zmieniać brzmienie głosów AI, w tym takie elementy jak ton, pauzy czy tempo. Niezależnie od tego, czy tworzysz wciągające

Reżyserowanie głosu za pomocą tagów audio

Możesz wstawiać tagi audio w dowolnym miejscu skryptu, by na bieżąco zmieniać sposób wypowiedzi. Możesz też łączyć tagi w jednym skrypcie, a nawet zdaniu. Tagi dzielą się na główne kategorie:

Emocje

Te tagi pozwalają ustawić emocjonalny ton głosu — czy ma być poważny, intensywny czy radosny. Możesz użyć np. [sad], [angry], [happily] albo [sorrowful], osobno lub razem.

Background
Background

Sposób wypowiedzi

Te tagi dotyczą tonu i wykonania. Pozwalają zmienić głośność i energię w scenach wymagających ciszy lub siły. Przykłady: [whispers], [shouts], a nawet [x accent].

Background
Background

Reakcje ludzkie

Naturalna mowa to także reakcje. Dzięki nim dodasz realizmu, wstawiając spontaniczne momenty do wypowiedzi. Przykłady: [laughs], [clears throat], [sighs].

Background
Background

Nowy, bardziej ekspresyjny model

Za tymi funkcjami stoi nowa architektura v3. Model lepiej rozumie kontekst tekstu, więc naturalniej podąża za emocjami, zmianami tonu i przejściami między postaciami. W połączeniu z tagami audio daje to większą ekspresję niż wcześniej w TTS.

Możesz też tworzyć dialogi z wieloma postaciami, które brzmią naturalnie — z przerwami, zmianami nastroju i niuansami rozmowy, bez skomplikowanego promptowania.

Dostępne już teraz

Profesjonalne klony głosu (PVC) nie są jeszcze w pełni zoptymalizowane pod Eleven v3, więc ich jakość może być niższa niż w poprzednich modelach. W tej fazie podglądu najlepiej wybrać Instant Voice Clone (IVC) lub zaprojektowany głos, jeśli chcesz korzystać z funkcji v3. Optymalizacja PVC dla v3 pojawi się wkrótce.

Eleven v3 jest dostępny w interfejsie ElevenLabs, a my oferujemy 80% zniżki do końca czerwca. Publiczne API dla Eleven v3 (alfa) też jest dostępne. Niezależnie czy testujesz, czy wdrażasz na większą skalę — teraz jest dobry moment, by sprawdzić nowe możliwości.

Tworzenie tagów audio

Tworzenie mowy AI, która gra — a nie tylko czyta — to kwestia opanowania tagów audio. Przygotowaliśmy siedem krótkich, praktycznych przewodników, które pokazują, jak tagi takie jak [SZEPT], [CICHO SIĘ ŚMIEJE], czy [francuski akcent] pozwalają ci sterować kontekstem, emocjami, tempem, a nawet dialogiem wielu postaci jednym modelem.

Zobacz serię

  • Reakcja na sytuację – Tagi takie jak [SZEPT], [KRZYK], czy [WESTCHNIENIE] pozwalają Eleven v3 reagować na sytuację — podkręcać napięcie, łagodzić ostrzeżenia czy robić pauzy dla efektu.
  • Gra aktorska postaci – Od [głos pirata] po [francuski akcent], tagi zamieniają narrację w odgrywanie ról. Możesz zmienić postać w trakcie zdania i reżyserować całe sceny bez zmiany modelu.
  • Kontekst emocjonalny – Wskazówki jak [westchnienie], [podekscytowany], czy [zmęczony] pozwalają sterować emocjami w każdej chwili — budować napięcie, ulgę czy humor, bez ponownych nagrań.
  • Inteligencja narracyjna – Opowiadanie historii to kwestia wyczucia czasu. Tagi takie jak [pauza], [zachwyt], czy [dramatyczny ton] kontroluj rytm i akcenty, żeby
  • Dialog wielu postaci – Pisz nakładające się kwestie i szybkie dialogi z [przerywa], [nakładające się głosy], albo zmianami tonu. Jeden model, wiele głosów — naturalna rozmowa za jednym podejściem.
  • Kontrola wypowiedzi – Dopracuj tempo i akcenty. Tagi jak [pauza], [pośpiech], czy [przeciągnięte] pozwalają precyzyjnie sterować tempem i zamienić zwykły tekst w prawdziwe wykonanie.
  • Naśladowanie akcentów – Zmieniaj regiony w locie — [amerykański akcent], [brytyjski akcent], [południowy akcent USA] i inne — dla bogatszej mowy bez zmiany modelu.

Podobne artykuły

Twórz z najwyższej jakości audio AI