Pomiń

Przedstawiamy Voice Changer

Zmień swój głos na inny, kontrolując emocje, tempo i sposób mówienia.

Voice Changer wcześniej nazywał się speech-to-speech. W kontekście agentów głosowych AI, „speech-to-speech” oznacza też połączone architektury, gdzie jeden model obsługuje bezpośrednio dźwięk jako wejście i wyjście. ElevenAgents korzysta z zaawansowanej kaskadowej architektury. Dowiedz się więcej: Modele kaskadowe vs połączone.

Dodaliśmy

To daje ci kontrolę, której same

Więcej emocji w głosie.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Zobacz poradnik od jednego z naszych użytkowników:

Voice changer przydaje się też jako „wzór” wymowy. Nasz TTS zwykle dobrze trafia z intonacją, ale czasem możesz chcieć ją dopracować. Dzięki voice changer możesz pokazać, jak powiedzieć dane zdanie, a wybrany głos powtórzy je w ten sposób. Ta opcja będzie jeszcze wygodniejsza, gdy voice changer pojawi się bezpośrednio w Studio, ale już teraz pozwala ci precyzyjnie edytować efekt końcowy.

Badania

Robi się to, mapując cechy twarzy. Znaczniki na przykładzie poniżej wyznaczają granice, w których zostanie odwzorowana druga twarz.

Aby przekształcić mowę źródłową w mowę docelową, musimy wyrazić treść mowy źródłowej z cechami mowy docelowej. Dobrym porównaniem są aplikacje do zamiany twarzy, które pozwalają zmieszać twoją twarz z czyjąś inną, tworząc obraz obu jako jednej.

Sposobem na to jest wzięcie obrazu twarzy i mapowanie jej cech. Markery w poniższym przykładzie robią właśnie to: są granicami, w których zostanie odwzorowana inna twarz.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Produkt i najnowsze zmiany

Zmiany w gotowych głosach

Wprowadzamy zmiany w domyślnych głosach w Speech Synthesis. Część głosów zostanie wycofana i zastąpiona nowymi – w najbliższych tygodniach pojawi się ponad 20 nowych.

Wkrótce w interfejsie pokażemy też, jak długo dany głos będzie dostępny. W grudniu odświeżymy funkcje udostępniania głosów i wynagradzania za ich użycie, by zwiększyć różnorodność. Szczegóły wkrótce.

Eleven Turbo v2 i format uLaw 8kHz

Turbo v2 to efekt miesięcy pracy naszego zespołu. Sprawdza się w rozmowach na żywo, ale działa w każdym zastosowaniu. Obsługuje też standardowy format (m)uLaw 8kHz do systemów IVR.

Normalizacja i metadane w Studio

Studio obsługuje teraz branżowe wytyczne dla audiobooków, w tym regulację głośności i kompresję dynamiczną. Możesz też dodać metadane (ISBN, autora i tytuł) bezpośrednio w projekcie Studio.

Słownik wymowy

To jedna z najczęściej proszonych funkcji. W zeszłym miesiącu dodaliśmy obsługę tagów SSML do określania wymowy przez IPA i słownik CMU w modelach angielskich. Teraz słownik wymowy jest dostępny w Studio – możesz wgrać plik z wymową przez IPA, CMU lub zamienniki słów (aliasy). Pliki słownika używają otwartego formatu .PLS

IPA i CMU są obecnie obsługiwane przez Turbo v2 English. Zamienniki słów działają we wszystkich modelach i językach. Pełna dokumentacja dostępna

Dodanie Słownika Wymowy było jedną z naszych najczęściej zgłaszanych funkcji. W zeszłym miesiącu wdrożyliśmy dodanie tagów SSML do określania wymowy za pomocą słowników IPA i CMU dla naszych modeli angielskich. Teraz udostępniliśmy wsparcie dla słownika wymowy w interfejsie Studio, pozwalając na przesłanie pliku określającego wymowę za pomocą IPA, CMU lub zamienników słów. Pliki słownika są przesyłane przy użyciu standardu branżowego i otwartego formatu .PLS format pliku leksykonu.

Masz uwagi? Napisz do nas na Discordzie!tutaj.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Powiedz to po swojemu i usłysz w zupełnie innym głosie, z pełną kontrolą nad wykonaniem. Przechwyć szepty, śmiech, akcenty i subtelne emocje.

Przeglądaj artykuły zespołu ElevenLabs

Twórz z najwyższej jakości audio AI