Eleven na INTERSPEECH 2022

Ostatnia aktualizacja 23 paź 2025 • 4 minut czytania

Tegoroczna konferencja była najlepszą okazją, jaką mieliśmy do tej pory, aby podzielić się naszymi badaniami i ich wynikami

Jak poszło

Właśnie wróciliśmy z tegorocznej konferencji INTERSPEECH, która była najlepszą okazją, by zaprezentować i uzyskać opinie na temat wszystkich naszych ostatnich osiągnięć.

Świetnie było uczyć się od najlepszych w branży, dzielić się pomysłami i nawiązywać przyszłe relacje. Spotkaliśmy zespoły z fantastycznych startupów działających w tej samej dziedzinie co my, szczególnie w zakresie voice cloning, syntezy mowy (TTS) i konwersji głosu (VC) (Supertone i LOVO to tylko dwa przykłady). Byliśmy równie podekscytowani rozmowami z uznanymi firmami jak Meta i Google o kulisach tworzenia oprogramowania TTS i VC.

Od razu przeszliśmy do działania. Ilość szczerego entuzjazmu dla naszej pracy przerosła nasze oczekiwania. Przez kolejne cztery dni omawialiśmy nasze badania i postępy w tych trzech obszarach technologii mowy - absolutnie kluczowych krokach na drodze do stworzenia naszego autorskiego narzędzia do automatycznego dubbingu, którego wersję 1.0 planujemy wydać na początku przyszłego roku.

Najważniejsze dla nas było udowodnienie, że potrafimy wiernie klonować głosy - że jesteśmy w stanie zachować podobieństwo głosu między danymi źródłowymi, na których trenujemy nasz algorytm, a tym, jak ten sam głos brzmi generowany syntetycznie. Po drugie, kluczowe było dla nas udowodnienie, że nasze narzędzia TTS zmierzają do stania się częścią najbardziej naturalnie brzmiącej platformy syntezy mowy, oferując niezrównaną prozodię i tonację.

Pierwsze jest ważne, ponieważ nowe wypowiedzi muszą być łatwo rozpoznawalne jako mówione przez konkretną osobę - musimy poprawnie zachować tożsamość mówcy. Prozodia i tonacja są ważne, ponieważ ton i tempo przekazują intencję, co sprawia, że mowa brzmi ludzko. Świętym Graalem jest, aby program nie tylko płynnie wymawiał słowa, ale także nadawał wypowiedzi odpowiedni ładunek emocjonalny, tak aby brzmiało, jakby rozumiałco mówi.

Demo TTS

Poniżej możesz zobaczyć jedno z takich demo TTS, które używaliśmy podczas konferencji. Pierwszy link to oryginalne wideo, a następnie nasza próbka z tą samą wiadomością w innym głosie. Pamiętaj, to jest zamiana tekstu na mowę - nie konwersja głosu. Naszym jedynym wkładem było zapisanie słów z oryginalnego wideo, aby wygenerować słyszaną mowę. Cała prozodia i intonacja to zasługa algorytmu, bez żadnej obróbki końcowej. Sprawdź, czy rozpoznasz, czyj to głos!

Więcej o technologii Eleven TTS przeczytasz w naszym następnym wpisie poświęconym generowaniu mowy z tekstu.

Jeśli podoba ci się nasza technologia i chcesz zostać naszym beta-testerem, możesz się zapisać tutaj.

Oryginał:

Eleven Labs klonowanie głosu TTS:

Treść ponad formą

W miesiącach poprzedzających konferencję skupialiśmy się prawie wyłącznie na dostarczaniu demonstracyjnych próbek naszej technologii i pokazywaniu naszych badań. W końcu INTERSPEECH to konferencja naukowa i byliśmy przekonani, że treść musi wyprzedzać formę, zwłaszcza na tak ukierunkowanym spotkaniu. Jednak w dniu konferencji zaczęliśmy żartować, że nasze skupienie na technologii sprawiło, że nasze działania brandingowe wydają się zbyt minimalistyczne. Wkrótce poczuliśmy ulgę, a nawet satysfakcję, widząc, że inni, w tym duzi gracze, również wybierają skromniejsze rozwiązania.

Do zobaczenia za rok

Nasza podróż do Korei była wielkim sukcesem dla Eleven i dużą dawką motywacji do dalszej pracy. Już teraz jesteśmy podekscytowani myśląc o postępach, jakie możemy osiągnąć w nadchodzącym roku zarówno w naszych badaniach, jak i sposobach ich prezentacji. Mamy nadzieję, że do tego czasu będziemy mieć gotowe narzędzia do dubbingu w jakości produkcyjnej i będziemy używać głosów ludzi, aby pozwolić im mówić w językach, których nie znają.

Przeglądaj artykuły zespołu ElevenLabs

Impact

Impact

Restoring identity through voice in Africa: Senses Hub x ElevenLabs

Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.

Company

Company

Powering India’s new generation of voice AI agents

A look at the architecture, players, and infrastructure driving India’s 2025 voice-AI landscape

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się

Napędzane przez ElevenLabs Agenci