Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

Eleven na INTERSPEECH 2022

Tegoroczna konferencja była najlepszą okazją, jaką mieliśmy do tej pory, aby podzielić się naszymi badaniami i ich wynikami

Jak poszło

Właśnie wróciliśmy z tegorocznej konferencji INTERSPEECH, która była najlepszą okazją, by zaprezentować i uzyskać opinie na temat wszystkich naszych ostatnich osiągnięć.

Świetnie było uczyć się od najlepszych w branży, dzielić się pomysłami i nawiązywać przyszłe relacje. Spotkaliśmy zespoły z fantastycznych startupów działających w tej samej dziedzinie co my, szczególnie w zakresie voice cloning, syntezy mowy (TTS) i konwersji głosu (VC) (Supertone i LOVO to tylko dwa przykłady). Byliśmy równie podekscytowani rozmowami z uznanymi firmami jak Meta i Google o kulisach tworzenia oprogramowania TTS i VC.

Od razu przeszliśmy do działania. Ilość szczerego entuzjazmu dla naszej pracy przerosła nasze oczekiwania. Przez kolejne cztery dni omawialiśmy nasze badania i postępy w tych trzech obszarach technologii mowy - absolutnie kluczowych krokach na drodze do stworzenia naszego autorskiego narzędzia do automatycznego dubbingu, którego wersję 1.0 planujemy wydać na początku przyszłego roku.

Najważniejsze dla nas było udowodnienie, że potrafimy wiernie klonować głosy - że jesteśmy w stanie zachować podobieństwo głosu między danymi źródłowymi, na których trenujemy nasz algorytm, a tym, jak ten sam głos brzmi generowany syntetycznie. Po drugie, kluczowe było dla nas udowodnienie, że nasze narzędzia TTS zmierzają do stania się częścią najbardziej naturalnie brzmiącej platformy syntezy mowy, oferując niezrównaną prozodię i tonację.

Pierwsze jest ważne, ponieważ nowe wypowiedzi muszą być łatwo rozpoznawalne jako mówione przez konkretną osobę - musimy poprawnie zachować tożsamość mówcy. Prozodia i tonacja są ważne, ponieważ ton i tempo przekazują intencję, co sprawia, że mowa brzmi ludzko. Świętym Graalem jest, aby program nie tylko płynnie wymawiał słowa, ale także nadawał wypowiedzi odpowiedni ładunek emocjonalny, tak aby brzmiało, jakby rozumiałco mówi.

Demo TTS

Poniżej możesz zobaczyć jedno z takich demo TTS, które używaliśmy podczas konferencji. Pierwszy link to oryginalne wideo, a następnie nasza próbka z tą samą wiadomością w innym głosie. Pamiętaj, to jest zamiana tekstu na mowę - nie konwersja głosu. Naszym jedynym wkładem było zapisanie słów z oryginalnego wideo, aby wygenerować słyszaną mowę. Cała prozodia i intonacja to zasługa algorytmu, bez żadnej obróbki końcowej. Sprawdź, czy rozpoznasz, czyj to głos!

Więcej o technologii Eleven TTS przeczytasz w naszym następnym wpisie poświęconym generowaniu mowy z tekstu.

Jeśli podoba ci się nasza technologia i chcesz zostać naszym beta-testerem, możesz się zapisać tutaj.

Oryginał:

Eleven Labs klonowanie głosu TTS:

Treść ponad formą

W miesiącach poprzedzających konferencję skupialiśmy się prawie wyłącznie na dostarczaniu demonstracyjnych próbek naszej technologii i pokazywaniu naszych badań. W końcu INTERSPEECH to konferencja naukowa i byliśmy przekonani, że treść musi wyprzedzać formę, zwłaszcza na tak ukierunkowanym spotkaniu. Jednak w dniu konferencji zaczęliśmy żartować, że nasze skupienie na technologii sprawiło, że nasze działania brandingowe wydają się zbyt minimalistyczne. Wkrótce poczuliśmy ulgę, a nawet satysfakcję, widząc, że inni, w tym duzi gracze, również wybierają skromniejsze rozwiązania.

Do zobaczenia za rok

Nasza podróż do Korei była wielkim sukcesem dla Eleven i dużą dawką motywacji do dalszej pracy. Już teraz jesteśmy podekscytowani myśląc o postępach, jakie możemy osiągnąć w nadchodzącym roku zarówno w naszych badaniach, jak i sposobach ich prezentacji. Mamy nadzieję, że do tego czasu będziemy mieć gotowe narzędzia do dubbingu w jakości produkcyjnej i będziemy używać głosów ludzi, aby pozwolić im mówić w językach, których nie znają.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI