
I używaj go do filmów, reklam, podcastów i nie tylko
Przedstawiamy Eleven v3 Alpha
Wypróbuj v3W przyszłym miesiącu uruchamiamy narzędzie do tłumaczenia głosu AI. Pozwala ono użytkownikom konwertować dowolne treści audio lub wideo na inny język, zachowując głos oryginalnego mówcy. Naszym celem jest prostota: udostępnić wielojęzyczne treści w autentyczny sposób w mediach takich jak streaming, gry i filmy.
Widzieliśmy, jak Spotify i OpenAI zapowiadają swoje postępy w tłumaczeniu głosu i możliwościach mowy, i jesteśmy podekscytowani, mogąc podzielić się naszymi osiągnięciami.
This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
Nadchodzące narzędzie to nie tylko tłumaczenie; chodzi o zachowanie tożsamości mówcy i oryginalnych wzorców mowy w różnych językach, co pozwala na bardziej spójne i wciągające doświadczenie niż tradycyjne napisy.
Wyobraź sobie edukacyjny film w języku angielskim. Jeśli ktoś mówi tylko po hiszpańsku (ale temat go interesuje), to problem. Chcemy móc generować oryginalną osobę mówiącą naturalnie w hiszpańskim na poziomie native.
To wymaga połączenia konwersji głosu, klonowania głosu i wielojęzycznej syntezy mowy w jednym nowym narzędziu. Klonowanie głosu pozwala nam zachować tożsamość mówcy - brzmienie jego głosu. Używamy syntezy mowy, aby generować nowe wypowiedzi w innym języku, jakby mówiła ta sama osoba. Konwersja głosu jest kluczowa, ponieważ chcemy zachować oryginalne emocje, intencje i styl wypowiedzi dla maksymalnego zanurzenia.
I używaj go do filmów, reklam, podcastów i nie tylko
Włożyliśmy wiele badań i innowacji w rozwój technologii, która potrafi ultra-realistycznie oddać ludzką mowę, zrozumieć kontekst i kodować profile głosowe. Nasze narzędzie do tłumaczenia głosu AI to znaczący krok w kierunku umożliwienia twórcom poszerzenia zasięgu i pomocy potencjalnym odbiorcom w odkrywaniu treści, które uznają za istotne i fascynujące, niezależnie od języka, który rozumieją.
Dubbing to proces dostarczania ścieżki dźwiękowej w innym języku poprzez zastąpienie głosów oryginalnych aktorów głosami wykonawców mówiących w innym języku - tzw. "ponowne nagrywanie" - tradycyjnie kosztowne i czasochłonne zadanie. W Eleven chcemy to robić automatycznie, zachowując oryginalne głosy w różnych językach.
Konwersja głosu pozwala jednej osobie mówić głosem innej. Wykorzystuje klonowanie głosu, aby zakodować docelowy głos i nałożyć go na źródłowy głos. Efektem jest oryginalna wiadomość, która wydaje się być wypowiedziana przez kogoś innego.
Zamiana tekstu na mowę (TTS) to podstawa całej technologii syntezy mowy. TTS technologia znacznie się poprawiła na przestrzeni lat, choć nadal często brzmi robotycznie. To dlatego, że samo płynne wymawianie słów nie wystarcza, aby nadać mowie ludzką jakość. To intencjonalny ton i tempo wynikające ze zrozumienia tego, co się mówi, sprawiają, że brzmi to naturalnie. W Eleven staramy się to osiągnąć: wystawiając nasz model na bogactwo danych ludzkiej mowy, trenujemy go, aby rozumiał zarówno logiczny, jak i emocjonalny kontekst wypowiedzi, i dostosowywał sposób ich przekazywania.
Nasza technologia AI oferuje tysiące naturalnie brzmiących głosów w 32 językach. Szukasz darmowego rozwiązania do zamiany tekstu na mowę, czy wysokiej klasy AI do projektów komercyjnych? Nasze narzędzia spełnią twoje potrzeby.
Czekamy na październikową premierę i zmianę sposobu, w jaki angażujemy się w treści wielojęzyczne.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.