Tłumaczenie głosu AI

26 wrz 2023 • 4 minut czytania

Narzędzie AI Dubbing dostępne w październiku

Tłumaczenie głosu / AI dubbing

W przyszłym miesiącu uruchamiamy narzędzie do tłumaczenia głosu AI. Pozwala ono użytkownikom konwertować dowolne treści audio lub wideo na inny język, zachowując głos oryginalnego mówcy. Naszym celem jest prostota: udostępnić wielojęzyczne treści w autentyczny sposób w mediach takich jak streaming, gry i filmy.

Widzieliśmy, jak Spotify i OpenAI zapowiadają swoje postępy w tłumaczeniu głosu i możliwościach mowy, i jesteśmy podekscytowani, mogąc podzielić się naszymi osiągnięciami.

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

Nadchodzące narzędzie to nie tylko tłumaczenie; chodzi o zachowanie tożsamości mówcy i oryginalnych wzorców mowy w różnych językach, co pozwala na bardziej spójne i wciągające doświadczenie niż tradycyjne napisy.

Wyobraź sobie edukacyjny film w języku angielskim. Jeśli ktoś mówi tylko po hiszpańsku (ale temat go interesuje), to problem. Chcemy móc generować oryginalną osobę mówiącą naturalnie w hiszpańskim na poziomie native.

To wymaga połączenia konwersji głosu, klonowania głosu i wielojęzycznej syntezy mowy w jednym nowym narzędziu. Klonowanie głosu pozwala nam zachować tożsamość mówcy - brzmienie jego głosu. Używamy syntezy mowy, aby generować nowe wypowiedzi w innym języku, jakby mówiła ta sama osoba. Konwersja głosu jest kluczowa, ponieważ chcemy zachować oryginalne emocje, intencje i styl wypowiedzi dla maksymalnego zanurzenia.

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

I używaj go do filmów, reklam, podcastów i nie tylko

Włożyliśmy wiele badań i innowacji w rozwój technologii, która potrafi ultra-realistycznie oddać ludzką mowę, zrozumieć kontekst i kodować profile głosowe. Nasze narzędzie do tłumaczenia głosu AI to znaczący krok w kierunku umożliwienia twórcom poszerzenia zasięgu i pomocy potencjalnym odbiorcom w odkrywaniu treści, które uznają za istotne i fascynujące, niezależnie od języka, który rozumieją.

Czym jest dubbing, konwersja głosu i synteza mowy?

Dubbing to proces dostarczania ścieżki dźwiękowej w innym języku poprzez zastąpienie głosów oryginalnych aktorów głosami wykonawców mówiących w innym języku - tzw. "ponowne nagrywanie" - tradycyjnie kosztowne i czasochłonne zadanie. W Eleven chcemy to robić automatycznie, zachowując oryginalne głosy w różnych językach.

Konwersja głosu pozwala jednej osobie mówić głosem innej. Wykorzystuje klonowanie głosu, aby zakodować docelowy głos i nałożyć go na źródłowy głos. Efektem jest oryginalna wiadomość, która wydaje się być wypowiedziana przez kogoś innego.

Zamiana tekstu na mowę (TTS) to podstawa całej technologii syntezy mowy. TTS technologia znacznie się poprawiła na przestrzeni lat, choć nadal często brzmi robotycznie. To dlatego, że samo płynne wymawianie słów nie wystarcza, aby nadać mowie ludzką jakość. To intencjonalny ton i tempo wynikające ze zrozumienia tego, co się mówi, sprawiają, że brzmi to naturalnie. W Eleven staramy się to osiągnąć: wystawiając nasz model na bogactwo danych ludzkiej mowy, trenujemy go, aby rozumiał zarówno logiczny, jak i emocjonalny kontekst wypowiedzi, i dostosowywał sposób ich przekazywania.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Twórz ludzkie głosy z naszym systemem Text to Speech (TTS), stworzonym do wysokiej jakości narracji, gier, wideo i dostępności. Ekspresyjne głosy, wsparcie wielojęzyczne i integracja z API ułatwiają skalowanie od projektów osobistych do firmowych workflow.