Pierwsza platforma do długich form mowy dla wydawców i twórców

17 paź 2022 • 3 minut czytania

Pierwsza platforma do generowania długich form mowy wysokiej jakości

W listopadzie uruchamiamy pierwszą platformę syntezy mowy, która pozwala wydawcom i twórcom generować wysokiej jakości, emocjonalnie angażujące treści długiego formatu.

Dla kogo to jest?

Wybraliśmy ten kierunek z kilku powodów. Obecnie nie ma narzędzia, które wspiera generowanie długiej mowy w wystarczająco wysokiej jakości, aby nadawała się do czytania wiadomości czy audiobooków. Nasz zespół to zapaleni słuchacze wszystkiego, co audio, i uznaliśmy, że sprostanie wyzwaniom związanym z dłuższymi treściami to naturalny krok w realizacji naszych ambicji. Ale jesteśmy też szczególnie podekscytowani, że możemy to uznać za naszą wyróżniającą cechę - jesteśmy pierwszą platformą AI do syntezy mowy, która oferuje najbardziej emocjonalne, bogate i realistyczne głosy dla twórców i wydawców poszukujących najwyższej jakości opowiadania historii.

Nasza platforma pozwala generować i pobierać wysokiej jakości mowę na poziomie aktora głosowego z dowolnego tekstu - czy to artykuły prasowe, książki, newslettery, blogi czy prace naukowe. Możesz wybrać dowolny głos do czytania treści - z zestawu zdefiniowanych syntetycznych głosów lub klonując głos z próbki, którą dostarczysz. Zastosowania naszej technologii są nieograniczone. Od udostępniania istniejących treści w różnych mediach, przez zwiększanie produktywności, po ożywianie tekstów z przeszłości poprzez konwersję na audio lub tworzenie nowych treści. Naszym kolejnym celem jest rozszerzenie wsparcia na inne języki.

Czym Eleven się wyróżnia?

Jak to osiągamy, zależy od sposobu, w jaki zbudowaliśmy nasz model. Jest on szkolony, aby rozumieć co jest mówione i dostosowywać sposób przekazu. Robi to, biorąc pod uwagę nie tylko znaczenie słów, ale także kontekst każdej wypowiedzi.

Tradycyjne algorytmy generowania mowy produkują wypowiedzi zdanie po zdaniu. Jest to mniej wymagające obliczeniowo, ale od razu brzmi robotycznie. Emocje i intonacja często muszą rozciągać się i rezonować przez kilka zdań, aby połączyć określony tok myślenia. Ton i tempo przekazują intencję, co sprawia, że mowa brzmi ludzko. Zamiast generować każdą wypowiedź osobno, nasz model uwzględnia otaczający kontekst, utrzymując odpowiedni przepływ i prozodię w całym generowanym materiale. Ta emocjonalna głębia, połączona z doskonałą jakością dźwięku, zapewnia użytkownikom najbardziej autentyczne i angażujące narzędzie narracyjne.

Zostań naszym beta-testerem

Nasza platforma rusza w przyszłym miesiącu i możesz zarejestrować się jako nasz beta-tester już dziś na elevenlabs.io

audiostory.ai

Jeśli jesteś ciekawy, jak działa nasze oprogramowanie, przejdź do audiostory.ai - projektu pobocznego Eleven Labs, mającego na celu pokazanie naszych możliwości generowania mowy długiego formatu, gdzie używamy naszych syntetycznych głosów do czytania artykułów prasowych i książek z przeszłości. Pierwszy odcinek to artykuł z 1899 roku z The New York Times o wynalezieniu radia - posłuchaj go tutaj. Lub, jeśli jeszcze tego nie zrobiłeś, możesz przejść na górę tej strony i posłuchać tego wpisu na głos.

Przeglądaj artykuły zespołu ElevenLabs

Developer

A bento grid of ui components with the text "Ship agent interfaces faster with ElevenLabs UI"

Developer

Introducing ElevenLabs UI: Open-source audio & agent components for the web

ElevenLabs UI is a component library to help you build multimodal agents faster.

Agents Platform Stories

Sharpen deploys AI voice agents with ElevenLabs

A CCaaS platform now powered by native conversational AI

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się

Napędzane przez ElevenLabs Agenci