Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

Voice Design - Pierwsze Generatywne AI dla Audio

Pierwszy generatywny model do tworzenia syntetycznych głosów jest już dostępny

W zeszłym miesiącu ogłosiliśmy, że nasz generatywny model do tworzenia głosów nadchodzi. Jest już dostępny i to pierwszy taki model - nazywamy go Voice Design. Funkcja pozwala tworzyć nowe głosy od podstaw, wybierając ich podstawowe cechy jak płeć, wiek i akcent. Nawet przy tych samych ustawieniach, nasz model dodaje losowość za każdym razem, gdy generujesz, aby każdy głos był absolutnie unikalny. Voice Design to część naszych działań, by wyposażyć wydawców i twórców w najbardziej wszechstronne narzędzia AI do opowiadania historii.

Voice Design

Model stojący za Voice Design to w dużej mierze wynik naszych badań nad syntezą mowy i Voice Cloning, choć niezależnie zawsze podobał nam się pomysł generatywnego narzędzia do mowy. Widzieliśmy już praktyczne zastosowania dla generatywnego tekstu na obraz i chatbotów, ale brakowało podobnego narzędzia dla audio. Od naszego startu dostawaliśmy prośby o dodanie więcej głosów do naszej bazy. Zamiast przepełniać bibliotekę niezliczonymi głosami i zmuszać cię do przesłuchiwania każdej próbki, postanowiliśmy odwrócić sytuację i pozwolić ci określić tożsamość mówcy, jednocześnie umożliwiając nieskończoną różnorodność w tych ramach.

Dodanie kontroli nad wyborem głosu było ważne, ponieważ nasi użytkownicy często szukają konkretnych cech mowy do swoich scenariuszy. Zapewnienie, że każdy wygenerowany głos jest unikalny, było równie istotne, ponieważ wiele zastosowań wymaga, lub przynajmniej korzysta, z wyłącznego dostępu do głosu. Oprócz dostarczania użytkownikom nowego kreatywnego narzędzia, głosy generowane za pomocą Voice Design są całkowicie sztuczne i nie należą do żadnej prawdziwej osoby.

Zastosowania

Oprócz łatwego przekształcania tekstu w wysokiej jakości audio za pomocą naszego narzędzia Speech Synthesis, autorzy książek mogą teraz używać Voice Design, aby mieć artystyczną kontrolę nad narracją i kształtować osobowość każdej postaci za pomocą unikalnych głosów.

Wydawcy wiadomości wchodzący w audio potrzebują głosów do swoich historii. Ponieważ narratorzy są identyfikowani z publikacjami, które reprezentują, wybór odpowiedniego głosu staje się ważnym zadaniem, które nie jest często powtarzane. Voice Design pozwala wydawcom wybierać i porównywać praktycznie niezliczonych narratorów na miejscu. Daje im również pewność, że dany głos reprezentuje tylko ich.

Deweloperzy gier nie muszą już wybierać, czy dana postać uzasadnia koszty nagrań. Dziesiątki tysięcy wcześniej niemych NPC mogą teraz mieć unikalne osobowości, przesuwając granice wirtualnej immersji.

Niezależnie czy jesteś twórcą treści pracującym nad kolejnym projektem, czy pracownikiem korporacyjnym szukającym głosu do komunikacji firmowej, możliwości projektowania realistycznego, przekonującego audio dla konkretnych zastosowań i odbiorców są teraz nieograniczone.

Ekosystem

Voice Design to jedna z wielu funkcji do edycji narracji, które planujemy wprowadzić w tym roku. Następne jest Studio - nasze nowe stanowisko do strukturyzowania dużych tekstów, wstawiania pauz, regenerowania fragmentów audio i przypisywania części tekstu różnym mówcom. Studio pojawi się pod koniec marca i zostanie uzupełnione o wsparcie edycji intonacji w drugim kwartale tego roku.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI