Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

Speech to speech i aktualizacja produktu

Powiedz to, jak chcesz!

A microphone on a wooden table in a recording studio with audio equipment in the background.

Dodaliśmy Speech to Speech (STS) do Speech Synthesis. STS to narzędzie do konwersji głosu, które pozwala zmienić nagranie jednego głosu, aby brzmiało jak inny. Pozwala kontrolować emocje, ton i wymowę poza tym, co możliwe z TTS samymi podpowiedziami. Użyj go, aby wydobyć więcej emocji z konkretnego głosu lub jako odniesienie 'powiedz to, jak chcesz'.

W innych aktualizacjach zmieniamy nasze gotowe głosy. Wprowadziliśmy też wiele usprawnień do Projects, w tym normalizację, słownik wymowy i więcej opcji personalizacji.

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Wybierz inną postać i kontroluj jej sposób mówienia

Speech to speech

STS bierze treść i styl mowy z twojego nagrania i zmienia głos. Pomyśl o STS jako przydatnym głównie do dwóch rzeczy.

Jedna to wydobycie więcej emocji z konkretnego gotowego głosu. Prześlij/ nagraj bardzo ekspresyjną mowę, a STS odtworzy emocje i intonację w innym głosie. Ponieważ nie wszystkie głosy mogą wyrażać silne emocje tylko za pomocą TTS samych podpowiedzi, teraz możesz sprawić, że profesjonalny narrator lub postać z książki dla dzieci będą bardziej ekspresyjni z twoim własnym głosem.

Inne zastosowanie STS to dostarczanie 'odniesienia' dla sposobu wypowiedzi. Chociaż nasze TTS zazwyczaj trafia w intonację od razu, czasami możesz chcieć ją dopracować. Tutaj STS pozwala ci pokazać, jak zintonować konkretną frazę, a następnie wybrany głos powie to w ten sposób. Ta funkcjonalność stanie się bardziej użyteczna i uproszczona, gdy zintegrowujemy STS bezpośrednio z Projects, ale naszym celem jest radykalne poprawienie twojej zdolności do precyzyjnej edycji wyników.

Obejrzyj wideo stworzone przez jednego z członków naszej społeczności:

Badania

Aby przekształcić mowę źródłową w docelową, musimy wyrazić treść mowy źródłowej z cechami mowy docelowej. Dobrym porównaniem są aplikacje do zamiany twarzy, które pozwalają mieszać twoją twarz z czyjąś inną, tworząc obraz obu jako jednego.

Sposobem na to jest wzięcie obrazu twarzy i mapowanie jej atrybutów. Markery w poniższym przykładzie robią właśnie to: są granicami, w których zostanie wyrenderowana inna twarz.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Sztuczka w konwersji głosu polega na renderowaniu treści mowy źródłowej za pomocą fonemów mowy docelowej. Ale jest tu kompromis, podobnie jak w przykładzie zamiany twarzy: im więcej markerów używasz do mapowania atrybutów jednej twarzy, tym więcej ograniczeń nakładasz na twarz, którą mapujesz wewnątrz nich. Mniej markerów oznacza mniej ograniczeń.

To samo dotyczy konwersji głosu. Im więcej preferencji dajemy mowie docelowej, tym bardziej ryzykujemy, że nie będziemy zsynchronizowani z mową źródłową. Ale jeśli nie damy jej wystarczającej preferencji, ryzykujemy utratę tego, co czyni tę mowę charakterystyczną. Na przykład, jeśli mielibyśmy wyrenderować nagranie kogoś krzyczącego ze złością w szeptanym głosie, mielibyśmy problem. Daj zbyt dużo preferencji emocjom mowy źródłowej, a ceną, jaką płacimy, jest utrata wrażenia, że to szeptany głos mówi. Zbyt duży nacisk na wzorzec szeptanej mowy i tracimy ładunek emocjonalny mowy źródłowej.

Produkt i ostatnie aktualizacje

Zmiany w gotowych głosach

Wprowadzimy zmiany w domyślnych głosach dostępnych w Speech Synthesis w tym tygodniu. Przestaniemy wspierać kilka głosów, ale zastąpimy je nowymi. Planujemy dodać ponad 20 w nadchodzących tygodniach.

Zaczniemy także dostarczać informacje w UI, jak długo każdy głos będzie dostępny. Wreszcie, przez cały grudzień będziemy pracować nad odświeżeniem funkcji udostępniania głosów i rekompensaty za ich użycie, aby jeszcze bardziej zwiększyć różnorodność głosów. Więcej szczegółów wkrótce.

Eleven Turbo v2 i format uLaw 8khz

Nasz model Turbo zawiera miesiące badań naszego zespołu technicznego. Jest zaprojektowany do interakcji w czasie rzeczywistym, ale można go używać do wszystkiego, co chcesz. Posiada także standardowy format (m)uLaw 8kHz dla systemów IVR.

Normalizacja i metadane w Projects

Teraz możesz przestrzegać wytycznych dotyczących przesyłania audiobooków zgodnych z branżowymi standardami w Projects. Obejmuje to dostosowanie wzmocnienia i zastosowanie kompresji dynamicznej. Dodatkowo, teraz istnieje opcja osadzania metadanych w twoich Projects (ISBN, autor i tytuł).

Dziennik wymowy

Dodanie Słownika Wymowy było jedną z naszych najczęściej zgłaszanych funkcji. W zeszłym miesiącu wdrożyliśmy dodanie tagów SSML do określania wymowy za pomocą słowników IPA i CMU dla naszych modeli angielskich. Teraz udostępniliśmy wsparcie dla słownika wymowy w naszym UI Projects, pozwalając na przesłanie pliku określającego wymowę za pomocą IPA, CMU lub zamienników słów. Pliki słownika są przesyłane przy użyciu standardu branżowego i otwartego formatu .PLS format pliku leksykonu.

Na razie IPA i CMU są wspierane przez Turbo V2 English, a zamienniki słów (aliasy) są wspierane przez wszystkie modele i języki. Pełna dokumentacja jest dostępna tutaj.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary
A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Wybierz inną postać i kontroluj jej sposób mówienia

Jeśli masz jakieś uwagi, nie wahaj się skontaktować z nami na Discordzie!

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI