Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

ElevenLabs pozyskuje 2 mln USD i ogłasza platformę AI Speech, która ma zrewolucjonizować opowiadanie audio

Firma otwiera dostęp do platformy Beta, która pozwala twórcom i wydawcom na narrację długich treści

  • ElevenLabs uruchamia platformę Beta, umożliwiając twórcom i wydawcom narrację długich treści
  • Runda finansowania pre-seed była prowadzona przez Credo Ventures, z udziałem Concept Ventures i indywidualnych inwestorów
  • Kapitał zasili badania i rozwój AI dubbingu, planowanego na późniejszy okres tego roku


2023-01-23, Londyn, UK | ElevenLabs, startup technologii głosu AI, buduje narzędzia do syntezy mowy, dążąc do natychmiastowego przekształcania mowy między językami. Dziś ogłosili uruchomienie platformy Beta po zebraniu 2 milionów dolarów w rundzie finansowania pre-seed prowadzonej przez Credo Ventures, z udziałem Concept Ventures i innych inwestorów indywidualnych.

Platforma firmy pozwala twórcom i wydawcom narrację długich treści i rozszerzenie ich na format audio. Jej funkcje są napędzane przez opracowany wewnętrznie model głębokiego uczenia do syntezy mowy, który realistycznie oddaje ludzką intonację i modulacje, oraz może dostosowywać sposób przekazu w zależności od kontekstu. ElevenLabs oferuje również zestaw narzędzi do klonowania głosu i projektowania syntetycznych głosów, mający na celu dostarczenie użytkownikom nowych możliwości twórczych. Firma współpracuje obecnie z wybranymi wydawcami nad dedykowanym stanowiskiem do edycji nałożonego głosu, które zostanie dodane do platformy na początku lutego. ElevenLabs dąży do tego, by stać się pierwszym narratorem AI, zapewniającym jakość niezbędną do nagrywania wiadomości i audiobooków na dużą skalę.

Postępy w możliwościach wymagają innowacji, dlatego ElevenLabs uważa się przede wszystkim za firmę badawczą. Większość dotychczasowych badań skupiała się na opracowywaniu nowych modeli zamiany tekstu na mowę które opierają się na wysokiej kompresji i zrozumieniu kontekstu, aby ultra-realistycznie oddać ludzką mowę. Firma stworzyła również nowy model klonowania głosu, który osiąga wysokie podobieństwo wyjściowe bez treningu (bez dostrajania), na próbkach o długości zaledwie 5 sekund - co wcześniej było niespotykane. Deweloperzy mogą uzyskać dostęp do wszystkich tych funkcji przez API.

Te badania napędzają obecne funkcje platformy, ale także przyczyniają się do realizacji ostatecznego celu firmy, jakim jest natychmiastowe przekształcanie mowy między językami. Ich narzędzie AI dubbing, planowane na późniejszy okres tego roku, pozwoli użytkownikom automatycznie ponownie nagrać dowolne audio lub wideo w innym języku, zachowując jednocześnie głos oryginalnego mówcy. ElevenLabs początkowo ma nadzieję przyciągnąć klientów z sektora edukacji, a długoterminowym celem jest uczynienie wsparcia audio w wielu językach na żądanie rzeczywistością w streamingu, audiobookach, grach, filmach, a nawet w rozmowach w czasie rzeczywistym.

Narzędzia do syntezy mowy i dubbingu firmy są tak samo komplementarne, jak i dobrze wyważone w czasie: oba obiecują dotrzeć z audio i wideo do szerszej publiczności i oba pojawiają się w momencie, gdy przestrzeń audio przeżywa rozkwit. Wczesna grupa testerów, w tym twórcy YouTube, wydawcy i deweloperzy, już codziennie korzysta z platformy do nagrywania wideo, opowieści i postaci, a firma spodziewa się, że sfera potencjalnych zastosowań dla generatywnej mowy będzie się tylko rozszerzać. Wydawcy wiadomości już odkryli, że rozwijanie obecności audio to świetny sposób na angażowanie i utrzymywanie subskrybentów. Jednak zatrudnianie aktorów głosowych jest kosztowne, podobnie jak czytanie przez reporterów ich opowieści. Autorzy książek i newsletterów, a nawet twórcy gier, stają przed podobnymi wyzwaniami: ci pierwsi coraz częściej decydują się na narrację własnych dzieł, a ci drudzy muszą zdecydować, czy dana postać uzasadnia koszty nagrania. Ci, którzy korzystają z istniejącego oprogramowania do zamiany tekstu na mowę, oszczędzają pieniądze, ale płacą inną cenę, rezygnując z jakości. ElevenLabs podkreśla, że nie ma już potrzeby kompromisów, gdy przygotowują się do wyposażenia twórców i wydawców w najbardziej zaawansowane i wszechstronne narzędzia do opowiadania historii AI.

„Platforma, którą teraz uruchamiamy, polega na przekształcaniu tekstu w najwyższej jakości mowę. Chcemy, aby ludzie mogli cieszyć się ulubioną książką lub newsletterem, dając głos wszystkim autorom, twórcom i deweloperom, którzy nie mogli sobie na to pozwolić” - mówi Mati Staniszewski, współzałożyciel. „Naszym ostatecznym celem jest umożliwienie ludziom cieszenia się dowolnymi treściami, które uznają za istotne i interesujące, niezależnie od języka, którym się posługują” - dodaje Piotr Dąbkowski, również współzałożyciel.

W Credo Ventures dążymy do współpracy z inteligentnymi i ambitnymi założycielami z regionu CEE. Zobaczyliśmy głód i iskrę w oczach Matiego i Piotra na naszym pierwszym spotkaniu. Kilka miesięcy później stają się centrum badawczym technologii mowy na poziomie OpenAI, pokonując największe wyzwania w sztucznym audio. Ich zsyntetyzowane głosy są już nie do odróżnienia od prawdziwych, a ten przełom nie tylko znacznie obniżył bariery w generowaniu treści o niespotykanej jakości i wierności, ale wkrótce pozwoli twórcom radykalnie rozszerzyć swoją publiczność, stając się wielojęzycznymi. – mówi Maciek Gnutek, General Partner w Credo Ventures.

Pomimo że audio jest powszechne zarówno w rozrywce, jak i biznesie, zostało stosunkowo zaniedbane przez ostatnie postępy w badaniach. Nie możemy być bardziej podekscytowani wspieraniem Matiego i Piotra w tej złotej erze dla generatywnej AI i wierzymy, że ElevenLabs to zespół, który wprowadzi tę technologię do mas, głos po głosie - mówi Oliver Kicks, Principal w Concept Ventures.

O ElevenLabs:
ElevenLabs to firma badawcza rozwijająca oprogramowanie do syntezy głosu AI dla twórców i wydawców. Narzędzia firmy oddają niezwykle realistyczną mowę i mogą dostosowywać intonację i modulacje w zależności od kontekstu lub instrukcji użytkownika. Platforma firmy dąży do zapewnienia niezbędnej jakości i wszechstronności, aby stać się kompleksowym rozwiązaniem do nagrywania wiadomości, newsletterów, książek i wideo. Kluczowe funkcje to: generowanie mowy na podstawie tekstu, klonowanie głosu, projektowanie głosu i, wkrótce, przepływ pracy dla edycji narracji. ElevenLabs zostało założone w 2022 roku przez Piotra, byłego inżyniera uczenia maszynowego w Google, i Matiego, byłego stratega wdrożeń w Palantir. Długoterminowym celem firmy jest uczynienie treści mówionych powszechnie dostępnymi w dowolnym języku i głosie.

Kapitał venture dostarczony przez Credo Ventures i Concept Ventures. Inwestorzy indywidualni to Peter Czaban, Tytus Cytowski, Talfan Evans, Dr Fatima Godall, Tomasz Karwatka, Piotr Karwatka, Akhil Paul, Bartek Pucek, Marta Pyrzyk, Carles Reina, Parin Shah, Charlie Songhurst i Harry Songhurst.

Kontakt
press@elevenlabs.io

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI