Pomiń

Wykrywanie audio wygenerowanego przez ElevenLabs dzięki SynthID

Opublikowano
Ostatnia aktualizacja

PosłuchajPosłuchaj tego artykułu

Ludzie powinni wiedzieć, kiedy mają do czynienia z AI. Kiedyś treści tworzone przez AI łatwo było rozpoznać – brzmiały sztucznie albo miały sześć palców. Teraz, gdy modele są coraz lepsze, jest to dużo trudniejsze.

Ponieważ nasze modele głosu, muzyki i efektów dźwiękowych się rozwijają, chcemy, żeby każdy mógł rozpoznać, czy audio zostało wygenerowane przez AI, bez specjalistycznych narzędzi. Dlatego współpracujemy z Google DeepMind nad SynthID: cyfrowy znak wodny osadzony bezpośrednio w dźwięku generowanym przez ElevenLabs. Jest niesłyszalny dla ludzi i zostaje nawet po przycięciu, przyspieszeniu, usunięciu metadanych czy zmianie formatu pliku. W tym tygodniu zaczęliśmy dodawać SynthID do Text to Speech generowanego przez darmowych użytkowników. Wkrótce obejmiemy nim wszystkie nagrania audio z ElevenLabs. Co ważne, te znaki wodne wykryjesz naszym nowym, darmowym narzędziem

Większa przejrzystość i odpowiedzialność

Od zawsze zabranialiśmy używania naszych narzędzi do oszukiwania, manipulowania czy nękania innych. Nasze systemy już pozwalają powiązać treści z użytkownikiem, który je wygenerował, byśmy mogli odpowiednio zareagować. Znakowanie SynthID to kolejny krok w stronę przejrzystości i odpowiedzialności – pozwala każdemu sprawdzić źródło klipu audio.

Czasem ktoś po prostu chce wiedzieć, czy treść powstała dzięki AI. Innym razem ważne jest, z jakiej platformy AI pochodzi. Dlatego dziś uruchamiamy nasze darmowe narzędzie Detektor audio ElevenLabs, które pozwala sprawdzić, czy audio zostało wygenerowane przez ElevenLabs. To rozwinięcie naszego Klasyfikator mowy AI, ale z SynthID, który jeszcze lepiej osadza informację o pochodzeniu bezpośrednio w audio. To ważne, byśmy mogli publicznie odpowiadać za naszą technologię i reagować, jeśli ktoś obejdzie nasze zabezpieczenia i stworzy przekonujące deepfake’i.

Coraz więcej krajów wymaga, by treści generowane przez AI były oznaczone jako syntetyczne w formacie czytelnym dla maszyn. Znakowanie SynthID uzupełnia nasz ekosystem narzędzi do potwierdzania pochodzenia i zgodności, w tym także poświadczenia C2PA. Cieszymy się też na możliwość dodania SynthID do listy soft bindings C2PA, by audio pozbawione poświadczeń mogło je odzyskać.

Wysokiej jakości znakowanie audio

SynthID działa, ukrywając wzór dźwięku w klipach audio. Wzór jest niesłyszalny dla człowieka, ale wykrywalny przez ElevenLabs Audio Detector. Każdy plik audio ma swój unikalny wzór, który przetrwa typowe zmiany jak kompresja, przycinanie czy zmiana tempa.

SynthID dobrze wypadł w naszych testach i spełnił wszystkie wymagania techniczne:

  • Brak dodatkowego opóźnienia TTFB
  • Wysoka wykrywalność i mało fałszywych alarmów
  • Odporny na przycinanie i inne typowe zmiany w internecie
  • Niesłyszalny dla człowieka, bez pogorszenia jakości dźwięku
  • Nie da się go skopiować na audio, którego nie wygenerowało ElevenLabs

Chcemy dalej współpracować z zespołem SynthID w Google DeepMind, by rozwijać znakowanie audio na najwyższym poziomie.

Co dalej

Znakowanie to przede wszystkim przejrzystość i odpowiedzialność, ale daje też nowe możliwości produktowe. Już teraz istnieje rynek cyfrowych poświadczeń – studia chronią w ten sposób własność intelektualną, a twórcy mają pewność, że dostaną wynagrodzenie, gdy ich prace są wykorzystywane ponownie. W przyszłości znaki wodne mogą pozwolić twórcom i właścicielom praw do treści na osadzanie własnych metadanych bezpośrednio w plikach, by łatwiej wykrywać i reagować na naruszenia praw autorskich na platformach takich jak YouTube, Instagram czy TikTok.

Znakowanie to tylko część naszego podejścia do przejrzystości. Im bardziej nasze modele przypominają prawdziwy głos, tym ważniejsze są narzędzia do rozliczalności. Im łatwiej przypisać treść do źródła, tym bardziej możemy ufać informacjom w sieci.

Podobne artykuły

Twórz z najwyższej jakości audio AI