Salta al contenuto

Rilevare audio generato da ElevenLabs con SynthID

Scritto da
Daniel Fletcher
Pubblicato

AscoltaAscolta questo articolo

Le persone dovrebbero sapere quando stanno interagendo con l’IA. In passato, i contenuti generati dall’IA erano facili da riconoscere: suonavano robotici o avevano dettagli strani come sei dita. Ma con i recenti miglioramenti dei modelli, è diventato molto più difficile accorgersene.

Man mano che i nostri modelli per voce, musica ed effetti sonori migliorano, vogliamo che chiunque possa capire se un audio è stato generato dall’IA senza strumenti specializzati. Per questo collaboriamo con Google DeepMind su SynthID: un watermark digitale integrato direttamente nell’audio generato da ElevenLabs. Questi watermark sono impercettibili all’orecchio umano e restano anche se i clip vengono tagliati, velocizzati, privati dei metadati o convertiti in altri formati. Da questa settimana, abbiamo iniziato a includere SynthID nelle generazioni Text to Speech degli utenti free e nelle prossime settimane estenderemo la copertura a tutti gli audio generati con ElevenLabs. È importante sottolineare che questi watermark saranno rilevabili tramite il nostro nuovo Rilevatore Audio ElevenLabs

Più trasparenza e responsabilità

Abbiamo sempre vietato l’uso dei nostri strumenti per ingannare, manipolare o molestare le persone, e i nostri sistemi sono già progettati per risalire all’utente che ha generato un contenuto, così da poter intervenire se necessario. Il watermarking con SynthID rafforza il nostro impegno verso la trasparenza e la responsabilità, permettendo a chiunque di verificare la provenienza di un audio.

In alcuni casi, le persone vorranno semplicemente sapere se un contenuto è stato generato dall’IA. In altri, sarà importante capire da quale piattaforma IA proviene. Per questo oggi lanciamo il nostro Rilevatore Audio ElevenLabs, una pagina web gratuita che permette di verificare se un audio è stato generato da ElevenLabs. Si basa sul nostro Classificatore di Parlato IA, ma utilizza SynthID per integrare l’attribuzione direttamente nell’audio in modo ancora più robusto. Questo meccanismo è fondamentale per garantire la nostra responsabilità pubblica sull’uso della tecnologia e per poter agire se qualcuno dovesse aggirare le nostre misure di sicurezza e creare deepfake convincenti.

Un numero crescente di giurisdizioni richiede che i contenuti generati dall’IA siano contrassegnati come sintetici in un formato leggibile dalle macchine. Il watermarking con SynthID si integra con il nostro ecosistema di strumenti per la provenienza e la conformità normativa, che include anche le credenziali C2PA. Siamo inoltre entusiasti della possibilità di aggiungere SynthID alla Elenco dei soft binding C2PA così che l’audio privato delle sue credenziali possa riottenerle.

Soluzione di watermarking di alta qualità

SynthID funziona nascondendo un pattern sonoro nei clip audio. Questo pattern è impercettibile all’orecchio umano ma rilevabile dal nostro ElevenLabs Audio Detector. Ogni file audio ha un pattern unico, che resiste alle trasformazioni audio più comuni come compressione, tagli e variazioni di velocità.

SynthID ha ottenuto ottimi risultati nei nostri benchmark e ha soddisfatto tutti i nostri requisiti tecnici:

  • Nessun aumento della latenza time to first byte (TTFB)
  • Alta percentuale di rilevamento con basso tasso di falsi positivi
  • Resistente a tagli e altre trasformazioni comuni online
  • Impercepibile all’orecchio umano, senza degradazione della qualità audio
  • Non può essere copiato su audio non generato da ElevenLabs

Non vediamo l’ora di continuare a collaborare con il team SynthID di Google DeepMind per portare avanti lo stato dell’arte nel watermarking audio.

Cosa succede ora

Il watermarking serve soprattutto a garantire trasparenza e responsabilità, ma apre anche nuove possibilità per i prodotti. Esiste già un mercato consolidato per le credenziali digitali dei contenuti: gli studi le usano per proteggere la proprietà intellettuale e i creatori per assicurarsi di essere pagati quando il loro lavoro viene riutilizzato. In futuro, i watermark potrebbero permettere a creatori e titolari di diritti di integrare i propri metadati direttamente nei contenuti, così da rilevare e intervenire su materiale protetto da copyright che viene redistribuito su piattaforme come YouTube, Instagram e TikTok.

Il watermarking è solo una parte del nostro impegno più ampio per la trasparenza. Man mano che i nostri modelli diventano più potenti e realistici, anche la nostra infrastruttura di responsabilità deve evolversi. Più riusciamo ad attribuire i contenuti alla loro fonte, più il nostro ecosistema informativo sarà affidabile.

Articoli simili

Crea con l'audio IA della massima qualità