Passer au contenu

Détecter l’audio généré par ElevenLabs avec SynthID

Rédigé par
Daniel Fletcher
Publié

ÉcouterÉcouter cet article

Il est important de savoir quand on interagit avec une IA. Avant, il était facile de repérer un contenu généré par IA – il sonnait de façon robotique ou montrait six doigts. Mais avec les récents progrès des modèles, cela devient beaucoup plus difficile à distinguer.

À mesure que nos modèles de voix, de musique et d’effets sonores progressent, nous voulons que chacun puisse identifier si un audio a été généré par une IA, sans outils spécialisés. C’est pourquoi nous collaborons avec Google DeepMind sur SynthID : un filigrane numérique intégré directement dans l’audio généré par ElevenLabs. Ces filigranes sont inaudibles pour l’oreille humaine et restent présents même si les extraits sont coupés, accélérés, dépourvus de métadonnées ou convertis dans un autre format. Cette semaine, nous avons commencé à intégrer SynthID dans les générations Text to Speech des utilisateurs gratuits, et nous étendrons cette couverture à tous les contenus audio ElevenLabs dans les prochaines semaines. Surtout, ces filigranes seront détectables grâce à notre nouveau Détecteur audio ElevenLabs

Renforcer la transparence et la responsabilité

Nous interdisons depuis toujours l’utilisation de nos outils pour tromper, manipuler ou harceler, et nos systèmes permettent déjà de remonter jusqu’à l’utilisateur à l’origine d’un contenu, afin d’agir si besoin. Le filigrane SynthID renforce notre engagement pour la transparence et la responsabilité, en permettant à chacun de vérifier la source d’un extrait audio.

Parfois, on veut simplement savoir si un contenu est généré par une IA. D’autres fois, il est important de savoir de quelle plateforme IA il provient. C’est pourquoi nous lançons aujourd’hui notre propre Détecteur audio ElevenLabs en ligne, qui permet à chacun de vérifier si un audio a été généré par ElevenLabs. Cela complète notre Classificateur de discours IA, mais utilise SynthID pour intégrer l’attribution directement dans l’audio de façon plus robuste. Ce mécanisme est essentiel pour garantir notre responsabilité publique concernant la puissance de notre technologie, et pour agir si quelqu’un parvient à contourner nos mesures de sécurité et à créer des deepfakes convaincants.

De plus en plus de juridictions exigent que les contenus générés par IA soient signalés comme synthétiques dans un format lisible par machine. Le filigrane SynthID complète notre écosystème existant de provenance et d’outils de conformité, qui inclut aussi les identifiants C2PA. Nous sommes également enthousiastes à l’idée d’ajouter SynthID à la liste des soft bindings C2PA afin que l’audio privé de ses identifiants puisse les retrouver.

Une solution de filigrane de haute qualité

SynthID fonctionne en cachant un motif sonore dans les extraits audio. Ce motif est inaudible pour l’oreille humaine mais détectable par notre Détecteur audio ElevenLabs. Chaque fichier audio reçoit son propre motif unique, qui résiste aux transformations courantes comme la compression, la coupe ou le changement de vitesse.

SynthID a obtenu de très bons résultats lors de nos tests et répond à toutes nos exigences techniques :

  • Aucune latence supplémentaire sur le temps de première réponse (TTFB)
  • Taux de détection élevé avec un faible taux de faux positifs
  • Résistant à la coupe et aux transformations courantes en ligne
  • Inaudible pour l’oreille humaine, sans dégradation de la qualité sonore
  • Impossible à copier sur un audio non généré par ElevenLabs

Nous avons hâte de continuer à collaborer avec l’équipe SynthID de Google DeepMind pour faire avancer le filigrane audio de pointe.

La suite

Le filigrane vise avant tout la transparence et la responsabilité, mais il ouvre aussi de nouvelles possibilités. Il existe déjà un marché établi pour les identifiants numériques de contenu : les studios les utilisent pour protéger leur propriété intellectuelle, et les créateurs pour s’assurer d’être rémunérés quand leur travail est réutilisé. À l’avenir, les filigranes pourraient permettre aux créateurs et ayants droit d’intégrer leurs propres métadonnées dans le contenu, afin de détecter et d’agir sur la redistribution de contenus protégés sur des plateformes comme YouTube, Instagram ou TikTok.

Le filigrane fait partie de notre engagement global pour la transparence. À mesure que nos modèles deviennent plus puissants et réalistes, notre infrastructure de responsabilité doit suivre. Plus nous pouvons tous attribuer un contenu à sa source, plus notre écosystème d’information sera digne de confiance.

Articles similaires

Créez avec l'audio IA de la plus haute qualité