Gå till innehåll

Upptäck ljud genererat av ElevenLabs med SynthID

Skriven av
Daniel Fletcher
Publicerad

LyssnaLyssna på den här artikeln

Folk ska veta när de interagerar med AI. Tidigare var AI-genererat innehåll lätt att känna igen – det lät robotaktigt eller hade sex fingrar. Men med de senaste förbättringarna i modellerna är det mycket svårare att avgöra.

När våra modeller för röst, musik och ljudeffekter blir bättre vill vi att alla ska kunna avgöra om ljudet är AI-genererat, utan att behöva specialverktyg. Därför samarbetar vi med Google DeepMind kring SynthID: ett digitalt vattenmärke som bäddas in direkt i ljud som genereras av ElevenLabs. Dessa vattenmärken hörs inte av människor och finns kvar även om klippen klipps, snabbspolas, metadata tas bort eller filtypen ändras. Den här veckan har vi börjat lägga till SynthID i Text to Speech för gratisanvändare, och vi kommer att utöka det till allt ljud från ElevenLabs de kommande veckorna. Viktigt är att dessa vattenmärken kan upptäckas med vårt nya kostnadsfria ElevenLabs Audio Detector

Ökad transparens och ansvarstagande

Vi har länge förbjudit att våra verktyg används för att lura, manipulera eller trakassera, och våra system är redan byggda för att kunna spåra innehåll till den användare som skapade det, så att vi kan agera vid behov. Vattenmärkning med SynthID stärker vårt löfte om transparens och ansvar genom att göra det möjligt för allmänheten att verifiera ursprunget till ett ljudklipp.

I vissa fall vill folk bara veta om innehållet är AI-genererat eller inte. I andra fall är det viktigt att veta vilken AI-plattform det kommer från. Därför lanserar vi idag vår egen kostnadsfria ElevenLabs Audio Detector webbsida där du kan kontrollera om ljudet är genererat av ElevenLabs. Det bygger vidare på vår befintliga AI Speech Classifier, men använder SynthID för att ännu tydligare märka ljudet direkt. Den här metoden är viktig för att vi ska kunna hållas ansvariga för vår teknik och agera om någon lyckas kringgå våra omfattande säkerhetsåtgärder och skapa övertygande deepfakes.

Allt fler länder kräver att AI-genererat innehåll märks som syntetiskt i ett maskinläsbart format. Vattenmärkning med SynthID kompletterar vårt befintliga ekosystem för ursprungsmärkning och efterlevnad och inkluderar även C2PA-uppgifter. Vi ser också fram emot möjligheten att lägga till SynthID på C2PA soft bindings-listan så att ljud som förlorat sina innehållsintyg kan få dem tillbaka.

Vattenmärkning med hög kvalitet

SynthID fungerar genom att gömma ett ljudmönster i ljudklipp. Mönstret hörs inte av människor men kan upptäckas av vår ElevenLabs Audio Detector. Varje ljudfil får sitt eget unika mönster, och dessa mönster överlever vanliga ljudförändringar som komprimering, klippning och ändrad hastighet.

SynthID presterade bra i våra tester och uppfyllde alla våra tekniska krav:

  • Ingen extra fördröjning till första byte (TTFB)
  • Hög upptäcktsgrad med låg andel falska positiva
  • Tålig mot klippning och andra vanliga förändringar online
  • Ohörbart för människor, utan försämrad ljudkvalitet
  • Kan inte kopieras till ljud som inte är genererat av ElevenLabs

Vi ser fram emot fortsatt samarbete med SynthID-teamet på Google DeepMind för att utveckla den senaste tekniken inom ljudvattenmärkning.

Vad händer härnäst

Vattenmärkning handlar främst om transparens och ansvar, men möjliggör också nya funktioner. Det finns redan en etablerad marknad för digitala innehållsintyg – studior använder dem för att skydda immateriella rättigheter, och enskilda skapare använder dem för att säkerställa att de får betalt när deras verk återanvänds. I framtiden kan vattenmärken göra det möjligt för skapare och rättighetsinnehavare att bädda in egen metadata direkt i innehållet, så att de kan upptäcka och agera på upphovsrättsskyddat material som sprids på plattformar som YouTube, Instagram och TikTok.

Vattenmärkning är en del av vårt bredare åtagande för transparens. När våra modeller blir kraftfullare och mer verklighetstrogna behöver vårt ansvarstagande hänga med. Ju mer vi kan spåra innehåll till dess källa, desto mer pålitlig blir vår gemensamma informationsmiljö.

Liknande artiklar

Skapa med AI-ljud av högsta kvalitet