Pular para o conteúdo

Detectando áudio gerado pela ElevenLabs com SynthID

Escrito por
Daniel Fletcher
Publicado

OuvirOuça este artigo

As pessoas devem saber quando estão interagindo com IA. Antes, era fácil perceber quando um conteúdo era gerado por IA – soava robótico ou tinha seis dedos. Mas, com os avanços recentes dos modelos, está cada vez mais difícil identificar.

À medida que nossos modelos de voz, música e efeitos sonoros evoluem, queremos que qualquer pessoa consiga identificar se um áudio foi criado com IA, sem precisar de ferramentas especializadas. Por isso, estamos trabalhando junto com o Google DeepMind no SynthID: uma marca d’água digital inserida diretamente no áudio gerado pela ElevenLabs. Essas marcas d’água são imperceptíveis para as pessoas e permanecem mesmo quando o áudio é cortado, acelerado, perde metadados ou é convertido para outro formato. Nesta semana, começamos a incluir o SynthID nas gerações de Transformar Texto em Áudio para usuários gratuitos e, nas próximas semanas, vamos expandir para todo o áudio criado pela ElevenLabs. O mais importante: essas marcas d’água podem ser detectadas com nosso novo Detector de Áudio ElevenLabs

Mais transparência e responsabilidade

Sempre proibimos o uso das nossas ferramentas para enganar, manipular ou assediar pessoas, e nossos sistemas já permitem rastrear o conteúdo até o usuário que o criou, para que possamos agir quando necessário. A marca d’água com SynthID reforça nosso compromisso com transparência e responsabilidade, permitindo que qualquer pessoa verifique a origem de um áudio.

Em alguns casos, as pessoas só querem saber se o conteúdo foi criado por IA. Em outros, é importante entender de qual plataforma de IA ele veio. Por isso, estamos lançando hoje nosso próprio Detector de Áudio ElevenLabs, uma página onde qualquer pessoa pode verificar se um áudio foi gerado pela ElevenLabs. Isso complementa nosso Classificador de Voz IA, mas usa o SynthID para inserir a atribuição de forma ainda mais robusta diretamente no áudio. Esse mecanismo é importante para garantir nossa responsabilidade pública pelo uso da tecnologia e para que possamos agir caso alguém consiga burlar nossas medidas de segurança e criar deepfakes convincentes.

Cada vez mais países exigem que conteúdos criados por IA sejam marcados como sintéticos em um formato legível por máquinas. A marca d’água com SynthID complementa nosso ecossistema de procedência e conformidade, que também inclui credenciais C2PA. Também estamos animados com a possibilidade de adicionar o SynthID à lista de soft bindings do C2PA, permitindo que áudios que perderam suas credenciais possam recuperá-las.

Solução de marca d’água de alta qualidade

O SynthID funciona escondendo um padrão sonoro nos áudios. Esse padrão é imperceptível ao ouvido humano, mas pode ser detectado pelo nosso Detector de Áudio ElevenLabs. Cada arquivo de áudio recebe um padrão único, que resiste a transformações comuns como compressão, cortes e mudanças de velocidade.

O SynthID teve ótimo desempenho nos nossos testes e atendeu todos os requisitos técnicos:

  • Sem aumento na latência do tempo até o primeiro byte (TTFB)
  • Alta taxa de detecção e baixo índice de falsos positivos
  • Resistente a cortes e outras transformações comuns na internet
  • Imperceptível ao ouvido humano, sem perda de qualidade sonora
  • Não pode ser copiado para áudios que não foram gerados pela ElevenLabs

Seguimos colaborando com a equipe do SynthID no Google DeepMind para avançar o estado da arte em marcação de áudio.

O que vem por aí

A marca d’água é, antes de tudo, uma questão de transparência e responsabilidade, mas também abre portas para novas possibilidades nos produtos. Já existe um mercado consolidado para credenciais digitais de conteúdo – estúdios usam para proteger propriedade intelectual e criadores individuais usam para garantir que sejam remunerados quando seu trabalho é reutilizado. No futuro, as marcas d’água podem permitir que criadores e detentores de direitos insiram seus próprios metadados diretamente no conteúdo, facilitando a identificação e ação sobre material protegido redistribuído em plataformas como YouTube, Instagram e TikTok.

A marca d’água é parte do nosso compromisso mais amplo com a transparência. À medida que nossos modelos ficam mais avançados e realistas, nossa estrutura de responsabilidade também precisa evoluir. Quanto mais conseguirmos atribuir o conteúdo à sua origem, mais confiável será o nosso ecossistema de informações.

Artigos relacionados

Crie com o áudio de IA da mais alta qualidade