
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Conectando Arte e IA: A Criação de 'Report 5923'
Estamos animados em compartilhar nossa colaboração com a Y7: um filme de ficção científica único de uma hora intitulado Report 5923. Abaixo está a história dos artistas da Y7 sobre sua experiência na criação. Eles exploram temas de som, guerra sônica e áudio como vírus, enquanto entrelaçam elementos filosóficos e teóricos. Nosso papel na ElevenLabs foi facilitar a integração da arte com a IA. Leia mais abaixo sobre o processo criativo da Y7 e como eles deram vida a Report 5923.
Report 5923 é um filme de ficção científica de uma hora feito predominantemente usando IA com uma ampla gama de ferramentas e métodos diferentes. O filme segue a protagonista, Shevek, em sua jornada entre três planetas diferentes enquanto compila o que parece ser um relatório etnográfico. Som, guerra sônica e áudio como vírus são temas recorrentes ao longo da história, que lida mais amplamente com noções de construção de mundos e tecno-otimismo. O trabalho tenta implementar ideias que encontramos em obras filosóficas e teóricas que amamos; particularmente as de Gilles Deleuze & Félix Guattari.
Foi apresentado pela primeira vez como um trabalho em progresso para FACT, uma galeria e cinema em Liverpool, Reino Unido, que nos pediu para apresentar o trabalho no final de um workshop de dois dias em junho de 2023 dedicado a apoiar artistas, pesquisadores e curadores. O programa—intitulado ‘Turning Together’—recebeu seu nome da compreensão da autora de ficção especulativa Ursula K. Le Guin sobre a ‘língua materna’ como uma forma de comunicação enraizada na escuta e no relacionamento com os outros. Após a exibição, tivemos a sorte de rapidamente garantir financiamento da ElevenLabs para a conclusão do filme depois que eles souberam da nossa utilização de suas ferramentas tanto em Report quanto em nossa prática mais ampla.
Em resposta à FACT’s referência a Le Guin, decidimos ajustar um modelo OpenAI GPT-3.5 em seu romance The Dispossessed com o objetivo de co-escrever um roteiro com IA. O ajuste fino é diferente de interagir com o ChatGPT; com o ajuste fino, você está essencialmente fazendo o modelo se especializar em um novo conjunto de dados além do conhecimento linguístico geral que já aprendeu. Uma vez treinado, seu novo modelo pode produzir novo texto no estilo do seu conjunto de dados, e você pode controlar o quanto ele se mantém fiel ao original através de um parâmetro chamado temperatura: quanto menor a temperatura, mais fragmentado e aleatório será o texto gerado, quanto maior a temperatura, mais provável é que ele repita trechos do conjunto de dados literalmente. É sobre encontrar um meio-termo feliz. Pense no modelo ajustado como uma extração da vibe de Le Guin. É um novo tipo de fanfic nesse sentido. Coletivamente, transformamos o substantivo ‘Ursula K. Le Guin’ em um verbo. Agora podemos Le Guin tanto quanto poderíamos pintar, esculpir ou cantar.
Assim, após experimentar diferentes temperaturas, os contornos de uma história começaram a emergir. O processo de co-escrever com IA é um pouco comparável à técnica de recorte de William Burroughs via David Bowie: começamos a fazer conexões entre diferentes trechos de saídas de texto; às vezes a IA nos inspirava ideias que alimentávamos de volta para ela, às vezes inseríamos trechos relevantes de textos de escritores que amamos. No final, tornou-se difícil distinguir quem escreveu o quê e de onde vieram as ideias—embora isso não seja muito diferente da autoria tradicional! Se pressionados, estimaríamos que há aproximadamente uma divisão de 60/40 dos créditos de escrita a nosso favor. O arco geral da história não é algo que a IA foi capaz de criar. Isso seria tecnicamente possível com o ChatGPT, mas quando você entra na estrutura da narrativa com o ChatGPT, ele rapidamente se revela muito formulaico e estranhamente dependente de finais felizes.
Simultaneamente ao desenvolvimento do roteiro, ocorreu a visualização da história usando ferramentas de IA (principalmente Midjourney e Gen-2 da Runway). Um dos principais obstáculos que tivemos foi tentar combater o que Shumon Basar chamou de ‘a mediocridade do Midjourney’: uma inclinação embutida para estéticas kitsch do DeviantArt encontradas em muitas ferramentas de texto para conteúdo, que também muitas vezes vêm acompanhadas de representações misóginas e infantilizantes de mulheres. A primeira maneira que enfrentamos isso foi enchendo nossos prompts com terminologia fotográfica técnica, para nos afastar de imagens altamente estilizadas. Um dos principais impactos disso em Report foi que nos levou a mudar a personagem principal, Shevek, de uma jovem para uma mulher idosa. Quando solicitado, o Midjourney muitas vezes retrata mulheres mais velhas como objetos de horror abjeto, o que sentimos ser um terreno estético muito mais rico, subversivo e complexo para nossa protagonista; não menos apoiado pela afirmação de Le Guin em Space Crone de que mulheres mais velhas seriam as representantes ideais da Terra para viagens intergalácticas.
Nosso ethos ao trabalhar com IA pode muitas vezes (mas não exclusivamente) ser inclinar-se para falhas e quebras; tentar criar momentos em que a IA esquece de mascarar ou imitar, onde podemos direcionar, sugerir e liberar para um lugar onde ela para de regurgitar as armadilhas estilísticas para as quais foi programada e começa a produzir material que parece estar retropropagando suas próprias alucinações; como se estivesse se comportando mais como ela mesma do que deveria.
A IA foi ainda mais utilizada para dar vida a Report sonoramente: ferramentas de texto para áudio e redes neurais de áudio bruto nos ajudaram a criar tudo, desde efeitos sonoros de uma plataforma de estação movimentada até os sons de uma máquina de fita tocando, ou ainda mais adiante, os sons de sintetizadores, vocais abstratos e padrões de bateria polirrítmicos para a trilha sonora. Em seguida, usamos as ferramentas de síntese de fala da ElevenLabs para narrar nossa história e dar vida aos nossos personagens: Report 5923 é uma amálgama de redes neurais organizadas por nós, e esperamos que você goste de assistir tanto quanto gostamos de fazer!
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning