
Hedra collabora con ElevenLabs per dare voce ai video
- Categoria
- Storie di ElevenCreative
- Data
Unire arte e IA: la realizzazione di 'Report 5923'
Siamo felici di raccontarti la nostra collaborazione con Y7: un film di fantascienza unico della durata di un’ora intitolato Report 5923. Qui sotto trovi la storia raccontata dagli artisti di Y7 sulla loro esperienza nella realizzazione. Esplorano temi come il suono, la guerra sonora e l’audio come virus, intrecciando elementi filosofici e teorici. Il nostro ruolo in ElevenLabs è stato quello di facilitare l’integrazione tra arte e IA. Continua a leggere per scoprire il processo creativo di Y7 e come hanno dato vita a Report 5923.
Report 5923 è un film di fantascienza di un’ora realizzato principalmente con l’IA e una vasta gamma di strumenti e metodi diversi. Il film segue la protagonista, Shevek, nel suo viaggio tra tre pianeti diversi mentre compila quello che sembra essere un rapporto etnografico. Il suono, la guerra sonora e l’audio come virus sono temi ricorrenti nella storia, che affronta in modo più ampio le idee di world-building e tecno-ottimismo. Il lavoro cerca di mettere in pratica idee che abbiamo incontrato in opere filosofiche e teoriche che amiamo, in particolare quelle di Gilles Deleuze & Félix Guattari.
È stato presentato per la prima volta come work-in-progress per FATTO, una galleria e cinema di Liverpool, UK, che ci ha invitati a presentare un lavoro al termine di un workshop di due giorni a giugno ’23 dedicato ad artisti, ricercatori e curatori. Il programma—intitolato ‘Turning Together’—prendeva il nome dalla visione dell’autrice di fantascienza Ursula K. Le Guin della ‘lingua madre’ come modo di comunicare basato sull’ascolto e sulla relazione. Dopo la proiezione siamo riusciti a ottenere rapidamente un finanziamento da ElevenLabs per completare il film, dopo che hanno scoperto che stavamo utilizzando i loro strumenti sia in Report che nel nostro lavoro più ampio.
In risposta al riferimento di FATTO a Le Guin, abbiamo deciso di ottimizzare un modello OpenAI GPT-3.5 sul suo romanzo I reietti con l’idea di co-scrivere una sceneggiatura insieme all’IA. L’ottimizzazione è diversa dall’interazione con ChatGPT: con l’ottimizzazione, il modello viene specializzato su un nuovo dataset oltre alle conoscenze linguistiche generali già apprese. Una volta addestrato, il nuovo modello può generare testi nello stile del dataset, e puoi controllare quanto si attiene all’originale tramite un parametro chiamato temperatura: più bassa è la temperature, più il testo generato sarà frammentato e casuale; più alta è la temperature, più tenderà a ripetere parti del dataset alla lettera. Si tratta di trovare il giusto equilibrio. Puoi pensare al modello ottimizzato come a un’estrazione dell’atmosfera di Le Guin. In questo senso è una nuova forma di fan-fiction. Insieme, abbiamo trasformato il nome ‘Ursula K. Le Guin’ in un verbo. Ora possiamo Le Guin così come potremmo dipingere, scolpire o cantare.
Così, dopo aver sperimentato con temperature diverse, sono emersi i primi contorni di una storia. Il processo di co-scrittura con l’IA ricorda un po’ la tecnica del cut-up di William Burroughs e David Bowie: abbiamo iniziato a collegare diversi frammenti di testo generati; a volte l’IA ci suggeriva idee che le restituivamo subito, altre volte inserivamo passaggi di autori che amiamo. Alla fine, è diventato difficile distinguere chi avesse scritto cosa e da dove provenissero le idee—anche se, in fondo, non è così diverso dalla scrittura tradizionale! Se dovessimo stimare, diremmo che circa il 60% dei crediti di scrittura sono nostri. L’arco narrativo complessivo non è qualcosa che l’IA sarebbe stata in grado di creare. Tecnicamente sarebbe possibile con ChatGPT, ma quando si entra nella struttura della narrazione con ChatGPT emerge subito la sua tendenza a essere molto schematica e a puntare sempre su finali felici.
Parallelamente allo sviluppo della sceneggiatura, abbiamo visualizzato la storia usando strumenti IA (soprattutto Midjourney e Gen-2 di Runway). Uno dei principali ostacoli era contrastare quella che Shumon Basar ha definito ‘la mediocrità di Midjourney’: una tendenza innata verso l’estetica kitsch da DeviantArt presente in molti strumenti text-to-content, spesso accompagnata da rappresentazioni misogine e infantilizzanti delle donne. Il primo modo in cui abbiamo affrontato questo problema è stato riempiendo i prompt di termini tecnici fotografici, per allontanarci da immagini troppo stilizzate. Uno degli effetti principali su Report è stato che ci ha portato a cambiare la protagonista, Shevek, da una giovane donna a una donna anziana. Quando viene richiesto, Midjourney spesso rappresenta le donne anziane come oggetti di orrore, e abbiamo trovato che questo fosse un terreno estetico molto più ricco, sovversivo e complesso per la nostra protagonista; anche perché Le Guin stessa, in Strega dello spazio sostiene che le donne anziane sarebbero le rappresentanti ideali della Terra per i viaggi intergalattici.
Il nostro approccio con l’IA spesso (ma non sempre) è quello di accogliere glitch e rotture; cerchiamo di creare momenti in cui l’IA dimentica di mascherare o imitare, dove possiamo guidarla, suggerirle e ‘jailbreakarla’ fino a portarla in un luogo in cui smette di ripetere gli schemi stilistici per cui è stata programmata e inizia a generare materiale che sembra quasi frutto delle sue stesse allucinazioni; come se si comportasse più da sé stessa di quanto dovrebbe.
Abbiamo usato l’IA anche per dare vita a Report dal punto di vista sonoro: strumenti text-to-audio e reti neurali audio ci hanno aiutato a creare di tutto, dai rumori di una stazione affollata ai suoni di un registratore a nastro, fino a synth, voci astratte e pattern di batteria poliritmici per la colonna sonora. Poi abbiamo usato gli strumenti di sintesi vocale di ElevenLabs per narrare la nostra storia e dare voce ai personaggi: Report 5923 è un insieme di reti neurali organizzate da noi, e speriamo che guardarlo ti piaccia quanto a noi è piaciuto realizzarlo!



