![](/_next/image?url=https%3A%2F%2Feleven-public-cdn.elevenlabs.io%2Fpayloadcms%2F6fe10773jd6-EU%20AI%20Champions.webp&w=3840&q=95)
ElevenLabs joins the EU AI Champions Initiative
Over 60 companies are working to strengthen Europe’s role in global AI
Łączenie sztuki i sztucznej inteligencji: Powstawanie „Raportu 5923”
Z przyjemnością dzielimy się efektem naszej współpracy z Y7: wyjątkowym godzinnym filmem science-fiction zatytułowanym Raport 5923. Poniżej znajdziesz historię artystów Y7 dotyczącą ich doświadczeń w tworzeniu tego projektu. Poruszają tematy dźwięku, wojny dźwiękowej i dźwięku jako wirusa, wplatając w to elementy filozoficzne i teoretyczne. Naszą rolą w ElevenLabs w tym projekcie było ułatwienie integracji sztuki ze sztuczną inteligencją. Przeczytaj więcej poniżej o procesie twórczym Y7 i o tym, jak do tego doszło Raport 5923 do życia.
Raport 5923 to godzinny film science-fiction, stworzony głównie przy użyciu sztucznej inteligencji oraz szerokiej gamy różnych narzędzi i metod. Film śledzi podróż głównej bohaterki, Shevek, pomiędzy trzema różnymi planetami, podczas której sporządza raport etnograficzny. Dźwięk, wojna dźwiękowa i dźwięk jako wirus to powtarzające się motywy w całej opowieści, która szerzej podejmuje kwestie budowania świata i technooptymizmu. W pracy podjęto próbę rozwinięcia idei, na które natknęliśmy się w pracach filozoficznych i teoretycznych, które cenimy, zwłaszcza tych autorstwa Gilles’a Deleuze’a i Félixa Guattariego.
Po raz pierwszy zaprezentowano go jako pracę w toku FAKT, galerii i kina w Liverpoolu w Wielkiej Brytanii, która poprosiła nas o zaprezentowanie swojej pracy na zakończenie dwudniowych warsztatów w czerwcu 2023 r., poświęconych wspieraniu artystów, badaczy i kuratorów. Nazwa programu, zatytułowanego „Turning Together”, wywodzi się od koncepcji pisarki literatury fantastycznonaukowej Urszuli K. Le Guin, zgodnie z którą „język ojczysty” stanowił sposób komunikacji oparty na słuchaniu i budowaniu relacji międzyludzkich. Po projekcji mieliśmy szczęście, że szybko udało nam się zabezpieczyć finansowanie od Elevenlabs na dokończenie filmu, po tym jak dowiedzieli się, że wykorzystaliśmy ich narzędzia zarówno w Raport i nasza szersza praktyka.
W odpowiedzi na FAKTnawiązując do Le Guin, postanowiliśmy dopracować model OpenAI GPT-3.5 w jej powieści Wywłaszczeni w celu wspólnego napisania scenariusza ze sztuczną inteligencją. Dostrajanie różni się od interakcji z ChatGPT. Dostrajanie polega w zasadzie na tym, że model specjalizuje się w nowym zestawie danych, wykorzystując ogólną wiedzę lingwistyczną, którą już nabył. Po przeszkoleniu nowy model może wygenerować nowy tekst w stylu zestawu danych, a Ty możesz kontrolować, w jakim stopniu będzie on zgodny z oryginałem, za pomocą parametru o nazwie temperatura:im niższa temperatura, tym bardziej rozbity i przypadkowy będzie tekst wyjściowy, im wyższa temperatura, tym większe prawdopodobieństwo, że fragmenty zbioru danych zostaną powtórzone dosłownie. Chodzi o znalezienie złotego środka. Pomyśl o dostrojonym modelu jako o ekstrakcja klimatu Le Guin. To w pewnym sensie nowy rodzaj fan fiction. Wspólnie, wspólnie, przekształciliśmy rzeczownik „Ursula K. Le Guin” w czasownik. Teraz możemy Le Guin tyle ile potrafiliśmy malować, rzeźbić i śpiewać.
Tak więc eksperymentując z różnymi temperaturami, zaczęły wyłaniać się zarysy pewnej historii. Proces wspólnego pisania ze sztuczną inteligencją można porównać do techniki łączenia tekstów, stosowanej przez Williama Burroughsa za pośrednictwem Davida Bowiego: zaczęliśmy tworzyć powiązania między różnymi fragmentami tekstów wyjściowych. Czasami sztuczna inteligencja pobudzała w nas pomysły, które przekazywaliśmy jej bezpośrednio, czasami przekazywałyśmy odpowiednie fragmenty tekstów autorów, których kochamy. W końcu trudno było odróżnić, kto co napisał i skąd pochodziły poszczególne pomysły – choć można by twierdzić, że nie różni się to niczym od tradycyjnego autorstwa! Jeśli zajdzie taka potrzeba, szacujemy, że podział zasług za scenariusz rozkłada się na naszą korzyść mniej więcej 60/40. Ogólna fabuła nie jest czymś, co sztuczna inteligencja byłaby w stanie wymyślić. Teoretycznie byłoby to możliwe w przypadku ChatGPT, ale gdy zagłębimy się w strukturę opowiadania historii za pomocą ChatGPT, szybko okazuje się, że jest to bardzo schematyczne i dziwnie nadmiernie polegające na szczęśliwych zakończeniach.
Jednocześnie z tworzeniem scenariusza tworzono wizualizację historii przy użyciu narzędzi sztucznej inteligencji (głównie Midjourney i Runway Gen-2). Jedną z głównych przeszkód, na jakie natrafiliśmy, była próba zwalczenia tego, co Shumon Basar nazwał „środkiem Midjourney”: wrodzoną skłonnością do kiczu w stylu DeviantArt, obecną w wielu narzędziach do zamiany tekstu na treść, która często idzie w parze z mizoginicznym i infantylnym przedstawianiem kobiet. Pierwszym sposobem, w jaki podeszliśmy do tego problemu, było wzbogacenie naszych podpowiedzi techniczną terminologią fotograficzną, tak abyśmy uniknęli nadmiernie stylizowanych obrazów. Jednym z głównych skutków, jakie to miało na Raport było to, że skłoniło nas to do zmiany głównej bohaterki, Shevek, z młodej kobiety w staruszkę. Gdy zostanie to zasugerowane, Midjourney często przedstawia starsze kobiety jako obiekty skrajnego horroru, co naszym zdaniem stanowiło o wiele bogatsze, subwersywne i złożone podłoże estetyczne dla naszej bohaterki, co nie mniej potwierdza twierdzenie Le Guin w Kosmiczna Wiedźma że starsze kobiety byłyby idealnymi przedstawicielkami Ziemi w podróżach międzygalaktycznych.
Nasza filozofia podczas pracy ze sztuczną inteligencją często (choć nie wyłącznie) polega na wykorzystywaniu błędów i przerw; na próbie tworzenia momentów, w których sztuczna inteligencja zapomina maskować lub naśladować, w których możemy nią sterować, podpowiadać jej i ją jailbreakować, aż przestanie powtarzać stylistyczne pułapki, do których została zaprogramowana, i zacznie generować materiał, który sprawia wrażenie, jakby odtwarzał własne halucynacje; jakby zachowywał się bardziej jak ona sama, niż powinien.
Sztuczna inteligencja została wykorzystana w celu dalszego zwiększenia Raport ożywić dźwięk: narzędzia przekształcające tekst w dźwięk oraz sieci neuronowe przetwarzające surowy dźwięk pomogły nam wyczarować wszystko, od efektów dźwiękowych zatłoczonego peronu po dźwięki odtwarzanego magnetofonu, a jeszcze dalej, dźwięki syntezatorów, abstrakcyjne wokale i polirytmiczne wzory perkusyjne na potrzeby ścieżki dźwiękowej. Następnie wykorzystaliśmy narzędzia syntezy mowy Elevenlabs, aby opowiedzieć naszą historię i tchnąć życie w nasze postacie: Raport 5923 jest amalgamatem sieci neuronowych, które sami ułożyliśmy. Mamy nadzieję, że oglądanie ich sprawi Wam tyle samo przyjemności, ile nam sprawiło tworzenie!
Over 60 companies are working to strengthen Europe’s role in global AI
Calls now start at 10 cents per minute — an ~50% discount across Starter, Creator and Pro plans