.webp&w=3840&q=95)
Top 5 Speechify alternatives for reading text aloud
Explore the best alternatives to Speechify.
Brücke zwischen Kunst und KI: Die Entstehung von „Report 5923“
Wir freuen uns, unsere Zusammenarbeit mit Y7 bekannt zu geben: einen einzigartigen einstündigen Science-Fiction-Film mit dem Titel Bericht 5923. Nachfolgend finden Sie die Geschichte der Y7-Künstler über ihre Erfahrungen bei der Herstellung. Sie erforschen Themen wie Klang, akustische Kriegsführung und Audio als Virus und verweben dabei philosophische und theoretische Elemente. Unsere Rolle bei ElevenLabs bei der Unterstützung dieses Projekts bestand darin, die Integration von Kunst und KI zu erleichtern. Lesen Sie weiter unten mehr über den kreativen Prozess von Y7 und wie sie Bericht 5923 zum Leben.
Bericht 5923 ist ein einstündiger Science-Fiction-Film, der überwiegend mithilfe künstlicher Intelligenz und einer breiten Palette unterschiedlicher Werkzeuge und Methoden erstellt wurde. Der Film folgt der Protagonistin Shevek auf ihrer Reise zwischen drei verschiedenen Planeten, während sie einen scheinbar ethnografischen Bericht zusammenstellt. Klang, akustische Kriegsführung und Audio als Virus sind wiederkehrende Themen in der gesamten Geschichte, die sich im weiteren Sinne mit Ideen des Weltenbaus und des Techno-Optimismus beschäftigt. Die Arbeit versucht, Ideen umzusetzen, die wir in philosophischen und theoretischen Werken gefunden haben, die wir lieben; insbesondere die von Gilles Deleuze und Félix Guattari.
Es wurde zunächst als Work-in-Progress für FACT, eine Galerie und ein Kino in Liverpool, Großbritannien, die uns gebeten haben, am Ende eines zweitägigen Workshops im Juni 2023, der der Unterstützung von Künstlern, Forschern und Kuratoren gewidmet war, Arbeiten zu präsentieren. Der Name des Programms mit dem Titel „Turning Together“ geht auf die Science-Fiction-Autorin Ursula K. Le Guin zurück, die die „Muttersprache“ als Kommunikationsform versteht, die auf Zuhören und einem aufeinander Beziehen beruht. Nach der Vorführung hatten wir das Glück, schnell eine Finanzierung von Elevenlabs für die Fertigstellung des Films zu erhalten, nachdem sie Wind davon bekamen, dass wir ihre Tools sowohl in Bericht und unsere umfassendere Praxis.
Als Antwort auf FACT's Referenzierung von Le Guin hatten wir beschlossen, ein OpenAI GPT-3.5-Modell für ihren Roman zu optimieren Die Enteigneten mit der Absicht, gemeinsam mit KI ein Drehbuch zu schreiben. Die Feinabstimmung unterscheidet sich von der Interaktion mit ChatGPT. Durch die Feinabstimmung bringen Sie das Modell im Wesentlichen dazu, sich auf einen neuen Datensatz zu spezialisieren, zusätzlich zu den allgemeinen linguistischen Kenntnissen, die es bereits gelernt hat. Nach dem Training kann Ihr neues Modell neuen Text im Stil Ihres Datensatzes erstellen. Dabei können Sie über einen Parameter namens Temperatur: Je niedriger die Temperatur, desto zersplitterter und zufälliger ist die Textausgabe, je höher die Temperatur, desto wahrscheinlicher ist es, dass Auszüge des Datensatzes wörtlich wiederholt werden. Es geht darum, einen glücklichen Mittelweg zu finden. Stellen Sie sich das fein abgestimmte Modell als ein Extraktion von Le Guins Stimmung. In diesem Sinne ist es eine neue Art von Fan-Fiction. Gemeinsam haben wir das Substantiv „Ursula K. Le Guin“ in ein Verb umgewandelt. Wir können jetzt Le Guin so viel wir malen, modellieren oder singen konnten.
Durch das Experimentieren mit unterschiedlichen Temperaturen begannen sich die Umrisse einer Geschichte abzuzeichnen. Der Prozess des gemeinsamen Schreibens mit KI lässt sich mit einer Cut-up-Technik à la William Burroughs über David Bowie vergleichen: Wir begannen, Verknüpfungen zwischen verschiedenen Textschnipseln herzustellen. Manchmal brachte uns die KI auf Ideen, die wir ihr direkt zurückmeldeten, und manchmal gaben wir relevante Textpassagen von Autoren ein, die wir mochten. Am Ende ließ sich nur noch schwer unterscheiden, wer was geschrieben hatte und woher die Ideen stammten – obwohl dies der traditionellen Autorenschaft wohl nicht unähnlich ist! Wenn wir es genau nehmen müssten, würden wir schätzen, dass die Autorenanteile ungefähr im Verhältnis 60/40 zu unseren Gunsten verteilt sind. Der Gesamtbogen der Handlung ist nichts, was sich eine KI ausdenken konnte. Technisch wäre dies mit ChatGPT möglich, aber wenn man sich mit der Struktur des Geschichtenerzählens von ChatGPT befasst, entpuppt sich diese schnell als sehr formelhaft und seltsamerweise übermäßig auf Happy Ends angewiesen.
Parallel zur Entwicklung des Drehbuchs erfolgte die Visualisierung der Geschichte mithilfe von KI-Tools (vorwiegend Midjourney und Runway Gen-2). Eines unserer größten Hindernisse war der Versuch, das zu bekämpfen, was Shumon Basar als „die Mitte der Reise“ bezeichnet hat: eine eingebaute Neigung zu kitschiger DeviantArt-Ästhetik, die in vielen Text-to-Content-Tools zu finden ist und die außerdem oft mit frauenfeindlichen und infantilisierenden Darstellungen von Frauen einhergeht. Dies haben wir zunächst dadurch angegangen, dass wir unsere Eingabeaufforderungen mit technischer Terminologie aus der Fotografie übersäten, um uns von stark stilisierten Bildern fernzuhalten. Eine der größten Auswirkungen auf Bericht war, dass es uns dazu veranlasste, die Hauptfigur Shevek von einer jungen Frau in eine alte Frau zu verwandeln. Wenn es in Midjourney so gewünscht wird, werden ältere Frauen oft als Objekte des abgrundtiefen Grauens dargestellt, was unserer Ansicht nach eine viel reichhaltigere, subversivere und komplexere ästhetische Grundlage für unsere Protagonistin darstellt; nicht weniger unterstützt durch Le Guins Behauptung in Weltraum-Krone dass ältere Frauen die idealen irdischen Vertreterinnen für intergalaktische Reisen wären.
Unser Ethos bei der Arbeit mit KI besteht oft (aber nicht ausschließlich) darin, uns auf Störungen und Unterbrechungen einzulassen und zu versuchen, Momente zu schaffen, in denen die KI vergisst, etwas zu maskieren oder nachzuahmen, in denen wir sie an einen Punkt lenken, an dem sie aufhört, die stilistischen Fallen wiederzukäuen, auf die sie programmiert wurde, und beginnt, Material auszugeben, das sich anfühlt, als würde sie ihre eigenen Halluzinationen zurückpropagieren; als würde sie sich mehr wie sie selbst verhalten, als sie sollte.
KI wurde außerdem eingesetzt, um Bericht klanglich zum Leben erweckt: Text-zu-Audio-Tools und neuronale Netzwerke für Rohaudio halfen uns dabei, alles zu zaubern, von der Geräuschkulisse eines belebten Bahnsteigs bis zu den Geräuschen eines spielenden Tonbandgeräts oder sogar den Klängen von Synthesizern, abstrahiertem Gesang und polyrhythmischen Schlagzeugmustern für den Soundtrack. Anschließend haben wir die Sprachsynthese-Tools von Elevenlabs verwendet, um unsere Geschichte zu erzählen und unseren Charakteren Leben einzuhauchen: Bericht 5923 ist eine Mischung aus neuronalen Netzwerken, die wir selbst zusammengestellt haben, und wir hoffen, dass Ihnen das Anschauen genauso viel Spaß macht wie uns das Erstellen!
Explore the best alternatives to Speechify.