.webp&w=3840&q=95)
Top 5 Speechify alternatives for reading text aloud
Explore the best alternatives to Speechify.
Faire le pont entre l'art et l'IA : La réalisation du « Rapport 5923 »
Nous sommes ravis de partager notre collaboration avec Y7 : un film de science-fiction unique d'une heure intitulé Rapport 5923. Vous trouverez ci-dessous l'histoire des artistes de Y7 sur leur expérience de création. Ils explorent les thèmes du son, de la guerre sonore et de l’audio en tant que virus tout en y intégrant des éléments philosophiques et théoriques. Notre rôle chez ElevenLabs dans le soutien de ce projet était de faciliter l’intégration de l’art avec l’IA. Découvrez ci-dessous davantage sur le processus créatif de Y7 et comment ils ont apporté Rapport 5923 à la vie.
Rapport 5923 est un film de science-fiction d'une heure réalisé principalement à l'aide de l'IA et d'un large éventail d'outils et de méthodes différents. Le film suit le protagoniste, Shevek, dans son voyage entre trois planètes différentes tout en compilant ce qui semble être un rapport ethnographique. Le son, la guerre sonique et l’audio en tant que virus sont des thèmes récurrents tout au long de l’histoire, qui traite plus largement des notions de construction du monde et de techno-optimisme. L’ouvrage tente de déployer des idées que nous avons rencontrées dans des œuvres philosophiques et théoriques que nous aimons, notamment celles de Gilles Deleuze et Félix Guattari.
Il a d'abord été présenté comme un travail en cours pour FACT, une galerie et un cinéma de Liverpool, au Royaume-Uni, qui nous a demandé de présenter nos travaux à la fin d'un atelier de deux jours en juin 2023 consacré au soutien des artistes, des chercheurs et des conservateurs. Le programme, intitulé « Turning Together », tire son nom de la conception de l'auteur de fiction spéculative Ursula K. Le Guin selon laquelle la « langue maternelle » est un moyen de communication fondé sur l'écoute et la relation aux autres. Après la projection, nous avons eu la chance d'obtenir rapidement un financement d'Elevenlabs pour l'achèvement du film après qu'ils ont eu vent de notre utilisation de leurs outils à la fois dans Rapport et notre pratique plus large.
En réponse à FACTAprès avoir fait référence à Le Guin, nous avons décidé de peaufiner un modèle OpenAI GPT-3.5 sur son roman Les dépossédés en vue de co-écrire un scénario avec l'IA. Le réglage fin est différent de l’interaction avec ChatGPT ; avec le réglage fin, vous amenez essentiellement le modèle à se spécialiser dans un nouvel ensemble de données en plus des connaissances linguistiques générales qu’il a déjà apprises. Une fois formé, votre nouveau modèle peut produire un nouveau texte dans le style de votre ensemble de données, et vous pouvez contrôler dans quelle mesure il colle à l'original grâce à un paramètre appelé température:plus la température est basse, plus le texte produit sera fracturé et aléatoire, plus la température est élevée, plus il est probable qu'il répète mot pour mot des extraits de l'ensemble de données. Il s’agit de trouver un juste milieu. Considérez le modèle affiné comme un extraction de l'ambiance de Le Guin. C'est un nouveau genre de fan-fiction dans ce sens. Nous avons collectivement, ensemble, transformé le nom « Ursula K. Le Guin » en verbe. Nous pouvons maintenant Le Guin autant que nous pourrions peindre, sculpter ou chanter.
Ainsi, après avoir expérimenté différentes températures, les contours d’une histoire ont commencé à émerger. Le processus de co-écriture avec l’IA ressemble un peu à une technique de découpage à la William-Burroughs par David-Bowie : nous avons commencé à établir des liens entre différents extraits de textes ; parfois l’IA suscitait en nous des idées que nous lui renvoyions directement, parfois nous lui fournissions des passages de texte pertinents provenant d’écrivains que nous aimons. Au final, il est devenu difficile de distinguer qui a écrit quoi et d’où venaient les idées – même si cela n’est sans doute pas très différent de la paternité traditionnelle ! Si on nous pousse à le faire, nous estimons qu'il y a une répartition d'environ 60/40 des crédits d'écriture en notre faveur. L'arc narratif global n'est pas quelque chose que l'IA était capable de proposer. Cela serait techniquement possible avec ChatGPT, mais lorsque vous entrez dans la structure de la narration avec ChatGPT, cela se révèle rapidement comme très formel et étrangement trop dépendant des fins heureuses.
Simultanément au développement du scénario, la visualisation de l'histoire a été réalisée à l'aide d'outils d'IA (principalement Midjourney et Gen-2 de Runway). L’un des principaux obstacles que nous avons rencontrés était d’essayer de combattre ce que Shumon Basar a appelé « le milieu du parcours » : une inclination inhérente vers l’esthétique kitsch de DeviantArt que l’on retrouve dans de nombreux outils de conversion de texte en contenu, qui s’accompagne souvent de représentations misogynes et infantilisantes des femmes. La première façon dont nous avons abordé ce problème a été de parsemer nos invites de terminologie photographique technique, afin de nous éloigner des images fortement stylisées. L’un des impacts majeurs que cela a eu sur Rapport c'est que cela nous a amené à changer le personnage principal, Shevek, d'une jeune femme à une vieille femme. Lorsqu'on le lui demande, Midjourney dépeindra souvent des femmes âgées comme des objets d'horreur abjecte, ce qui, selon nous, constituait un terrain esthétique beaucoup plus riche, subversif et complexe pour notre protagoniste ; ce qui n'est pas moins confirmé par l'affirmation de Le Guin dans La Vieille de l'Espace que les femmes plus âgées seraient les représentantes terrestres idéales pour les voyages intergalactiques.
Notre éthique lorsque nous travaillons avec l'IA peut souvent (mais pas exclusivement) être de nous pencher sur les problèmes et les ruptures ; d'essayer de créer des moments où l'IA oublie de masquer ou d'imiter, où nous pouvons la diriger, l'inciter et la jailbreaker vers un endroit où elle cesse de régurgiter les pièges stylistiques pour lesquels elle a été programmée et commence à produire du matériel qui donne l'impression qu'elle rétropropage ses propres hallucinations ; comme si elle se comportait plus comme elle-même qu'elle n'est censée le faire.
L’IA a également été utilisée pour apporter Rapport à la vie sonore : les outils de conversion de texte en audio et les réseaux neuronaux audio bruts nous ont aidés à évoquer tout, du bruitage d'un quai de gare animé aux sons d'un magnétophone en cours de lecture, ou encore aux sons de synthétiseurs, de voix abstraites et de motifs de batterie polyrythmiques pour la bande sonore. Nous avons ensuite utilisé les outils de synthèse vocale d'Elevenlabs pour raconter notre histoire et donner vie à nos personnages : Rapport 5923 est un amalgame de réseaux neuronaux organisé par nos soins, et nous espérons que vous aurez autant de plaisir à le regarder que nous avons eu autant de plaisir à le réaliser !
Explore the best alternatives to Speechify.
A simple guide to effortless podcasting.