
Hedra 携手 ElevenLabs,为视频赋予声音
- 分类
- ElevenCreative 故事
- 日期
很高兴与大家分享我们与 Y7 的合作项目:一部独特的 1 小时科幻电影,名为报告 5923。下面是 Y7 艺术家们讲述的创作经历。他们在影片中探讨了声音、声波战争和音频病毒等主题,并融入了哲学和理论元素。ElevenLabs 在本项目中主要支持艺术与 AI 的融合。继续阅读,了解 Y7 的创作过程,以及他们如何让报告 5923成为现实。
《Report 5923》是一部时长 1 小时的科幻电影,主要通过 AI 及多种工具和方法制作。影片讲述主角 Shevek 在三颗不同星球间旅行,同时编写一份看似人种志报告的故事。声音、声波战争和音频病毒是贯穿全片的主题,整体探讨了世界构建和技术乐观主义。作品尝试运用我们喜欢的哲学和理论著作中的思想,尤其是 Gilles Deleuze 和 Félix Guattari 的观点。
影片首次以未完成作品的形式在事实(英国利物浦的一个画廊和影院)展映。2023 年 6 月,FACT 邀请我们在为期两天、面向艺术家、研究者和策展人的工作坊结束时展示作品。该项目名为“Turning Together”,灵感来自科幻作家 Ursula K. Le Guin 对“母语”的理解——一种以倾听和交流为基础的沟通方式。放映结束后,ElevenLabs 了解到我们在报告 及其他实践中使用了他们的工具,很快为影片后续制作提供了资金支持。
针对事实提到 Le Guin,我们决定用她的小说《一无所有》微调了一个 OpenAI GPT-3.5 模型,尝试与 AI 共同创作剧本。微调不同于直接与 ChatGPT 互动,它是在模型已有语言知识的基础上,让其专注于新的数据集。训练完成后,模型可以用数据集的风格生成新文本,并通过一个叫做温度的参数控制文本与原始风格的贴合度。temperature 越低,输出越碎片化和随机,越高则越容易直接复述数据集内容。关键在于找到合适的平衡。可以把微调后的模型看作是Le Guin 风格的提取。某种意义上,这是一种全新的同人创作。我们一起把“Ursula K. Le Guin”这个名词变成了动词。现在我们可以像绘画、雕塑或歌唱一样“Le Guin”了。勒古恩 就像我们可以画画、雕塑或唱歌一样。
在尝试不同 temperature 后,故事的轮廓逐渐浮现。与 AI 共写的过程有点像 William Burroughs 和 David Bowie 的剪贴法:我们把不同文本片段串联起来,有时 AI 会激发我们的灵感,我们又把想法反馈给它,有时也会输入我们喜欢作家的相关段落。最终,很难分清哪些内容是谁写的,灵感来自哪里——其实这和传统写作也很像!如果要估算,写作比例大约是我们 60%,AI 40%。整体故事结构并非 AI 能独立完成。理论上 ChatGPT 可以做到,但用 ChatGPT 构建故事结构时,很快就会发现它非常公式化,而且过于依赖大团圆结局。
剧本开发的同时,我们也用 AI 工具(主要是 Midjourney 和 Runway 的 Gen-2)进行视觉创作。遇到的主要难题之一,是 Shumon Basar 所说的“Midjourney 的中庸感”:许多文本生成内容工具自带俗气的 DeviantArt 风格,还常常伴随对女性的刻板和幼稚化描绘。我们首先通过在提示词中加入大量摄影技术术语,来避免过度风格化的画面。这对报告 的最大影响之一,是我们把主角 Shevek 从年轻女性改成了年长女性。Midjourney 在生成年长女性时,常常把她们描绘成恐怖形象,我们认为这为主角带来了更丰富、更颠覆和更复杂的美学表达,也呼应了 Le Guin 在《太空老妇》中提出的观点:年长女性是星际旅行的理想地球代表。
我们与 AI 合作时的理念,往往(但不总是)是拥抱“故障”和“断裂”,创造 AI 忘记伪装或模仿的瞬间。我们会引导、提示甚至“越狱”AI,让它跳脱既定风格,输出更像自己“幻觉”的内容,表现出它本来的样子。
AI 还被用于为报告 赋予声音:文本转音频工具和原始音频神经网络帮助我们生成了从繁忙车站的拟音,到磁带机播放的声音,再到配乐中的合成器、抽象人声和多节奏鼓点。随后,我们用 ElevenLabs 的语音合成工具为故事配音,让角色“活”了起来:《Report 5923》是我们用多种神经网络组合而成的作品,希望你在观看时能像我们创作时一样享受!



