एलेवनलैब्स और Y7 ने विज्ञान-फाई फिल्म के लिए हाथ मिलाया

कला और एआई के बीच सेतु: 'रिपोर्ट 5923' का निर्माण

हम Y7 के साथ अपने सहयोग को साझा करने के लिए उत्साहित हैं: एक घंटे की अनोखी विज्ञान-फाई फिल्म जिसका शीर्षक है रिपोर्ट 5923. नीचे Y7 कलाकारों द्वारा इसे बनाने के अनुभव की कहानी दी गई है। वे दार्शनिक और सैद्धांतिक तत्वों को जोड़ते हुए ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस जैसे विषयों का अन्वेषण करते हैं। इस परियोजना के समर्थन में इलेवनलैब्स में हमारी भूमिका कला को एआई के साथ एकीकृत करने में सहायता करना था। Y7 की रचनात्मक प्रक्रिया और उन्होंने इसे कैसे लाया, इसके बारे में नीचे पढ़ें रिपोर्ट 5923 जीवन के लिए.

रिपोर्ट 5923 यह एक घंटे की विज्ञान-फाई फिल्म है, जो मुख्य रूप से एआई और विभिन्न उपकरणों और विधियों का उपयोग करके बनाई गई है। यह फिल्म मुख्य पात्र शेवेक की तीन विभिन्न ग्रहों के बीच की यात्रा पर आधारित है, जिसमें वह एक नृवंशविज्ञान रिपोर्ट संकलित कर रही है। ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस पूरी कहानी में बार-बार आने वाले विषय हैं, जो व्यापक रूप से विश्व-निर्माण और तकनीकी-आशावाद की धारणाओं से संबंधित हैं। यह कृति उन विचारों को सामने लाने का प्रयास करती है जो हमें दार्शनिक और सैद्धांतिक कृतियों में मिले हैं, जिन्हें हम पसंद करते हैं; विशेष रूप से गिल्स डेल्यूज़ और फेलिक्स गुआटारी की कृतियों में।

इसे पहले एक कार्य-प्रगति के रूप में प्रस्तुत किया गया था तथ्यलिवरपूल, यूके स्थित एक गैलरी और सिनेमा, जिन्होंने हमें जून 2023 में कलाकारों, शोधकर्ताओं और क्यूरेटरों को सहायता प्रदान करने के लिए समर्पित दो दिवसीय कार्यशाला के अंत में अपना कार्य प्रस्तुत करने के लिए कहा था। कार्यक्रम का नाम 'टर्निंग टुगेदर' था, जिसका शीर्षक काल्पनिक कथा लेखिका उर्सुला के. ले गुइन की 'मातृभाषा' की समझ से लिया गया था, जो संवाद स्थापित करने का एक तरीका है, जो सुनने और एक-दूसरे से जुड़ने पर आधारित है। स्क्रीनिंग के बाद हम इतने भाग्यशाली थे कि हमें फिल्म के पूरा होने के लिए इलेवनलैब्स से तुरंत धन प्राप्त हो गया, क्योंकि उन्हें पता चला कि हम उनके उपकरणों का उपयोग फिल्म निर्माण में कर रहे हैं। प्रतिवेदन और हमारा व्यापक अभ्यास। 

के जवाब में तथ्यले गिनी के संदर्भ में हमने उनके उपन्यास पर आधारित ओपनएआई जीपीटी-3.5 मॉडल को बेहतर बनाने का निर्णय लिया था। वंचित एआई के साथ मिलकर एक स्क्रिप्ट लिखने की दृष्टि से। फाइन-ट्यूनिंग, चैटजीपीटी के साथ अंतःक्रिया करने से भिन्न है; फाइन-ट्यूनिंग के साथ आप अनिवार्य रूप से मॉडल को पहले से सीखे गए सामान्य भाषाई ज्ञान के शीर्ष पर एक नए डेटासेट में विशेषज्ञता प्राप्त करने के लिए तैयार कर रहे हैं। एक बार प्रशिक्षित होने के बाद, आपका नया मॉडल आपके डेटासेट की शैली में नया पाठ तैयार कर सकता है, और आप एक पैरामीटर के माध्यम से यह नियंत्रित कर सकते हैं कि ऐसा करते समय यह मूल से कितना जुड़ा रहता है तापमानतापमान जितना कम होगा, आउटपुट में पाठ उतना ही अधिक खंडित और यादृच्छिक होगा, तापमान जितना अधिक होगा, डेटासेट के अंशों को शब्दशः दोहराने की संभावना उतनी ही अधिक होगी। यह एक सुखद मध्यम मार्ग खोजने के बारे में है। इस परिष्कृत मॉडल को एक ऐसे मॉडल के रूप में सोचें ले गिनी की वाइब का निष्कर्षण. इस अर्थ में यह एक नए प्रकार का फैन-फ़िक्शन है। हमने सामूहिक रूप से, एक साथ मिलकर, संज्ञा 'उर्सुला के. ले गिनी' को क्रिया में बदल दिया है। अब हम यह कर सकते हैं ले गिनी जितना हम चित्र बना सकते हैं, मूर्ति बना सकते हैं या गा सकते हैं। 

अतः विभिन्न तापमानों के साथ प्रयोग करने के बाद एक कहानी की रूपरेखा उभरने लगी। ए.आई. के साथ सह-लेखन की प्रक्रिया कुछ हद तक विलियम-बरोज-बाय-वे ऑफ डेविड-बॉवी कट-अप तकनीक के समान लगती है: हमने पाठ के विभिन्न टुकड़ों के बीच लिंक बनाना शुरू किया; कभी-कभी ए.आई. हमारे अंदर विचारों को जगाती थी, जिन्हें हम सीधे ए.आई. को भेज देते थे, और कभी-कभी हम अपने प्रिय लेखकों के पाठ के प्रासंगिक अंश भेज देते थे। अंत में, यह भेद करना कठिन हो गया कि किसने क्या लिखा है और विचार कहां से आये हैं - हालांकि यह परंपरागत लेखन से भिन्न नहीं है! यदि दबाव डाला जाए तो हमारा अनुमान है कि लेखन श्रेय का लगभग 60/40 हिस्सा हमारे पक्ष में होगा। समग्र कहानी ऐसी नहीं है जिसे एआई तैयार करने में सक्षम हो। तकनीकी रूप से यह चैटजीपीटी के साथ संभव होगा, लेकिन जब आप चैटजीपीटी के साथ कहानी कहने की संरचना में प्रवेश करते हैं तो यह तुरंत ही खुद को बहुत ही फार्मूलाबद्ध और अजीब तरह से सुखद अंत पर निर्भर बताता है। 

पटकथा के विकास के साथ-साथ एआई उपकरणों (मुख्य रूप से मिडजर्नी और रनवे के जेन-2) का उपयोग करके कहानी का दृश्यांकन भी किया गया। हमारे सामने मुख्य बाधाओं में से एक थी, शुमोन बसर द्वारा 'मिडजर्नी की मध्य-स्थिति' कहे जाने वाले तत्व से लड़ने की कोशिश करना: किचट डेविएंटआर्ट सौंदर्यशास्त्र के प्रति एक अंतर्निहित झुकाव, जो कि बहुत सारे टेक्स्ट-टू-कंटेंट टूल्स में पाया जाता है, जो अक्सर महिलाओं के स्त्री-द्वेषी और बचकाने चित्रण के साथ आता है। इस समस्या से निपटने का पहला तरीका यह था कि हमने अपने प्रॉम्प्ट में तकनीकी फोटोग्राफिक शब्दावली का प्रयोग किया, ताकि हम अत्यधिक शैलीगत चित्रों से दूर रह सकें। इसका एक बड़ा प्रभाव यह हुआ कि प्रतिवेदन इसका कारण यह था कि इसने हमें मुख्य पात्र, शेवेक को एक युवा महिला से एक वृद्ध महिला में बदलने के लिए प्रेरित किया। जब संकेत मिलता है, तो मिडजर्नी अक्सर वृद्ध महिलाओं को घोर आतंक की वस्तु के रूप में चित्रित करती है, जो हमें लगा कि हमारे नायक के लिए एक अधिक समृद्ध, विध्वंसक और जटिल सौंदर्यात्मक आधार था; ले गुइन के दावे से भी कम समर्थन नहीं मिलता है अंतरिक्ष क्रोन कि वृद्ध महिलाएं अन्तरिक्षीय यात्रा के लिए आदर्श सांसारिक प्रतिनिधि होंगी। 

ए.आई. के साथ काम करते समय हमारा चरित्र अक्सर (परन्तु विशेष रूप से नहीं) गड़बड़ियों और रुकावटों की ओर झुकाव रखने का होता है; ऐसे क्षणों का सृजन करने का प्रयास करना, जहां ए.आई. अपना मुखौटा लगाना या नकल करना भूल जाए, जहां हम उसे उस दिशा में ले जा सकें, संकेत दे सकें और जेलब्रेक कर सकें, जहां वह उन शैलीगत जालों को दोहराना बंद कर दे, जिनके लिए उसे प्रोग्राम किया गया है, तथा ऐसी सामग्री का उत्पादन शुरू कर दे, जो ऐसा महसूस कराए कि वह अपने ही भ्रमों को दोहरा रही है; जैसे कि वह अपेक्षा से अधिक अपने जैसा व्यवहार कर रही हो।

एआई का उपयोग आगे लाने के लिए किया गया प्रतिवेदन ध्वनिगत रूप से जीवन में लाना: टेक्स्ट-टू-ऑडियो उपकरण और रॉ ऑडियो न्यूरल नेटवर्क ने हमें एक व्यस्त स्टेशन प्लेटफॉर्म की ध्वनि से लेकर टेप मशीन की आवाज़ तक, या फिर साउंडट्रैक के लिए सिंथ्स, अमूर्त स्वर और पॉलीरिदमिक ड्रम पैटर्न की आवाज़ तक सब कुछ समेटने में मदद की। इसके बाद हमने अपनी कहानी सुनाने और अपने पात्रों को जीवंत बनाने के लिए इलेवनलैब्स के स्पीच सिंथेसिस टूल का उपयोग किया: रिपोर्ट 5923 यह हमारे द्वारा व्यवस्थित तंत्रिका नेटवर्कों का एक मिश्रण है, और हम आशा करते हैं कि आपको इसे देखने में उतना ही आनंद आएगा जितना हमें इसे बनाने में आया है! 

और खोजें

Company

What happens when two AI voice assistants have a conversation?

At the ElevenLabs London Hackathon, developers created GibberLink, a groundbreaking protocol that lets AI agents recognize each other and switch to a hyper-efficient sound-based language—making AI-to-AI communication 80% faster and more reliable.

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

फ़्री शुरू करें

पहले से अकाउंट है? लॉग इन करें