
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
कला और एआई के बीच सेतु: 'रिपोर्ट 5923' का निर्माण
हम Y7 के साथ अपने सहयोग को साझा करने के लिए उत्साहित हैं: एक घंटे की अनोखी विज्ञान-फाई फिल्म जिसका शीर्षक है रिपोर्ट 5923. नीचे Y7 कलाकारों द्वारा इसे बनाने के अनुभव की कहानी दी गई है। वे दार्शनिक और सैद्धांतिक तत्वों को जोड़ते हुए ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस जैसे विषयों का अन्वेषण करते हैं। इस परियोजना के समर्थन में इलेवनलैब्स में हमारी भूमिका कला को एआई के साथ एकीकृत करने में सहायता करना था। Y7 की रचनात्मक प्रक्रिया और उन्होंने इसे कैसे लाया, इसके बारे में नीचे पढ़ें रिपोर्ट 5923 जीवन के लिए.
रिपोर्ट 5923 यह एक घंटे की विज्ञान-फाई फिल्म है, जो मुख्य रूप से एआई और विभिन्न उपकरणों और विधियों का उपयोग करके बनाई गई है। यह फिल्म मुख्य पात्र शेवेक की तीन विभिन्न ग्रहों के बीच की यात्रा पर आधारित है, जिसमें वह एक नृवंशविज्ञान रिपोर्ट संकलित कर रही है। ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस पूरी कहानी में बार-बार आने वाले विषय हैं, जो व्यापक रूप से विश्व-निर्माण और तकनीकी-आशावाद की धारणाओं से संबंधित हैं। यह कृति उन विचारों को सामने लाने का प्रयास करती है जो हमें दार्शनिक और सैद्धांतिक कृतियों में मिले हैं, जिन्हें हम पसंद करते हैं; विशेष रूप से गिल्स डेल्यूज़ और फेलिक्स गुआटारी की कृतियों में।
इसे पहले एक कार्य-प्रगति के रूप में प्रस्तुत किया गया था तथ्यलिवरपूल, यूके स्थित एक गैलरी और सिनेमा, जिन्होंने हमें जून 2023 में कलाकारों, शोधकर्ताओं और क्यूरेटरों को सहायता प्रदान करने के लिए समर्पित दो दिवसीय कार्यशाला के अंत में अपना कार्य प्रस्तुत करने के लिए कहा था। कार्यक्रम का नाम 'टर्निंग टुगेदर' था, जिसका शीर्षक काल्पनिक कथा लेखिका उर्सुला के. ले गुइन की 'मातृभाषा' की समझ से लिया गया था, जो संवाद स्थापित करने का एक तरीका है, जो सुनने और एक-दूसरे से जुड़ने पर आधारित है। स्क्रीनिंग के बाद हम इतने भाग्यशाली थे कि हमें फिल्म के पूरा होने के लिए इलेवनलैब्स से तुरंत धन प्राप्त हो गया, क्योंकि उन्हें पता चला कि हम उनके उपकरणों का उपयोग फिल्म निर्माण में कर रहे हैं। प्रतिवेदन और हमारा व्यापक अभ्यास।
के जवाब में तथ्यले गिनी के संदर्भ में हमने उनके उपन्यास पर आधारित ओपनएआई जीपीटी-3.5 मॉडल को बेहतर बनाने का निर्णय लिया था। वंचित एआई के साथ मिलकर एक स्क्रिप्ट लिखने की दृष्टि से। फाइन-ट्यूनिंग, चैटजीपीटी के साथ अंतःक्रिया करने से भिन्न है; फाइन-ट्यूनिंग के साथ आप अनिवार्य रूप से मॉडल को पहले से सीखे गए सामान्य भाषाई ज्ञान के शीर्ष पर एक नए डेटासेट में विशेषज्ञता प्राप्त करने के लिए तैयार कर रहे हैं। एक बार प्रशिक्षित होने के बाद, आपका नया मॉडल आपके डेटासेट की शैली में नया पाठ तैयार कर सकता है, और आप एक पैरामीटर के माध्यम से यह नियंत्रित कर सकते हैं कि ऐसा करते समय यह मूल से कितना जुड़ा रहता है तापमानतापमान जितना कम होगा, आउटपुट में पाठ उतना ही अधिक खंडित और यादृच्छिक होगा, तापमान जितना अधिक होगा, डेटासेट के अंशों को शब्दशः दोहराने की संभावना उतनी ही अधिक होगी। यह एक सुखद मध्यम मार्ग खोजने के बारे में है। इस परिष्कृत मॉडल को एक ऐसे मॉडल के रूप में सोचें ले गिनी की वाइब का निष्कर्षण. इस अर्थ में यह एक नए प्रकार का फैन-फ़िक्शन है। हमने सामूहिक रूप से, एक साथ मिलकर, संज्ञा 'उर्सुला के. ले गिनी' को क्रिया में बदल दिया है। अब हम यह कर सकते हैं ले गिनी जितना हम चित्र बना सकते हैं, मूर्ति बना सकते हैं या गा सकते हैं।
अतः विभिन्न तापमानों के साथ प्रयोग करने के बाद एक कहानी की रूपरेखा उभरने लगी। ए.आई. के साथ सह-लेखन की प्रक्रिया कुछ हद तक विलियम-बरोज-बाय-वे ऑफ डेविड-बॉवी कट-अप तकनीक के समान लगती है: हमने पाठ के विभिन्न टुकड़ों के बीच लिंक बनाना शुरू किया; कभी-कभी ए.आई. हमारे अंदर विचारों को जगाती थी, जिन्हें हम सीधे ए.आई. को भेज देते थे, और कभी-कभी हम अपने प्रिय लेखकों के पाठ के प्रासंगिक अंश भेज देते थे। अंत में, यह भेद करना कठिन हो गया कि किसने क्या लिखा है और विचार कहां से आये हैं - हालांकि यह परंपरागत लेखन से भिन्न नहीं है! यदि दबाव डाला जाए तो हमारा अनुमान है कि लेखन श्रेय का लगभग 60/40 हिस्सा हमारे पक्ष में होगा। समग्र कहानी ऐसी नहीं है जिसे एआई तैयार करने में सक्षम हो। तकनीकी रूप से यह चैटजीपीटी के साथ संभव होगा, लेकिन जब आप चैटजीपीटी के साथ कहानी कहने की संरचना में प्रवेश करते हैं तो यह तुरंत ही खुद को बहुत ही फार्मूलाबद्ध और अजीब तरह से सुखद अंत पर निर्भर बताता है।
पटकथा के विकास के साथ-साथ एआई उपकरणों (मुख्य रूप से मिडजर्नी और रनवे के जेन-2) का उपयोग करके कहानी का दृश्यांकन भी किया गया। हमारे सामने मुख्य बाधाओं में से एक थी, शुमोन बसर द्वारा 'मिडजर्नी की मध्य-स्थिति' कहे जाने वाले तत्व से लड़ने की कोशिश करना: किचट डेविएंटआर्ट सौंदर्यशास्त्र के प्रति एक अंतर्निहित झुकाव, जो कि बहुत सारे टेक्स्ट-टू-कंटेंट टूल्स में पाया जाता है, जो अक्सर महिलाओं के स्त्री-द्वेषी और बचकाने चित्रण के साथ आता है। इस समस्या से निपटने का पहला तरीका यह था कि हमने अपने प्रॉम्प्ट में तकनीकी फोटोग्राफिक शब्दावली का प्रयोग किया, ताकि हम अत्यधिक शैलीगत चित्रों से दूर रह सकें। इसका एक बड़ा प्रभाव यह हुआ कि प्रतिवेदन इसका कारण यह था कि इसने हमें मुख्य पात्र, शेवेक को एक युवा महिला से एक वृद्ध महिला में बदलने के लिए प्रेरित किया। जब संकेत मिलता है, तो मिडजर्नी अक्सर वृद्ध महिलाओं को घोर आतंक की वस्तु के रूप में चित्रित करती है, जो हमें लगा कि हमारे नायक के लिए एक अधिक समृद्ध, विध्वंसक और जटिल सौंदर्यात्मक आधार था; ले गुइन के दावे से भी कम समर्थन नहीं मिलता है अंतरिक्ष क्रोन कि वृद्ध महिलाएं अन्तरिक्षीय यात्रा के लिए आदर्श सांसारिक प्रतिनिधि होंगी।
ए.आई. के साथ काम करते समय हमारा चरित्र अक्सर (परन्तु विशेष रूप से नहीं) गड़बड़ियों और रुकावटों की ओर झुकाव रखने का होता है; ऐसे क्षणों का सृजन करने का प्रयास करना, जहां ए.आई. अपना मुखौटा लगाना या नकल करना भूल जाए, जहां हम उसे उस दिशा में ले जा सकें, संकेत दे सकें और जेलब्रेक कर सकें, जहां वह उन शैलीगत जालों को दोहराना बंद कर दे, जिनके लिए उसे प्रोग्राम किया गया है, तथा ऐसी सामग्री का उत्पादन शुरू कर दे, जो ऐसा महसूस कराए कि वह अपने ही भ्रमों को दोहरा रही है; जैसे कि वह अपेक्षा से अधिक अपने जैसा व्यवहार कर रही हो।
एआई का उपयोग आगे लाने के लिए किया गया प्रतिवेदन ध्वनिगत रूप से जीवन में लाना: टेक्स्ट-टू-ऑडियो उपकरण और रॉ ऑडियो न्यूरल नेटवर्क ने हमें एक व्यस्त स्टेशन प्लेटफॉर्म की ध्वनि से लेकर टेप मशीन की आवाज़ तक, या फिर साउंडट्रैक के लिए सिंथ्स, अमूर्त स्वर और पॉलीरिदमिक ड्रम पैटर्न की आवाज़ तक सब कुछ समेटने में मदद की। इसके बाद हमने अपनी कहानी सुनाने और अपने पात्रों को जीवंत बनाने के लिए इलेवनलैब्स के स्पीच सिंथेसिस टूल का उपयोग किया: रिपोर्ट 5923 यह हमारे द्वारा व्यवस्थित तंत्रिका नेटवर्कों का एक मिश्रण है, और हम आशा करते हैं कि आपको इसे देखने में उतना ही आनंद आएगा जितना हमें इसे बनाने में आया है!
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
ElevenLabs द्वारा संचालित एजेंट्स