
Eleven v3 Audio Tags: Bringing multi-character dialogue to life
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Eleven v3 अल्फा का परिचय
v3 आजमाएंकला और एआई के बीच सेतु: 'रिपोर्ट 5923' का निर्माण
हम Y7 के साथ अपने सहयोग को साझा करने के लिए उत्साहित हैं: एक घंटे की अनोखी विज्ञान-फाई फिल्म जिसका शीर्षक है रिपोर्ट 5923. नीचे Y7 कलाकारों द्वारा इसे बनाने के अनुभव की कहानी दी गई है। वे दार्शनिक और सैद्धांतिक तत्वों को जोड़ते हुए ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस जैसे विषयों का अन्वेषण करते हैं। इस परियोजना के समर्थन में इलेवनलैब्स में हमारी भूमिका कला को एआई के साथ एकीकृत करने में सहायता करना था। Y7 की रचनात्मक प्रक्रिया और उन्होंने इसे कैसे लाया, इसके बारे में नीचे पढ़ें रिपोर्ट 5923 जीवन के लिए.
रिपोर्ट 5923 यह एक घंटे की विज्ञान-फाई फिल्म है, जो मुख्य रूप से एआई और विभिन्न उपकरणों और विधियों का उपयोग करके बनाई गई है। यह फिल्म मुख्य पात्र शेवेक की तीन विभिन्न ग्रहों के बीच की यात्रा पर आधारित है, जिसमें वह एक नृवंशविज्ञान रिपोर्ट संकलित कर रही है। ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस पूरी कहानी में बार-बार आने वाले विषय हैं, जो व्यापक रूप से विश्व-निर्माण और तकनीकी-आशावाद की धारणाओं से संबंधित हैं। यह कृति उन विचारों को सामने लाने का प्रयास करती है जो हमें दार्शनिक और सैद्धांतिक कृतियों में मिले हैं, जिन्हें हम पसंद करते हैं; विशेष रूप से गिल्स डेल्यूज़ और फेलिक्स गुआटारी की कृतियों में।
इसे पहले एक कार्य-प्रगति के रूप में प्रस्तुत किया गया था तथ्यलिवरपूल, यूके स्थित एक गैलरी और सिनेमा, जिन्होंने हमें जून 2023 में कलाकारों, शोधकर्ताओं और क्यूरेटरों को सहायता प्रदान करने के लिए समर्पित दो दिवसीय कार्यशाला के अंत में अपना कार्य प्रस्तुत करने के लिए कहा था। कार्यक्रम का नाम 'टर्निंग टुगेदर' था, जिसका शीर्षक काल्पनिक कथा लेखिका उर्सुला के. ले गुइन की 'मातृभाषा' की समझ से लिया गया था, जो संवाद स्थापित करने का एक तरीका है, जो सुनने और एक-दूसरे से जुड़ने पर आधारित है। स्क्रीनिंग के बाद हम इतने भाग्यशाली थे कि हमें फिल्म के पूरा होने के लिए इलेवनलैब्स से तुरंत धन प्राप्त हो गया, क्योंकि उन्हें पता चला कि हम उनके उपकरणों का उपयोग फिल्म निर्माण में कर रहे हैं। प्रतिवेदन और हमारा व्यापक अभ्यास।
के जवाब में तथ्यले गिनी के संदर्भ में हमने उनके उपन्यास पर आधारित ओपनएआई जीपीटी-3.5 मॉडल को बेहतर बनाने का निर्णय लिया था। वंचित एआई के साथ मिलकर एक स्क्रिप्ट लिखने की दृष्टि से। फाइन-ट्यूनिंग, चैटजीपीटी के साथ अंतःक्रिया करने से भिन्न है; फाइन-ट्यूनिंग के साथ आप अनिवार्य रूप से मॉडल को पहले से सीखे गए सामान्य भाषाई ज्ञान के शीर्ष पर एक नए डेटासेट में विशेषज्ञता प्राप्त करने के लिए तैयार कर रहे हैं। एक बार प्रशिक्षित होने के बाद, आपका नया मॉडल आपके डेटासेट की शैली में नया पाठ तैयार कर सकता है, और आप एक पैरामीटर के माध्यम से यह नियंत्रित कर सकते हैं कि ऐसा करते समय यह मूल से कितना जुड़ा रहता है तापमानतापमान जितना कम होगा, आउटपुट में पाठ उतना ही अधिक खंडित और यादृच्छिक होगा, तापमान जितना अधिक होगा, डेटासेट के अंशों को शब्दशः दोहराने की संभावना उतनी ही अधिक होगी। यह एक सुखद मध्यम मार्ग खोजने के बारे में है। इस परिष्कृत मॉडल को एक ऐसे मॉडल के रूप में सोचें ले गिनी की वाइब का निष्कर्षण. इस अर्थ में यह एक नए प्रकार का फैन-फ़िक्शन है। हमने सामूहिक रूप से, एक साथ मिलकर, संज्ञा 'उर्सुला के. ले गिनी' को क्रिया में बदल दिया है। अब हम यह कर सकते हैं ले गिनी जितना हम चित्र बना सकते हैं, मूर्ति बना सकते हैं या गा सकते हैं।
अतः विभिन्न तापमानों के साथ प्रयोग करने के बाद एक कहानी की रूपरेखा उभरने लगी। ए.आई. के साथ सह-लेखन की प्रक्रिया कुछ हद तक विलियम-बरोज-बाय-वे ऑफ डेविड-बॉवी कट-अप तकनीक के समान लगती है: हमने पाठ के विभिन्न टुकड़ों के बीच लिंक बनाना शुरू किया; कभी-कभी ए.आई. हमारे अंदर विचारों को जगाती थी, जिन्हें हम सीधे ए.आई. को भेज देते थे, और कभी-कभी हम अपने प्रिय लेखकों के पाठ के प्रासंगिक अंश भेज देते थे। अंत में, यह भेद करना कठिन हो गया कि किसने क्या लिखा है और विचार कहां से आये हैं - हालांकि यह परंपरागत लेखन से भिन्न नहीं है! यदि दबाव डाला जाए तो हमारा अनुमान है कि लेखन श्रेय का लगभग 60/40 हिस्सा हमारे पक्ष में होगा। समग्र कहानी ऐसी नहीं है जिसे एआई तैयार करने में सक्षम हो। तकनीकी रूप से यह चैटजीपीटी के साथ संभव होगा, लेकिन जब आप चैटजीपीटी के साथ कहानी कहने की संरचना में प्रवेश करते हैं तो यह तुरंत ही खुद को बहुत ही फार्मूलाबद्ध और अजीब तरह से सुखद अंत पर निर्भर बताता है।
पटकथा के विकास के साथ-साथ एआई उपकरणों (मुख्य रूप से मिडजर्नी और रनवे के जेन-2) का उपयोग करके कहानी का दृश्यांकन भी किया गया। हमारे सामने मुख्य बाधाओं में से एक थी, शुमोन बसर द्वारा 'मिडजर्नी की मध्य-स्थिति' कहे जाने वाले तत्व से लड़ने की कोशिश करना: किचट डेविएंटआर्ट सौंदर्यशास्त्र के प्रति एक अंतर्निहित झुकाव, जो कि बहुत सारे टेक्स्ट-टू-कंटेंट टूल्स में पाया जाता है, जो अक्सर महिलाओं के स्त्री-द्वेषी और बचकाने चित्रण के साथ आता है। इस समस्या से निपटने का पहला तरीका यह था कि हमने अपने प्रॉम्प्ट में तकनीकी फोटोग्राफिक शब्दावली का प्रयोग किया, ताकि हम अत्यधिक शैलीगत चित्रों से दूर रह सकें। इसका एक बड़ा प्रभाव यह हुआ कि प्रतिवेदन इसका कारण यह था कि इसने हमें मुख्य पात्र, शेवेक को एक युवा महिला से एक वृद्ध महिला में बदलने के लिए प्रेरित किया। जब संकेत मिलता है, तो मिडजर्नी अक्सर वृद्ध महिलाओं को घोर आतंक की वस्तु के रूप में चित्रित करती है, जो हमें लगा कि हमारे नायक के लिए एक अधिक समृद्ध, विध्वंसक और जटिल सौंदर्यात्मक आधार था; ले गुइन के दावे से भी कम समर्थन नहीं मिलता है अंतरिक्ष क्रोन कि वृद्ध महिलाएं अन्तरिक्षीय यात्रा के लिए आदर्श सांसारिक प्रतिनिधि होंगी।
ए.आई. के साथ काम करते समय हमारा चरित्र अक्सर (परन्तु विशेष रूप से नहीं) गड़बड़ियों और रुकावटों की ओर झुकाव रखने का होता है; ऐसे क्षणों का सृजन करने का प्रयास करना, जहां ए.आई. अपना मुखौटा लगाना या नकल करना भूल जाए, जहां हम उसे उस दिशा में ले जा सकें, संकेत दे सकें और जेलब्रेक कर सकें, जहां वह उन शैलीगत जालों को दोहराना बंद कर दे, जिनके लिए उसे प्रोग्राम किया गया है, तथा ऐसी सामग्री का उत्पादन शुरू कर दे, जो ऐसा महसूस कराए कि वह अपने ही भ्रमों को दोहरा रही है; जैसे कि वह अपेक्षा से अधिक अपने जैसा व्यवहार कर रही हो।
एआई का उपयोग आगे लाने के लिए किया गया प्रतिवेदन ध्वनिगत रूप से जीवन में लाना: टेक्स्ट-टू-ऑडियो उपकरण और रॉ ऑडियो न्यूरल नेटवर्क ने हमें एक व्यस्त स्टेशन प्लेटफॉर्म की ध्वनि से लेकर टेप मशीन की आवाज़ तक, या फिर साउंडट्रैक के लिए सिंथ्स, अमूर्त स्वर और पॉलीरिदमिक ड्रम पैटर्न की आवाज़ तक सब कुछ समेटने में मदद की। इसके बाद हमने अपनी कहानी सुनाने और अपने पात्रों को जीवंत बनाने के लिए इलेवनलैब्स के स्पीच सिंथेसिस टूल का उपयोग किया: रिपोर्ट 5923 यह हमारे द्वारा व्यवस्थित तंत्रिका नेटवर्कों का एक मिश्रण है, और हम आशा करते हैं कि आपको इसे देखने में उतना ही आनंद आएगा जितना हमें इसे बनाने में आया है!
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Learn how Voice Cloning works, how to use it, and how to get started.