
Building clinical-grade voice agents for Pharma
Increasing physician reach by 30% and cutting admin time by 10 hrs/week
कला और एआई के बीच सेतु: 'रिपोर्ट 5923' का निर्माण
हम Y7 के साथ अपने सहयोग को साझा करने के लिए उत्साहित हैं: एक घंटे की अनोखी विज्ञान-फाई फिल्म जिसका शीर्षक है रिपोर्ट 5923. नीचे Y7 कलाकारों द्वारा इसे बनाने के अनुभव की कहानी दी गई है। वे दार्शनिक और सैद्धांतिक तत्वों को जोड़ते हुए ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस जैसे विषयों का अन्वेषण करते हैं। इस परियोजना के समर्थन में इलेवनलैब्स में हमारी भूमिका कला को एआई के साथ एकीकृत करने में सहायता करना था। Y7 की रचनात्मक प्रक्रिया और उन्होंने इसे कैसे लाया, इसके बारे में नीचे पढ़ें रिपोर्ट 5923 जीवन के लिए.
रिपोर्ट 5923 यह एक घंटे की विज्ञान-फाई फिल्म है, जो मुख्य रूप से एआई और विभिन्न उपकरणों और विधियों का उपयोग करके बनाई गई है। यह फिल्म मुख्य पात्र शेवेक की तीन विभिन्न ग्रहों के बीच की यात्रा पर आधारित है, जिसमें वह एक नृवंशविज्ञान रिपोर्ट संकलित कर रही है। ध्वनि, ध्वनि युद्ध और ऑडियो-एज़-वायरस पूरी कहानी में बार-बार आने वाले विषय हैं, जो व्यापक रूप से विश्व-निर्माण और तकनीकी-आशावाद की धारणाओं से संबंधित हैं। यह कृति उन विचारों को सामने लाने का प्रयास करती है जो हमें दार्शनिक और सैद्धांतिक कृतियों में मिले हैं, जिन्हें हम पसंद करते हैं; विशेष रूप से गिल्स डेल्यूज़ और फेलिक्स गुआटारी की कृतियों में।
इसे पहले एक कार्य-प्रगति के रूप में प्रस्तुत किया गया था तथ्यलिवरपूल, यूके स्थित एक गैलरी और सिनेमा, जिन्होंने हमें जून 2023 में कलाकारों, शोधकर्ताओं और क्यूरेटरों को सहायता प्रदान करने के लिए समर्पित दो दिवसीय कार्यशाला के अंत में अपना कार्य प्रस्तुत करने के लिए कहा था। कार्यक्रम का नाम 'टर्निंग टुगेदर' था, जिसका शीर्षक काल्पनिक कथा लेखिका उर्सुला के. ले गुइन की 'मातृभाषा' की समझ से लिया गया था, जो संवाद स्थापित करने का एक तरीका है, जो सुनने और एक-दूसरे से जुड़ने पर आधारित है। स्क्रीनिंग के बाद हम इतने भाग्यशाली थे कि हमें फिल्म के पूरा होने के लिए इलेवनलैब्स से तुरंत धन प्राप्त हो गया, क्योंकि उन्हें पता चला कि हम उनके उपकरणों का उपयोग फिल्म निर्माण में कर रहे हैं। प्रतिवेदन और हमारा व्यापक अभ्यास।
के जवाब में तथ्यले गिनी के संदर्भ में हमने उनके उपन्यास पर आधारित ओपनएआई जीपीटी-3.5 मॉडल को बेहतर बनाने का निर्णय लिया था। वंचित एआई के साथ मिलकर एक स्क्रिप्ट लिखने की दृष्टि से। फाइन-ट्यूनिंग, चैटजीपीटी के साथ अंतःक्रिया करने से भिन्न है; फाइन-ट्यूनिंग के साथ आप अनिवार्य रूप से मॉडल को पहले से सीखे गए सामान्य भाषाई ज्ञान के शीर्ष पर एक नए डेटासेट में विशेषज्ञता प्राप्त करने के लिए तैयार कर रहे हैं। एक बार प्रशिक्षित होने के बाद, आपका नया मॉडल आपके डेटासेट की शैली में नया पाठ तैयार कर सकता है, और आप एक पैरामीटर के माध्यम से यह नियंत्रित कर सकते हैं कि ऐसा करते समय यह मूल से कितना जुड़ा रहता है तापमानतापमान जितना कम होगा, आउटपुट में पाठ उतना ही अधिक खंडित और यादृच्छिक होगा, तापमान जितना अधिक होगा, डेटासेट के अंशों को शब्दशः दोहराने की संभावना उतनी ही अधिक होगी। यह एक सुखद मध्यम मार्ग खोजने के बारे में है। इस परिष्कृत मॉडल को एक ऐसे मॉडल के रूप में सोचें ले गिनी की वाइब का निष्कर्षण. इस अर्थ में यह एक नए प्रकार का फैन-फ़िक्शन है। हमने सामूहिक रूप से, एक साथ मिलकर, संज्ञा 'उर्सुला के. ले गिनी' को क्रिया में बदल दिया है। अब हम यह कर सकते हैं ले गिनी जितना हम चित्र बना सकते हैं, मूर्ति बना सकते हैं या गा सकते हैं।
अतः विभिन्न तापमानों के साथ प्रयोग करने के बाद एक कहानी की रूपरेखा उभरने लगी। ए.आई. के साथ सह-लेखन की प्रक्रिया कुछ हद तक विलियम-बरोज-बाय-वे ऑफ डेविड-बॉवी कट-अप तकनीक के समान लगती है: हमने पाठ के विभिन्न टुकड़ों के बीच लिंक बनाना शुरू किया; कभी-कभी ए.आई. हमारे अंदर विचारों को जगाती थी, जिन्हें हम सीधे ए.आई. को भेज देते थे, और कभी-कभी हम अपने प्रिय लेखकों के पाठ के प्रासंगिक अंश भेज देते थे। अंत में, यह भेद करना कठिन हो गया कि किसने क्या लिखा है और विचार कहां से आये हैं - हालांकि यह परंपरागत लेखन से भिन्न नहीं है! यदि दबाव डाला जाए तो हमारा अनुमान है कि लेखन श्रेय का लगभग 60/40 हिस्सा हमारे पक्ष में होगा। समग्र कहानी ऐसी नहीं है जिसे एआई तैयार करने में सक्षम हो। तकनीकी रूप से यह चैटजीपीटी के साथ संभव होगा, लेकिन जब आप चैटजीपीटी के साथ कहानी कहने की संरचना में प्रवेश करते हैं तो यह तुरंत ही खुद को बहुत ही फार्मूलाबद्ध और अजीब तरह से सुखद अंत पर निर्भर बताता है।
पटकथा के विकास के साथ-साथ एआई उपकरणों (मुख्य रूप से मिडजर्नी और रनवे के जेन-2) का उपयोग करके कहानी का दृश्यांकन भी किया गया। हमारे सामने मुख्य बाधाओं में से एक थी, शुमोन बसर द्वारा 'मिडजर्नी की मध्य-स्थिति' कहे जाने वाले तत्व से लड़ने की कोशिश करना: किचट डेविएंटआर्ट सौंदर्यशास्त्र के प्रति एक अंतर्निहित झुकाव, जो कि बहुत सारे टेक्स्ट-टू-कंटेंट टूल्स में पाया जाता है, जो अक्सर महिलाओं के स्त्री-द्वेषी और बचकाने चित्रण के साथ आता है। इस समस्या से निपटने का पहला तरीका यह था कि हमने अपने प्रॉम्प्ट में तकनीकी फोटोग्राफिक शब्दावली का प्रयोग किया, ताकि हम अत्यधिक शैलीगत चित्रों से दूर रह सकें। इसका एक बड़ा प्रभाव यह हुआ कि प्रतिवेदन इसका कारण यह था कि इसने हमें मुख्य पात्र, शेवेक को एक युवा महिला से एक वृद्ध महिला में बदलने के लिए प्रेरित किया। जब संकेत मिलता है, तो मिडजर्नी अक्सर वृद्ध महिलाओं को घोर आतंक की वस्तु के रूप में चित्रित करती है, जो हमें लगा कि हमारे नायक के लिए एक अधिक समृद्ध, विध्वंसक और जटिल सौंदर्यात्मक आधार था; ले गुइन के दावे से भी कम समर्थन नहीं मिलता है अंतरिक्ष क्रोन कि वृद्ध महिलाएं अन्तरिक्षीय यात्रा के लिए आदर्श सांसारिक प्रतिनिधि होंगी।
ए.आई. के साथ काम करते समय हमारा चरित्र अक्सर (परन्तु विशेष रूप से नहीं) गड़बड़ियों और रुकावटों की ओर झुकाव रखने का होता है; ऐसे क्षणों का सृजन करने का प्रयास करना, जहां ए.आई. अपना मुखौटा लगाना या नकल करना भूल जाए, जहां हम उसे उस दिशा में ले जा सकें, संकेत दे सकें और जेलब्रेक कर सकें, जहां वह उन शैलीगत जालों को दोहराना बंद कर दे, जिनके लिए उसे प्रोग्राम किया गया है, तथा ऐसी सामग्री का उत्पादन शुरू कर दे, जो ऐसा महसूस कराए कि वह अपने ही भ्रमों को दोहरा रही है; जैसे कि वह अपेक्षा से अधिक अपने जैसा व्यवहार कर रही हो।
एआई का उपयोग आगे लाने के लिए किया गया प्रतिवेदन ध्वनिगत रूप से जीवन में लाना: टेक्स्ट-टू-ऑडियो उपकरण और रॉ ऑडियो न्यूरल नेटवर्क ने हमें एक व्यस्त स्टेशन प्लेटफॉर्म की ध्वनि से लेकर टेप मशीन की आवाज़ तक, या फिर साउंडट्रैक के लिए सिंथ्स, अमूर्त स्वर और पॉलीरिदमिक ड्रम पैटर्न की आवाज़ तक सब कुछ समेटने में मदद की। इसके बाद हमने अपनी कहानी सुनाने और अपने पात्रों को जीवंत बनाने के लिए इलेवनलैब्स के स्पीच सिंथेसिस टूल का उपयोग किया: रिपोर्ट 5923 यह हमारे द्वारा व्यवस्थित तंत्रिका नेटवर्कों का एक मिश्रण है, और हम आशा करते हैं कि आपको इसे देखने में उतना ही आनंद आएगा जितना हमें इसे बनाने में आया है!

Increasing physician reach by 30% and cutting admin time by 10 hrs/week

AI agents pre-qualify ~210,000 calls per month, concentrating licensed capacity on eligible demand.
ElevenLabs द्वारा संचालित एजेंट्स