
वीडियो वॉइसओवर, विज्ञापन, पॉडकास्ट और बहुत कुछ अपनी ही आवाज़ में ऑटोमेट करें
ElevenLabs की वॉइस क्लोनिंग तकनीक की बदौलत सल्वाडोर डाली के साथ 70,000 से अधिक बातचीत हो चुकी हैं — उनकी मृत्यु के दशकों बाद।
सेंट पीटर्सबर्ग, फ्लोरिडा में दाली म्यूज़ियम 1982 में महान सर्रियलिस्ट सल्वाडोर दाली के जीवन और कला का जश्न मनाने के लिए खोला गया था। इस संग्रह में 2,400 से अधिक टुकड़े शामिल हैं, जिनमें पेंटिंग्स, चित्र, मूर्तियाँ, किताबें और फोटोग्राफ शामिल हैं।
म्यूज़ियम की स्थापना ए. रेनॉल्ड्स और एलेनोर मोर्स द्वारा एकत्रित कार्यों के साथ की गई थी, जो दाली के समर्पित संरक्षक और मित्र थे। 40 वर्षों में, उनका निजी संग्रह अमेरिका में उनके कार्यों का सबसे बड़ा संग्रह बन गया। आज, म्यूज़ियम के क्यूरेटर इसके प्रदर्शनों को बढ़ाते रहते हैं।
अब, एक AI-संचालित इंस्टॉलेशन आस्क दाली की बदौलत, कलाकार की उपस्थिति को डिजिटल रूप से पुनः निर्मित किया गया है। यह प्रोजेक्ट म्यूज़ियम और क्रिएटिव एजेंसी गुडबी सिल्वरस्टीन एंड पार्टनर्स (GS&P) के सहयोग से विकसित किया गया है, जो ElevenLabs AI वॉइस और Voice Cloning तकनीक का उपयोग करता है, जिससे आगंतुक दाली के प्रसिद्ध लॉब्स्टर फोन के माध्यम से बातचीत कर सकते हैं।
आगंतुक प्रश्न पूछ सकते हैं और कलाकार की आवाज़ और शैली में उत्तर प्राप्त कर सकते हैं।
यह प्रदर्शनी उन्नत वॉइस तकनीक को एक इंटरैक्टिव, सर्रियलिस्ट इंटरफ़ेस के साथ मिलाती है। इसके लॉन्च के बाद से, आस्क दाली ने 75,000 से अधिक वार्तालाप रिकॉर्ड किए हैं, जिनमें कला और इतिहास से लेकर समकालीन घटनाओं और व्यक्तिगत विचारों तक के विषय शामिल हैं।
मार्टिन पाग लुडविगसेन, GS&P में प्रोजेक्ट लीड, ने दाली की वॉइस के पीछे की प्रेरणा को समझाया: “मूल विचार यह था कि लोग म्यूज़ियम में घूमते समय एक गाइड का उपयोग कर सकें। यह थोड़ा जटिल हो गया, इसलिए हमने एक स्थान पर दाली के साथ प्रश्नोत्तर चैट पर ध्यान केंद्रित किया।”
माध्यम के रूप में लॉब्स्टर फोन का उपयोग दाली के टेलीफोनों के प्रति आकर्षण — और प्रेम-घृणा संबंध — को दर्शाता है। उन्होंने प्रसिद्ध सर्रियलिस्ट वस्तु के चार रंग संस्करण और छह ऑफ-व्हाइट मॉडल बनाए, जिनमें से एक म्यूज़ियम में गर्व से प्रदर्शित है।
.webp&w=3840&q=95)
गैर-लाभकारी दाली म्यूज़ियम का तकनीक को अपनाने का एक मजबूत इतिहास है। नियमित VR अनुभवों के साथ, यह दाली लाइव्स चलाता है, जो कलाकार की AI-जनित, जीवन-आकार की वीडियो पुनःनिर्माण की एक स्थायी प्रदर्शनी है। 2018 में इसके लॉन्च के बाद से, यह पुरस्कार विजेता प्रदर्शनी म्यूज़ियम के सबसे लोकप्रिय डिजिटल अनुभवों में से एक रही है।
दाली की वॉइस ElevenLabs के Eleven Multilingual V2 टेक्स्ट टू स्पीच मॉडल द्वारा संचालित है, साथ ही OpenAI के GPT-4 द्वारा, जो वार्तालाप प्रतिक्रियाओं को संभालता है। AI वॉइस को दाली के इंटरव्यू, लेखन और भाषण पैटर्न के नमूनों पर प्रशिक्षित किया गया था ताकि कलाकार के जितना संभव हो सके एक डिजिटल व्यक्तित्व बनाया जा सके।
इस समझ को ElevenLabs की लो-लेटेंसी ऑडियो प्रोसेसिंग के साथ जोड़ा गया है, जिससे त्वरित, वास्तविक वॉइस प्रतिक्रियाएं सक्षम होती हैं। AI मॉडल समय के साथ इंटरैक्शन को सीखते और परिष्कृत करते रहते हैं, जिससे जुड़ाव बढ़ता है।
मार्टिन पाग लुडविगसेन ने बताया कि यह विचार कैसे आया: “हमारी क्रिएटिव टीम के दो सदस्यों ने एक ग्राहक सेवा कॉल में ElevenLabs के वॉइस मॉडल का डेमो देखा। इससे एक विचार उत्पन्न हुआ — क्यों न एक वार्तालाप प्रदर्शनी बनाई जाए जहां लोग दाली से बात कर सकें?”
एक चुनौती यह थी कि दाली की पहली भाषाएँ कैटलन, स्पेनिश और फ्रेंच थीं। हालांकि, ElevenLabs की बहुभाषी क्षमताओं ने टीम को अंग्रेजी में मॉडल को प्रशिक्षित करने की अनुमति दी, जबकि दाली के विशिष्ट भाषण पैटर्न को संरक्षित किया।
दिलचस्प बात यह है कि जब दाली का AI स्पेनिश बोलता है, तो यह कैटलन उच्चारण के साथ करता है, जो उनके प्रामाणिक भाषण शैली को दर्शाता है। अब तक, आगंतुकों ने इस विवरण पर ध्यान देने के लिए सकारात्मक प्रतिक्रिया दी है। टीम ने पाया कि वे दाली के अंग्रेजी बोलने के उदाहरणों पर वॉइस मॉडल को प्रशिक्षित करते समय कैटलन उच्चारण के करीब पहुंचने में सक्षम थे , स्पेनिश की तुलना में।

वीडियो वॉइसओवर, विज्ञापन, पॉडकास्ट और बहुत कुछ अपनी ही आवाज़ में ऑटोमेट करें
दाली की आवाज़ का प्रशिक्षण एक पुनरावृत्त प्रक्रिया की आवश्यकता थी। टीम ने मॉडल के कई संस्करण चलाए, आउटपुट को तब तक परिष्कृत किया जब तक वे सबसे निकटतम मेल प्राप्त नहीं कर सके।
एक और चुनौती यह सुनिश्चित करना था कि दाली की व्यक्तित्व को ईमानदारी से पुनः निर्मित किया जाए। जैसा कि दाली म्यूज़ियम की बेथ हैरिसन ने समझाया: “हमारा लक्ष्य था कि दाली को उनके म्यूज़ियम में जीवंत किया जाए। हमें उनके डिजिटल व्यक्तित्व को यथासंभव वास्तविक महसूस कराना था।”
इसे प्राप्त करने के लिए, टीम ने दाली के रिकॉर्डेड भाषण और लेखन के आधार पर GPT-4 के लिए एक विस्तृत प्रॉम्प्ट तैयार किया, यह सुनिश्चित करते हुए कि आवाज़ न केवल दाली की तरह सुनाई दे, बल्कि उनकी तरह प्रतिक्रिया भी दे।
AI का पहला वास्तविक परीक्षण ऑस्टिन, टेक्सास में साउथ बाय साउथवेस्ट (SXSW) में हुआ, जहां एक प्री-लॉन्च डेमो प्रस्तुत किया गया। हालांकि सिस्टम अभी भी विकास में था, आवाज़ की सटीकता और दाली की सर्रियलिस्ट प्रतिक्रियाओं ने दर्शकों को प्रभावित किया।

प्रोजेक्ट के सबसे आश्चर्यजनक परिणामों में से एक दाली की प्रतिक्रियाओं में स्वाभाविकता रही है।
बेथ हैरिसन ने साझा किया: “कुछ प्रतिक्रियाएँ इतनी सर्रियल हैं कि केवल दाली ही उन्हें सोच सकते थे। हमने देखा है कि वह एक प्रश्न का उत्तर एक और प्रश्न से देते हैं — जैसे कि वह जानबूझकर बातचीत में शामिल हो रहे हों।”
यह AI में प्रोग्राम नहीं किया गया था, बल्कि इसके डिज़ाइन से स्वाभाविक रूप से उभरा।
प्रदर्शनी को गोपनीयता को ध्यान में रखकर डिज़ाइन किया गया है। आगंतुक एक समय में एक प्रश्न पूछते हैं, और जबकि प्रतिक्रियाएँ रिकॉर्ड की जाती हैं, सार्वजनिक प्रश्न संग्रहीत नहीं होते।
इसके अलावा, कोई साइन-अप प्रक्रिया नहीं है, जिससे अनुभव सहज और अंतरंग बनता है। टेलीफोन हैंडसेट का स्पर्श अनुभव को बढ़ाता है, सीधे दाली से बात करने का भ्रम पैदा करता है।
टीम पहले से ही भविष्य की इंस्टॉलेशन की खोज कर रही है, तकनीक और रचनात्मकता की सीमाओं को आगे बढ़ाते हुए दाली की दूरदर्शी दुनिया को नए और अप्रत्याशित तरीकों से जीवंत कर रही है।
आस्क दाली ने साबित कर दिया है कि AI केवल भाषण की नकल नहीं कर सकता — यह एक कलाकार के सार को पुनः निर्मित कर सकता है। इस इंस्टॉलेशन के माध्यम से, आगंतुक सर्रियलिस्ट की बुद्धि, आकर्षण और रहस्य को गहराई से व्यक्तिगत तरीके से अनुभव कर सकते हैं।

ElevenLabs is an official partner of Audi Revolut F1 Team

Reducing time to ticket resolution by 8x with multilingual conversational agents.