
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
ElevenLabs की वॉइस क्लोनिंग तकनीक की बदौलत सल्वाडोर डाली के साथ 70,000 से अधिक बातचीत हो चुकी हैं — उनकी मृत्यु के दशकों बाद।
सेंट पीटर्सबर्ग, फ्लोरिडा में दाली म्यूज़ियम 1982 में महान सर्रियलिस्ट सल्वाडोर दाली के जीवन और कला का जश्न मनाने के लिए खोला गया था। इस संग्रह में 2,400 से अधिक टुकड़े शामिल हैं, जिनमें पेंटिंग्स, चित्र, मूर्तियाँ, किताबें और फोटोग्राफ शामिल हैं।
म्यूज़ियम की स्थापना ए. रेनॉल्ड्स और एलेनोर मोर्स द्वारा एकत्रित कार्यों के साथ की गई थी, जो दाली के समर्पित संरक्षक और मित्र थे। 40 वर्षों में, उनका निजी संग्रह अमेरिका में उनके कार्यों का सबसे बड़ा संग्रह बन गया। आज, म्यूज़ियम के क्यूरेटर इसके प्रदर्शनों को बढ़ाते रहते हैं।
अब, एक AI-संचालित इंस्टॉलेशन आस्क दाली की बदौलत, कलाकार की उपस्थिति को डिजिटल रूप से पुनः निर्मित किया गया है। यह प्रोजेक्ट म्यूज़ियम और क्रिएटिव एजेंसी गुडबी सिल्वरस्टीन एंड पार्टनर्स (GS&P) के सहयोग से विकसित किया गया है, जो ElevenLabs AI वॉइस और Voice Cloning तकनीक का उपयोग करता है, जिससे आगंतुक दाली के प्रसिद्ध लॉब्स्टर फोन के माध्यम से बातचीत कर सकते हैं।
आगंतुक प्रश्न पूछ सकते हैं और कलाकार की आवाज़ और शैली में उत्तर प्राप्त कर सकते हैं।
यह प्रदर्शनी उन्नत वॉइस तकनीक को एक इंटरैक्टिव, सर्रियलिस्ट इंटरफ़ेस के साथ मिलाती है। इसके लॉन्च के बाद से, आस्क दाली ने 75,000 से अधिक वार्तालाप रिकॉर्ड किए हैं, जिनमें कला और इतिहास से लेकर समकालीन घटनाओं और व्यक्तिगत विचारों तक के विषय शामिल हैं।
मार्टिन पाग लुडविगसेन, GS&P में प्रोजेक्ट लीड, ने दाली की वॉइस के पीछे की प्रेरणा को समझाया: “मूल विचार यह था कि लोग म्यूज़ियम में घूमते समय एक गाइड का उपयोग कर सकें। यह थोड़ा जटिल हो गया, इसलिए हमने एक स्थान पर दाली के साथ प्रश्नोत्तर चैट पर ध्यान केंद्रित किया।”
माध्यम के रूप में लॉब्स्टर फोन का उपयोग दाली के टेलीफोनों के प्रति आकर्षण — और प्रेम-घृणा संबंध — को दर्शाता है। उन्होंने प्रसिद्ध सर्रियलिस्ट वस्तु के चार रंग संस्करण और छह ऑफ-व्हाइट मॉडल बनाए, जिनमें से एक म्यूज़ियम में गर्व से प्रदर्शित है।
.webp&w=3840&q=95)
गैर-लाभकारी दाली म्यूज़ियम का तकनीक को अपनाने का एक मजबूत इतिहास है। नियमित VR अनुभवों के साथ, यह दाली लाइव्स चलाता है, जो कलाकार की AI-जनित, जीवन-आकार की वीडियो पुनःनिर्माण की एक स्थायी प्रदर्शनी है। 2018 में इसके लॉन्च के बाद से, यह पुरस्कार विजेता प्रदर्शनी म्यूज़ियम के सबसे लोकप्रिय डिजिटल अनुभवों में से एक रही है।
दाली की वॉइस ElevenLabs के Eleven Multilingual V2 टेक्स्ट टू स्पीच मॉडल द्वारा संचालित है, साथ ही OpenAI के GPT-4 द्वारा, जो वार्तालाप प्रतिक्रियाओं को संभालता है। AI वॉइस को दाली के इंटरव्यू, लेखन और भाषण पैटर्न के नमूनों पर प्रशिक्षित किया गया था ताकि कलाकार के जितना संभव हो सके एक डिजिटल व्यक्तित्व बनाया जा सके।
इस समझ को ElevenLabs की लो-लेटेंसी ऑडियो प्रोसेसिंग के साथ जोड़ा गया है, जिससे त्वरित, वास्तविक वॉइस प्रतिक्रियाएं सक्षम होती हैं। AI मॉडल समय के साथ इंटरैक्शन को सीखते और परिष्कृत करते रहते हैं, जिससे जुड़ाव बढ़ता है।
मार्टिन पाग लुडविगसेन ने बताया कि यह विचार कैसे आया: “हमारी क्रिएटिव टीम के दो सदस्यों ने एक ग्राहक सेवा कॉल में ElevenLabs के वॉइस मॉडल का डेमो देखा। इससे एक विचार उत्पन्न हुआ — क्यों न एक वार्तालाप प्रदर्शनी बनाई जाए जहां लोग दाली से बात कर सकें?”
एक चुनौती यह थी कि दाली की पहली भाषाएँ कैटलन, स्पेनिश और फ्रेंच थीं। हालांकि, ElevenLabs की बहुभाषी क्षमताओं ने टीम को अंग्रेजी में मॉडल को प्रशिक्षित करने की अनुमति दी, जबकि दाली के विशिष्ट भाषण पैटर्न को संरक्षित किया।
दिलचस्प बात यह है कि जब दाली का AI स्पेनिश बोलता है, तो यह कैटलन उच्चारण के साथ करता है, जो उनके प्रामाणिक भाषण शैली को दर्शाता है। अब तक, आगंतुकों ने इस विवरण पर ध्यान देने के लिए सकारात्मक प्रतिक्रिया दी है। टीम ने पाया कि वे दाली के अंग्रेजी बोलने के उदाहरणों पर वॉइस मॉडल को प्रशिक्षित करते समय कैटलन उच्चारण के करीब पहुंचने में सक्षम थे , स्पेनिश की तुलना में।

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
दाली की आवाज़ का प्रशिक्षण एक पुनरावृत्त प्रक्रिया की आवश्यकता थी। टीम ने मॉडल के कई संस्करण चलाए, आउटपुट को तब तक परिष्कृत किया जब तक वे सबसे निकटतम मेल प्राप्त नहीं कर सके।
एक और चुनौती यह सुनिश्चित करना था कि दाली की व्यक्तित्व को ईमानदारी से पुनः निर्मित किया जाए। जैसा कि दाली म्यूज़ियम की बेथ हैरिसन ने समझाया: “हमारा लक्ष्य था कि दाली को उनके म्यूज़ियम में जीवंत किया जाए। हमें उनके डिजिटल व्यक्तित्व को यथासंभव वास्तविक महसूस कराना था।”
इसे प्राप्त करने के लिए, टीम ने दाली के रिकॉर्डेड भाषण और लेखन के आधार पर GPT-4 के लिए एक विस्तृत प्रॉम्प्ट तैयार किया, यह सुनिश्चित करते हुए कि आवाज़ न केवल दाली की तरह सुनाई दे, बल्कि उनकी तरह प्रतिक्रिया भी दे।
AI का पहला वास्तविक परीक्षण ऑस्टिन, टेक्सास में साउथ बाय साउथवेस्ट (SXSW) में हुआ, जहां एक प्री-लॉन्च डेमो प्रस्तुत किया गया। हालांकि सिस्टम अभी भी विकास में था, आवाज़ की सटीकता और दाली की सर्रियलिस्ट प्रतिक्रियाओं ने दर्शकों को प्रभावित किया।

प्रोजेक्ट के सबसे आश्चर्यजनक परिणामों में से एक दाली की प्रतिक्रियाओं में स्वाभाविकता रही है।
बेथ हैरिसन ने साझा किया: “कुछ प्रतिक्रियाएँ इतनी सर्रियल हैं कि केवल दाली ही उन्हें सोच सकते थे। हमने देखा है कि वह एक प्रश्न का उत्तर एक और प्रश्न से देते हैं — जैसे कि वह जानबूझकर बातचीत में शामिल हो रहे हों।”
यह AI में प्रोग्राम नहीं किया गया था, बल्कि इसके डिज़ाइन से स्वाभाविक रूप से उभरा।
प्रदर्शनी को गोपनीयता को ध्यान में रखकर डिज़ाइन किया गया है। आगंतुक एक समय में एक प्रश्न पूछते हैं, और जबकि प्रतिक्रियाएँ रिकॉर्ड की जाती हैं, सार्वजनिक प्रश्न संग्रहीत नहीं होते।
इसके अलावा, कोई साइन-अप प्रक्रिया नहीं है, जिससे अनुभव सहज और अंतरंग बनता है। टेलीफोन हैंडसेट का स्पर्श अनुभव को बढ़ाता है, सीधे दाली से बात करने का भ्रम पैदा करता है।
टीम पहले से ही भविष्य की इंस्टॉलेशन की खोज कर रही है, तकनीक और रचनात्मकता की सीमाओं को आगे बढ़ाते हुए दाली की दूरदर्शी दुनिया को नए और अप्रत्याशित तरीकों से जीवंत कर रही है।
आस्क दाली ने साबित कर दिया है कि AI केवल भाषण की नकल नहीं कर सकता — यह एक कलाकार के सार को पुनः निर्मित कर सकता है। इस इंस्टॉलेशन के माध्यम से, आगंतुक सर्रियलिस्ट की बुद्धि, आकर्षण और रहस्य को गहराई से व्यक्तिगत तरीके से अनुभव कर सकते हैं।

Launch faster, more capable, and more efficient voice agents using co-located open-source LLMs hosted by ElevenLabs.

Making chess more engaging and accessible for 200M+ learners worldwide
ElevenLabs द्वारा संचालित एजेंट्स