
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
ब्लैक फ्राइडे
ElevenLabs की वॉइस क्लोनिंग तकनीक की बदौलत सल्वाडोर डाली के साथ 70,000 से अधिक बातचीत हो चुकी हैं — उनकी मृत्यु के दशकों बाद।
सेंट पीटर्सबर्ग, फ्लोरिडा में दाली म्यूज़ियम 1982 में महान सर्रियलिस्ट सल्वाडोर दाली के जीवन और कला का जश्न मनाने के लिए खोला गया था। इस संग्रह में 2,400 से अधिक टुकड़े शामिल हैं, जिनमें पेंटिंग्स, चित्र, मूर्तियाँ, किताबें और फोटोग्राफ शामिल हैं।
म्यूज़ियम की स्थापना ए. रेनॉल्ड्स और एलेनोर मोर्स द्वारा एकत्रित कार्यों के साथ की गई थी, जो दाली के समर्पित संरक्षक और मित्र थे। 40 वर्षों में, उनका निजी संग्रह अमेरिका में उनके कार्यों का सबसे बड़ा संग्रह बन गया। आज, म्यूज़ियम के क्यूरेटर इसके प्रदर्शनों को बढ़ाते रहते हैं।
अब, एक AI-संचालित इंस्टॉलेशन आस्क दाली की बदौलत, कलाकार की उपस्थिति को डिजिटल रूप से पुनः निर्मित किया गया है। यह प्रोजेक्ट म्यूज़ियम और क्रिएटिव एजेंसी गुडबी सिल्वरस्टीन एंड पार्टनर्स (GS&P) के सहयोग से विकसित किया गया है, जो ElevenLabs AI वॉइस और Voice Cloning तकनीक का उपयोग करता है, जिससे आगंतुक दाली के प्रसिद्ध लॉब्स्टर फोन के माध्यम से बातचीत कर सकते हैं।
आगंतुक प्रश्न पूछ सकते हैं और कलाकार की आवाज़ और शैली में उत्तर प्राप्त कर सकते हैं।
यह प्रदर्शनी उन्नत वॉइस तकनीक को एक इंटरैक्टिव, सर्रियलिस्ट इंटरफ़ेस के साथ मिलाती है। इसके लॉन्च के बाद से, आस्क दाली ने 75,000 से अधिक वार्तालाप रिकॉर्ड किए हैं, जिनमें कला और इतिहास से लेकर समकालीन घटनाओं और व्यक्तिगत विचारों तक के विषय शामिल हैं।
मार्टिन पाग लुडविगसेन, GS&P में प्रोजेक्ट लीड, ने दाली की वॉइस के पीछे की प्रेरणा को समझाया: “मूल विचार यह था कि लोग म्यूज़ियम में घूमते समय एक गाइड का उपयोग कर सकें। यह थोड़ा जटिल हो गया, इसलिए हमने एक स्थान पर दाली के साथ प्रश्नोत्तर चैट पर ध्यान केंद्रित किया।”
माध्यम के रूप में लॉब्स्टर फोन का उपयोग दाली के टेलीफोनों के प्रति आकर्षण — और प्रेम-घृणा संबंध — को दर्शाता है। उन्होंने प्रसिद्ध सर्रियलिस्ट वस्तु के चार रंग संस्करण और छह ऑफ-व्हाइट मॉडल बनाए, जिनमें से एक म्यूज़ियम में गर्व से प्रदर्शित है।
.webp&w=3840&q=95)
गैर-लाभकारी दाली म्यूज़ियम का तकनीक को अपनाने का एक मजबूत इतिहास है। नियमित VR अनुभवों के साथ, यह दाली लाइव्स चलाता है, जो कलाकार की AI-जनित, जीवन-आकार की वीडियो पुनःनिर्माण की एक स्थायी प्रदर्शनी है। 2018 में इसके लॉन्च के बाद से, यह पुरस्कार विजेता प्रदर्शनी म्यूज़ियम के सबसे लोकप्रिय डिजिटल अनुभवों में से एक रही है।
दाली की वॉइस ElevenLabs के Eleven Multilingual V2 टेक्स्ट टू स्पीच मॉडल द्वारा संचालित है, साथ ही OpenAI के GPT-4 द्वारा, जो वार्तालाप प्रतिक्रियाओं को संभालता है। AI वॉइस को दाली के इंटरव्यू, लेखन और भाषण पैटर्न के नमूनों पर प्रशिक्षित किया गया था ताकि कलाकार के जितना संभव हो सके एक डिजिटल व्यक्तित्व बनाया जा सके।
इस समझ को ElevenLabs की लो-लेटेंसी ऑडियो प्रोसेसिंग के साथ जोड़ा गया है, जिससे त्वरित, वास्तविक वॉइस प्रतिक्रियाएं सक्षम होती हैं। AI मॉडल समय के साथ इंटरैक्शन को सीखते और परिष्कृत करते रहते हैं, जिससे जुड़ाव बढ़ता है।
मार्टिन पाग लुडविगसेन ने बताया कि यह विचार कैसे आया: “हमारी क्रिएटिव टीम के दो सदस्यों ने एक ग्राहक सेवा कॉल में ElevenLabs के वॉइस मॉडल का डेमो देखा। इससे एक विचार उत्पन्न हुआ — क्यों न एक वार्तालाप प्रदर्शनी बनाई जाए जहां लोग दाली से बात कर सकें?”
एक चुनौती यह थी कि दाली की पहली भाषाएँ कैटलन, स्पेनिश और फ्रेंच थीं। हालांकि, ElevenLabs की बहुभाषी क्षमताओं ने टीम को अंग्रेजी में मॉडल को प्रशिक्षित करने की अनुमति दी, जबकि दाली के विशिष्ट भाषण पैटर्न को संरक्षित किया।
दिलचस्प बात यह है कि जब दाली का AI स्पेनिश बोलता है, तो यह कैटलन उच्चारण के साथ करता है, जो उनके प्रामाणिक भाषण शैली को दर्शाता है। अब तक, आगंतुकों ने इस विवरण पर ध्यान देने के लिए सकारात्मक प्रतिक्रिया दी है। टीम ने पाया कि वे दाली के अंग्रेजी बोलने के उदाहरणों पर वॉइस मॉडल को प्रशिक्षित करते समय कैटलन उच्चारण के करीब पहुंचने में सक्षम थे , स्पेनिश की तुलना में।

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
दाली की आवाज़ का प्रशिक्षण एक पुनरावृत्त प्रक्रिया की आवश्यकता थी। टीम ने मॉडल के कई संस्करण चलाए, आउटपुट को तब तक परिष्कृत किया जब तक वे सबसे निकटतम मेल प्राप्त नहीं कर सके।
एक और चुनौती यह सुनिश्चित करना था कि दाली की व्यक्तित्व को ईमानदारी से पुनः निर्मित किया जाए। जैसा कि दाली म्यूज़ियम की बेथ हैरिसन ने समझाया: “हमारा लक्ष्य था कि दाली को उनके म्यूज़ियम में जीवंत किया जाए। हमें उनके डिजिटल व्यक्तित्व को यथासंभव वास्तविक महसूस कराना था।”
इसे प्राप्त करने के लिए, टीम ने दाली के रिकॉर्डेड भाषण और लेखन के आधार पर GPT-4 के लिए एक विस्तृत प्रॉम्प्ट तैयार किया, यह सुनिश्चित करते हुए कि आवाज़ न केवल दाली की तरह सुनाई दे, बल्कि उनकी तरह प्रतिक्रिया भी दे।
AI का पहला वास्तविक परीक्षण ऑस्टिन, टेक्सास में साउथ बाय साउथवेस्ट (SXSW) में हुआ, जहां एक प्री-लॉन्च डेमो प्रस्तुत किया गया। हालांकि सिस्टम अभी भी विकास में था, आवाज़ की सटीकता और दाली की सर्रियलिस्ट प्रतिक्रियाओं ने दर्शकों को प्रभावित किया।

प्रोजेक्ट के सबसे आश्चर्यजनक परिणामों में से एक दाली की प्रतिक्रियाओं में स्वाभाविकता रही है।
बेथ हैरिसन ने साझा किया: “कुछ प्रतिक्रियाएँ इतनी सर्रियल हैं कि केवल दाली ही उन्हें सोच सकते थे। हमने देखा है कि वह एक प्रश्न का उत्तर एक और प्रश्न से देते हैं — जैसे कि वह जानबूझकर बातचीत में शामिल हो रहे हों।”
यह AI में प्रोग्राम नहीं किया गया था, बल्कि इसके डिज़ाइन से स्वाभाविक रूप से उभरा।
प्रदर्शनी को गोपनीयता को ध्यान में रखकर डिज़ाइन किया गया है। आगंतुक एक समय में एक प्रश्न पूछते हैं, और जबकि प्रतिक्रियाएँ रिकॉर्ड की जाती हैं, सार्वजनिक प्रश्न संग्रहीत नहीं होते।
इसके अलावा, कोई साइन-अप प्रक्रिया नहीं है, जिससे अनुभव सहज और अंतरंग बनता है। टेलीफोन हैंडसेट का स्पर्श अनुभव को बढ़ाता है, सीधे दाली से बात करने का भ्रम पैदा करता है।
टीम पहले से ही भविष्य की इंस्टॉलेशन की खोज कर रही है, तकनीक और रचनात्मकता की सीमाओं को आगे बढ़ाते हुए दाली की दूरदर्शी दुनिया को नए और अप्रत्याशित तरीकों से जीवंत कर रही है।
आस्क दाली ने साबित कर दिया है कि AI केवल भाषण की नकल नहीं कर सकता — यह एक कलाकार के सार को पुनः निर्मित कर सकता है। इस इंस्टॉलेशन के माध्यम से, आगंतुक सर्रियलिस्ट की बुद्धि, आकर्षण और रहस्य को गहराई से व्यक्तिगत तरीके से अनुभव कर सकते हैं।

Expanding access and productivity with voice-first AI

Creating a voice agent modeled after racing legend Romain Grosjean
ElevenLabs द्वारा संचालित एजेंट्स