.webp&w=3840&q=95)
What happens when two AI voice assistants have a conversation?
At the ElevenLabs London Hackathon, developers created GibberLink, a protocol that lets AI agents recognize each other and switch to a hyper-efficient sound-based language
हमारी पिछली प्रविष्टि में, हमने अपने द्वारा तैयार किए गए कुछ दीर्घ-फ़ॉर्म नमूनों का पूर्वावलोकन किया था। भाषण संश्लेषण उपकरण और हमने एक संक्षिप्त अवलोकन दिया कि कैसे हमारे मॉडल का अनूठा डिजाइन इसे अच्छी गति और गैर-रोबोटिक भाषण उत्पन्न करने की अनुमति देता है। आज हम आपको यह दिखाने जा रहे हैं कि यह किसी भी अन्य की तुलना में भावनात्मक रूप से अधिक समृद्ध और संदर्भ-सचेत है। इससे यह न केवल सुनने में अत्यधिक आकर्षक बन जाता है, बल्कि पुस्तकों और वीडियो गेम से लेकर विज्ञापन तक के अनुप्रयोगों के लिए भी उपयुक्त बन जाता है।
हमारे मॉडल की दोनों खूबियां - प्रवाह और उचित स्वर-उच्चारण - प्रशिक्षण संबंधी प्रचुर आंकड़ों से आती हैं (500 हजार घंटों से अधिक!), लेकिन वास्तव में केंद्रीय कारक यह है कि यह इस आंकड़ों से कैसे सीखता है, जो कि इसके निर्माण के तरीके पर निर्भर करता है। सबसे बुनियादी स्तर पर, इसका उद्देश्य लिखित में निहित भावनाओं को समझना तथा यह तय करना है कि वक्ता को खुश, क्रोधित, उदास या तटस्थ दिखना चाहिए। कुछ उदाहरणों पर विचार करें:
स्वर और भाव में सभी अंतर विशुद्ध रूप से पाठ से आते हैं - आउटपुट को किसी अन्य चीज ने प्रभावित नहीं किया। विराम चिह्न और शब्दों के अर्थ यह तय करने में अग्रणी भूमिका निभाते हैं कि किसी विशेष वाक्य को कैसे प्रस्तुत किया जाए, लेकिन यह भी ध्यान दें कि जब वक्ता जीत से खुश होता है, तो मॉडल विश्वसनीय ढंग से ऐसी ध्वनियाँ उत्पन्न करता है जो सामान्य भाषण का हिस्सा नहीं होती हैं, जैसे कि हँसी (हम शीघ्र ही विभिन्न प्रकार की हंसी का संकलन जारी करेंगे, जो हमारा AI उत्पन्न करने में सक्षम है!)। इसी तरह, यह उचित रूप से उस प्रतिक्रिया को बढ़ा-चढ़ाकर पेश करता है जब वक्ता किसी हास्यप्रद बात से खुश होता है - यह 'बहुत मज़ेदार।
लेकिन अलग-अलग शब्दों का अर्थ जानना पर्याप्त नहीं है। हमारा मॉडल प्रत्येक कथन के इर्द-गिर्द की व्यापक स्थिति के प्रति समान रूप से संवेदनशील है - यह इस बात का आकलन करता है कि कोई बात अर्थपूर्ण है या नहीं, यह इस बात पर निर्भर करता है कि वह पहले और बाद के पाठ से किस प्रकार जुड़ी हुई है। यह ज़ूम-आउट परिप्रेक्ष्य, एक विशेष विचारधारा को एक एकीकृत भावनात्मक पैटर्न के साथ कई वाक्यों में फैलाकर, लम्बे अंशों को उचित रूप से व्यक्त करने की अनुमति देता है, जैसा कि हमारी पिछली प्रविष्टि में दिखाया गया है जिसमें लम्बी सामग्री है। लेकिन इससे तार्किक गलतियाँ करने से भी बचने में मदद मिलती है। उदाहरण के लिए, कुछ शब्द एक ही तरह से लिखे जाते हैं लेकिन उनके अर्थ भिन्न होते हैं, जैसे वर्तमान और भूतकाल में 'पढ़ना' या 'मिनट' जिसका अर्थ समय की इकाई या कुछ छोटा होता है। इनमें से कौन सा उपयुक्त है, इसका निर्णय संदर्भ पर निर्भर करता है:
क्योंकि हमने अपने प्लेटफॉर्म को दीर्घ-प्रारूप सामग्री की मांग को पूरा करने के लिए डिज़ाइन किया है, इसलिए हमें अपने मॉडल को यह समझने की भी आवश्यकता है कि प्रतीकों और संक्षिप्त रूपों और कुछ परंपराओं, जो लिखित रूप में आम हैं, का उच्चारण एक विशेष तरीके से किया जाना चाहिए या उनका शाब्दिक उच्चारण नहीं किया जाना चाहिए। उदाहरण के लिए, मॉडल को यह जानना आवश्यक है कि एफबीआई, टीएनटी और एटीएम का उच्चारण यूनेस्को या नासा से भिन्न है। इसी तरह, $3tr लिखित रूप में बिल्कुल ठीक है लेकिन जब इसे जोर से पढ़ा जाता है, तो इसे बनना पड़ता है 'तीन ट्रिलियन डॉलर'।
इन सूक्ष्म अंतरों को पहचानना महत्वपूर्ण है क्योंकि हमारा लक्ष्य उत्पादन प्रक्रिया में मानवीय हस्तक्षेप की आवश्यकता को न्यूनतम करना है। आखिरकार, हम अपने उपकरण की इस क्षमता का प्रचार नहीं करते हैं कि वह कुछ ही मिनटों में ऑडियोबुक तैयार कर दे, ताकि किसी को पूरा ऑडियो सुनने के बाद पूरा पाठ फिर से लिखना पड़े। फिर भी, यद्यपि हम अपने मॉडल के उच्चारण नियमों को लगातार अद्यतन करते रहते हैं, फिर भी यह हमेशा संभव है कि कुछ न कुछ इसे भ्रमित कर दे। इस उद्देश्य से, हम अब अनिश्चितता को चिह्नित करने के लिए एक प्रणाली विकसित कर रहे हैं, जो उपयोगकर्ताओं को तुरंत यह देखने की अनुमति देगा कि पाठ के किस हिस्से को मॉडल ने समस्याग्रस्त पाया है और उन्हें यह सिखाने में सक्षम करेगा कि उन्हें कैसे कहा जाना चाहिए।
हमने जो भी क्षमताएं दिखाई हैं, वे हमारे सॉफ्टवेयर को सबसे बहुमुखी एआई वॉइसिंग टूल बनाने की दिशा में उठाए गए कदम हैं।
समाचार प्रकाशक उन्होंने पहले ही पाया है कि ऑडियो में अपनी उपस्थिति बढ़ाना ग्राहकों को बनाए रखने का एक शानदार तरीका है। प्रत्येक आलेख को ऑडियो के साथ पढ़ने के लिए शामिल करने का सबसे बड़ा लाभ यह है कि लोग कुछ और काम करते हुए भी उसे सुन सकते हैं। जो प्रकाशक ऐसा करते हैं वे प्रायः वॉयस एक्टर्स का उपयोग करते हैं जो महंगा होता है और सभी लेखों को कवर नहीं किया जाता। या फिर वे कहानियां पढ़ने के लिए अपने स्वयं के संवाददाताओं को नियुक्त करते हैं, जो समय लेने वाला और महंगा काम है। जो लोग अपनी विषय-वस्तु को व्यक्त करने के लिए कृत्रिम भाषा का उपयोग करते हैं, वे पैसे तो बचाते हैं, लेकिन गुणवत्ता से समझौता करके अतिरिक्त कीमत चुकाते हैं। अब, इलेवन लैब्स के साथ, समझौता करने की कोई आवश्यकता नहीं है और आप दोनों दुनियाओं का सर्वोत्तम लाभ उठा सकते हैं।
या कल्पना करें कि ऑडियोबुक्स सभी पात्रों के लिए विशिष्ट, भावनात्मक रूप से सम्मोहक वॉयसओवर के साथ, कुछ ही मिनटों में। इससे न केवल पुस्तकों से जुड़ने के नए तरीके सामने आते हैं, बल्कि सीखने में कठिनाई वाले लोगों के लिए पुस्तकों तक पहुंच भी आसान हो जाती है।
अब खुली संभावनाओं के बारे में सोचिए वीडियो गेम डेवलपर्स को अब यह विचार करने की आवश्यकता नहीं है कि क्या कोई विशेष चरित्र इतना महत्वपूर्ण है कि उसे वास्तविक अभिनेताओं से आवाज दिलाने की भारी लागत को उचित ठहराया जा सके। अब सभी एनपीसी की अपनी आवाज और व्यक्तित्व हो सकते हैं।
विज्ञापन देना एजेंसियां और निर्माता अब किसी भी अभियान के स्वर के अनुरूप वॉयसओवर का प्रयोग और समायोजन स्वतंत्र रूप से कर सकते हैं - चाहे वह किसी खेल टीवी चैनल के लिए हो या किसी लक्जरी घड़ी ब्रांड के लिए। किसी भी अभिनेता की आवाज को क्लोनिंग के लिए लाइसेंस दिया जा सकता है, ताकि अभिनेता की शारीरिक उपस्थिति के बिना भी तत्काल परिवर्तन किया जा सके। या यदि वे पूर्णतः सिंथेटिक आवाज का चयन करते हैं, तो विज्ञापनदाताओं को आवाज अधिकारों के लिए भुगतान करने की चिंता भी नहीं करनी पड़ती।
आभासी सहायक वे अधिक जीवंत बन सकते हैं, क्योंकि ध्वनि क्लोनिंग उन्हें एक ऐसी आवाज में बोलने की अनुमति देती है जो किसी विशेष उपयोगकर्ता के लिए परिचित होती है, तथा इसलिए भी कि वितरण की यह नई गहराई उनके साथ बातचीत को अधिक स्वाभाविक बना देगी।
जाना यहाँ कृपया हमारे बीटा प्लेटफॉर्म के लिए साइन अप करें और इसे स्वयं आज़माएं। हम लगातार सुधार कर रहे हैं और इस प्रारंभिक चरण में सभी उपयोगकर्ताओं की प्रतिक्रिया हमारे लिए बहुत मूल्यवान है। आनंद लेना!
At the ElevenLabs London Hackathon, developers created GibberLink, a protocol that lets AI agents recognize each other and switch to a hyper-efficient sound-based language
The fastest, zero-cost way to create and distribute audiobooks globally