पहली AI जो हंस सकती है

हमारा मॉडल किसी अन्य की तरह भावनाएं उत्पन्न करता है

हमारी पिछली प्रविष्टि में, हमने अपने द्वारा तैयार किए गए कुछ दीर्घ-फ़ॉर्म नमूनों का पूर्वावलोकन किया था। भाषण संश्लेषण उपकरण और हमने एक संक्षिप्त अवलोकन दिया कि कैसे हमारे मॉडल का अनूठा डिजाइन इसे अच्छी गति और गैर-रोबोटिक भाषण उत्पन्न करने की अनुमति देता है। आज हम आपको यह दिखाने जा रहे हैं कि यह किसी भी अन्य की तुलना में भावनात्मक रूप से अधिक समृद्ध और संदर्भ-सचेत है। इससे यह न केवल सुनने में अत्यधिक आकर्षक बन जाता है, बल्कि पुस्तकों और वीडियो गेम से लेकर विज्ञापन तक के अनुप्रयोगों के लिए भी उपयुक्त बन जाता है।

भावनाएँ

हमारे मॉडल की दोनों खूबियां - प्रवाह और उचित स्वर-उच्चारण - प्रशिक्षण संबंधी प्रचुर आंकड़ों से आती हैं (500 हजार घंटों से अधिक!), लेकिन वास्तव में केंद्रीय कारक यह है कि यह इस आंकड़ों से कैसे सीखता है, जो कि इसके निर्माण के तरीके पर निर्भर करता है। सबसे बुनियादी स्तर पर, इसका उद्देश्य लिखित में निहित भावनाओं को समझना तथा यह तय करना है कि वक्ता को खुश, क्रोधित, उदास या तटस्थ दिखना चाहिए। कुछ उदाहरणों पर विचार करें:

स्वर और भाव में सभी अंतर विशुद्ध रूप से पाठ से आते हैं - आउटपुट को किसी अन्य चीज ने प्रभावित नहीं किया। विराम चिह्न और शब्दों के अर्थ यह तय करने में अग्रणी भूमिका निभाते हैं कि किसी विशेष वाक्य को कैसे प्रस्तुत किया जाए, लेकिन यह भी ध्यान दें कि जब वक्ता जीत से खुश होता है, तो मॉडल विश्वसनीय ढंग से ऐसी ध्वनियाँ उत्पन्न करता है जो सामान्य भाषण का हिस्सा नहीं होती हैं, जैसे कि हँसी (हम शीघ्र ही विभिन्न प्रकार की हंसी का संकलन जारी करेंगे, जो हमारा AI उत्पन्न करने में सक्षम है!)। इसी तरह, यह उचित रूप से उस प्रतिक्रिया को बढ़ा-चढ़ाकर पेश करता है जब वक्ता किसी हास्यप्रद बात से खुश होता है - यह 'बहुत मज़ेदार

प्रसंग

लेकिन अलग-अलग शब्दों का अर्थ जानना पर्याप्त नहीं है। हमारा मॉडल प्रत्येक कथन के इर्द-गिर्द की व्यापक स्थिति के प्रति समान रूप से संवेदनशील है - यह इस बात का आकलन करता है कि कोई बात अर्थपूर्ण है या नहीं, यह इस बात पर निर्भर करता है कि वह पहले और बाद के पाठ से किस प्रकार जुड़ी हुई है। यह ज़ूम-आउट परिप्रेक्ष्य, एक विशेष विचारधारा को एक एकीकृत भावनात्मक पैटर्न के साथ कई वाक्यों में फैलाकर, लम्बे अंशों को उचित रूप से व्यक्त करने की अनुमति देता है, जैसा कि हमारी पिछली प्रविष्टि में दिखाया गया है जिसमें लम्बी सामग्री है। लेकिन इससे तार्किक गलतियाँ करने से भी बचने में मदद मिलती है। उदाहरण के लिए, कुछ शब्द एक ही तरह से लिखे जाते हैं लेकिन उनके अर्थ भिन्न होते हैं, जैसे वर्तमान और भूतकाल में 'पढ़ना' या 'मिनट' जिसका अर्थ समय की इकाई या कुछ छोटा होता है। इनमें से कौन सा उपयुक्त है, इसका निर्णय संदर्भ पर निर्भर करता है:

लिखित बनाम बोले गए शब्द

क्योंकि हमने अपने प्लेटफॉर्म को दीर्घ-प्रारूप सामग्री की मांग को पूरा करने के लिए डिज़ाइन किया है, इसलिए हमें अपने मॉडल को यह समझने की भी आवश्यकता है कि प्रतीकों और संक्षिप्त रूपों और कुछ परंपराओं, जो लिखित रूप में आम हैं, का उच्चारण एक विशेष तरीके से किया जाना चाहिए या उनका शाब्दिक उच्चारण नहीं किया जाना चाहिए। उदाहरण के लिए, मॉडल को यह जानना आवश्यक है कि एफबीआई, टीएनटी और एटीएम का उच्चारण यूनेस्को या नासा से भिन्न है। इसी तरह, $3tr लिखित रूप में बिल्कुल ठीक है लेकिन जब इसे जोर से पढ़ा जाता है, तो इसे बनना पड़ता है 'तीन ट्रिलियन डॉलर'

मानवीय हस्तक्षेप

इन सूक्ष्म अंतरों को पहचानना महत्वपूर्ण है क्योंकि हमारा लक्ष्य उत्पादन प्रक्रिया में मानवीय हस्तक्षेप की आवश्यकता को न्यूनतम करना है। आखिरकार, हम अपने उपकरण की इस क्षमता का प्रचार नहीं करते हैं कि वह कुछ ही मिनटों में ऑडियोबुक तैयार कर दे, ताकि किसी को पूरा ऑडियो सुनने के बाद पूरा पाठ फिर से लिखना पड़े। फिर भी, यद्यपि हम अपने मॉडल के उच्चारण नियमों को लगातार अद्यतन करते रहते हैं, फिर भी यह हमेशा संभव है कि कुछ न कुछ इसे भ्रमित कर दे। इस उद्देश्य से, हम अब अनिश्चितता को चिह्नित करने के लिए एक प्रणाली विकसित कर रहे हैं, जो उपयोगकर्ताओं को तुरंत यह देखने की अनुमति देगा कि पाठ के किस हिस्से को मॉडल ने समस्याग्रस्त पाया है और उन्हें यह सिखाने में सक्षम करेगा कि उन्हें कैसे कहा जाना चाहिए।

अनगिनत अनुप्रयोग

हमने जो भी क्षमताएं दिखाई हैं, वे हमारे सॉफ्टवेयर को सबसे बहुमुखी एआई वॉइसिंग टूल बनाने की दिशा में उठाए गए कदम हैं।

समाचार प्रकाशक उन्होंने पहले ही पाया है कि ऑडियो में अपनी उपस्थिति बढ़ाना ग्राहकों को बनाए रखने का एक शानदार तरीका है। प्रत्येक आलेख को ऑडियो के साथ पढ़ने के लिए शामिल करने का सबसे बड़ा लाभ यह है कि लोग कुछ और काम करते हुए भी उसे सुन सकते हैं। जो प्रकाशक ऐसा करते हैं वे प्रायः वॉयस एक्टर्स का उपयोग करते हैं जो महंगा होता है और सभी लेखों को कवर नहीं किया जाता। या फिर वे कहानियां पढ़ने के लिए अपने स्वयं के संवाददाताओं को नियुक्त करते हैं, जो समय लेने वाला और महंगा काम है। जो लोग अपनी विषय-वस्तु को व्यक्त करने के लिए कृत्रिम भाषा का उपयोग करते हैं, वे पैसे तो बचाते हैं, लेकिन गुणवत्ता से समझौता करके अतिरिक्त कीमत चुकाते हैं। अब, इलेवन लैब्स के साथ, समझौता करने की कोई आवश्यकता नहीं है और आप दोनों दुनियाओं का सर्वोत्तम लाभ उठा सकते हैं।

या कल्पना करें कि ऑडियोबुक्स सभी पात्रों के लिए विशिष्ट, भावनात्मक रूप से सम्मोहक वॉयसओवर के साथ, कुछ ही मिनटों में। इससे न केवल पुस्तकों से जुड़ने के नए तरीके सामने आते हैं, बल्कि सीखने में कठिनाई वाले लोगों के लिए पुस्तकों तक पहुंच भी आसान हो जाती है।

अब खुली संभावनाओं के बारे में सोचिए वीडियो गेम डेवलपर्स को अब यह विचार करने की आवश्यकता नहीं है कि क्या कोई विशेष चरित्र इतना महत्वपूर्ण है कि उसे वास्तविक अभिनेताओं से आवाज दिलाने की भारी लागत को उचित ठहराया जा सके। अब सभी एनपीसी की अपनी आवाज और व्यक्तित्व हो सकते हैं।

विज्ञापन देना एजेंसियां ​​और निर्माता अब किसी भी अभियान के स्वर के अनुरूप वॉयसओवर का प्रयोग और समायोजन स्वतंत्र रूप से कर सकते हैं - चाहे वह किसी खेल टीवी चैनल के लिए हो या किसी लक्जरी घड़ी ब्रांड के लिए। किसी भी अभिनेता की आवाज को क्लोनिंग के लिए लाइसेंस दिया जा सकता है, ताकि अभिनेता की शारीरिक उपस्थिति के बिना भी तत्काल परिवर्तन किया जा सके। या यदि वे पूर्णतः सिंथेटिक आवाज का चयन करते हैं, तो विज्ञापनदाताओं को आवाज अधिकारों के लिए भुगतान करने की चिंता भी नहीं करनी पड़ती।

आभासी सहायक वे अधिक जीवंत बन सकते हैं, क्योंकि ध्वनि क्लोनिंग उन्हें एक ऐसी आवाज में बोलने की अनुमति देती है जो किसी विशेष उपयोगकर्ता के लिए परिचित होती है, तथा इसलिए भी कि वितरण की यह नई गहराई उनके साथ बातचीत को अधिक स्वाभाविक बना देगी।

ग्यारह लैब्स बीटा

जाना यहाँ कृपया हमारे बीटा प्लेटफॉर्म के लिए साइन अप करें और इसे स्वयं आज़माएं। हम लगातार सुधार कर रहे हैं और इस प्रारंभिक चरण में सभी उपयोगकर्ताओं की प्रतिक्रिया हमारे लिए बहुत मूल्यवान है। आनंद लेना!

और खोजें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

फ़्री शुरू करें

पहले से अकाउंट है? लॉग इन करें