
यह आवाज़ मौजूद नहीं है - जनरेटिव वॉइस AI
- श्रेणी
- रिसर्च
- तारीख
हमारी पिछली प्रविष्टि में, हमने हमारे स्पीच सिंथेसिस टूल द्वारा उत्पन्न कुछ लंबी नमूने प्रस्तुत किए थे और हमने बताया था कि हमारे मॉडल की अनोखी डिज़ाइन कैसे इसे अच्छी तरह से समयबद्ध और गैर-रोबोटिक भाषण उत्पन्न करने की अनुमति देती है। आज हम आपको दिखाएंगे कि यह अन्य किसी से अधिक भावनात्मक रूप से समृद्ध और संदर्भ-संवेदनशील है। यह इसे न केवल सुनने में अत्यधिक आकर्षक बनाता है बल्कि किताबों और वीडियो गेम से लेकर विज्ञापन तक के अनुप्रयोगों के लिए उपयुक्त बनाता है।
हमारे मॉडल की दोनों ताकतें - प्रवाह और सही उच्चारण - इसके द्वारा देखे गए प्रशिक्षण डेटा की प्रचुरता से आती हैं (500k घंटे से अधिक!), लेकिन वास्तव में केंद्रीय कारक यह है कि यह इस डेटा से कैसे सीखता है, जो इसके निर्माण के तरीके पर निर्भर करता है। सबसे बुनियादी स्तर पर, इसे लेखन में निहित भावनाओं को समझने और यह तय करने के लिए बनाया गया है कि वक्ता को खुश, गुस्सा, दुखी या तटस्थ लगना चाहिए। कुछ उदाहरणों पर विचार करें:
उच्चारण और मूड में सभी अंतर केवल पाठ से आते हैं - कुछ और आउटपुट को प्रभावित नहीं करता। विराम चिह्न और शब्दों का अर्थ यह तय करने में प्रमुख भूमिका निभाते हैं कि किसी विशेष वाक्य को कैसे प्रस्तुत किया जाए, लेकिन यह भी ध्यान दें कि जब वक्ता जीत से खुश होता है, तो मॉडल विश्वासपूर्वक ऐसे ध्वनियाँ उत्पन्न करता है जो नियमित भाषण का हिस्सा नहीं हैं, जैसे हँसी (हम जल्द ही हमारे AI द्वारा सक्षम विभिन्न हँसी का संकलन जारी करेंगे!)। इसी तरह, जब वक्ता कुछ मजेदार से मनोरंजन होता है, तो यह प्रतिक्रिया को उपयुक्त रूप से बढ़ा देता है - यह 'बहुत मजेदार’।
लेकिन व्यक्तिगत शब्दों का अर्थ जानना पर्याप्त नहीं है। हमारा मॉडल प्रत्येक उच्चारण के आसपास की व्यापक स्थिति के प्रति समान रूप से संवेदनशील है - यह आकलन करता है कि कुछ समझ में आता है या नहीं, यह देखकर कि यह पूर्ववर्ती और अनुवर्ती पाठ से कैसे जुड़ता है। यह विस्तृत दृष्टिकोण इसे लंबे अंशों को सही ढंग से उच्चारित करने की अनुमति देता है, जो कई वाक्यों में फैले एक विशेष विचार को एकीकृत भावनात्मक पैटर्न के साथ ओवरले करता है, जैसा कि हमारी पिछली प्रविष्टि में दिखाया गया है जिसमें लंबा सामग्री शामिल है। लेकिन यह इसे तार्किक गलतियों से बचने में भी मदद करता है। उदाहरण के लिए, कुछ शब्द एक ही तरीके से लिखे जाते हैं लेकिन उनका अर्थ अलग होता है जैसे 'read' वर्तमान और भूतकाल में या 'minute' समय की इकाई या कुछ छोटा। यह तय करना कि कौन सा उपयुक्त है, संदर्भ पर निर्भर करता है:
क्योंकि हम अपने प्लेटफ़ॉर्म को लंबी सामग्री की मांगों को पूरा करने के लिए डिज़ाइन करते हैं, हमें यह भी चाहिए कि हमारा मॉडल समझे कि प्रतीक और संक्षेपण और कुछ परंपराएँ जो लेखन में सामान्य हैं, उन्हें एक विशेष तरीके से उच्चारित किया जाना चाहिए या शाब्दिक रूप से उच्चारित नहीं किया जाना चाहिए। उदाहरण के लिए, मॉडल को यह जानना चाहिए कि FBI, TNT और ATM को UNESCO या NASA से अलग तरीके से उच्चारित किया जाता है। इसी तरह, $3tr लेखन में पूरी तरह से ठीक है लेकिन जब इसे जोर से पढ़ा जाता है, तो इसे 'तीन ट्रिलियन डॉलर'।
इन सूक्ष्म भेदों को पहचानना महत्वपूर्ण है क्योंकि हमारा लक्ष्य उत्पादन प्रक्रिया में मानव हस्तक्षेप की आवश्यकता को कम करना है। आखिरकार, हम अपने टूल की क्षमता को मिनटों में ऑडियोबुक उत्पन्न करने के लिए प्रचारित नहीं करते ताकि किसी को पूरे ऑडियो को सुनना पड़े और फिर पूरे पाठ को फिर से लिखना पड़े। फिर भी, भले ही हम लगातार हमारे मॉडल के उच्चारण के नियमों को अपडेट करते रहते हैं, यह हमेशा संभव है कि कुछ इसे भ्रमित कर दे। इस उद्देश्य के लिए, हम अब एक प्रणाली विकसित कर रहे हैं जो अनिश्चितता को चिह्नित करने की अनुमति देगी, जिससे उपयोगकर्ता तुरंत देख सकेंगे कि मॉडल को कौन से पाठ के हिस्से समस्याग्रस्त लगे और उन्हें सिखा सकें कि उन्हें कैसे कहा जाना चाहिए।
हमने जो सभी क्षमताएं दिखाई हैं, वे हमारे सॉफ़्टवेयर को सबसे बहुमुखी AI वॉइसिंग टूल बनाने के रास्ते पर कदम हैं।
समाचार प्रकाशक पहले से ही यह पा चुके हैं कि अपनी ऑडियो उपस्थिति बढ़ाना ग्राहकों को बनाए रखने का एक शानदार तरीका है। प्रत्येक लेख को उसके ऑडियो रीडिंग के साथ एम्बेड करने का बड़ा लाभ यह है कि लोग कुछ और करते हुए सुन सकते हैं। जो प्रकाशक ऐसा करते हैं, वे अक्सर वॉइस ऐक्टर का उपयोग करते हैं जो महंगा होता है और सभी लेख कवर नहीं होते। या वे अपनी कहानियों को पढ़ने के लिए अपने रिपोर्टरों का उपयोग करते हैं जो समय लेने वाला होता है, जिसका अर्थ है कि यह भी महंगा होता है। जो लोग अपने कंटेंट को वॉइस देने के लिए सिंथेटिक स्पीच का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता से समझौता करके दूसरी कीमत चुकाते हैं। अब, ElevenLabs के साथ, समझौता करने की कोई आवश्यकता नहीं है और आप दोनों दुनियाओं का सर्वश्रेष्ठ प्राप्त कर सकते हैं।
या कल्पना करें ऑडियोबुक को सभी पात्रों के लिए विशिष्ट, भावनात्मक रूप से आकर्षक वॉइसओवर के साथ मिनटों में उत्पन्न करना। यह न केवल पुस्तकों के साथ जुड़ने के नए तरीके प्रस्तुत करता है बल्कि सीखने में कठिनाई वाले लोगों के लिए पहुंच को भी बहुत आसान बनाता है।
अब उन संभावनाओं के बारे में सोचें जो वीडियो गेम डेवलपर्स के लिए खुली हैं, जिन्हें अब यह विचार करने की आवश्यकता नहीं है कि क्या कोई विशेष पात्र इतना महत्वपूर्ण है कि उन्हें वास्तविक ऐक्टरों के साथ वॉइस देने की लागत को सही ठहराया जा सके। अब सभी NPCs के पास अपनी आवाज़ें और व्यक्तित्व हो सकते हैं।
विज्ञापन एजेंसियां और निर्माता अब स्वतंत्र रूप से प्रयोग कर सकते हैं और किसी भी अभियान के स्वर के अनुरूप वॉइसओवर को समायोजित कर सकते हैं - चाहे वह एक खेल टीवी चैनल के लिए हो या एक लक्जरी घड़ी ब्रांड के लिए। किसी भी ऐक्टर की आवाज़ को क्लोनिंग के लिए लाइसेंस किया जा सकता है ताकि बदलाव तुरंत और बिना ऐक्टर की भौतिक उपस्थिति के लागू किए जा सकें। या यदि वे पूरी तरह से सिंथेटिक आवाज़ के साथ जाने का निर्णय लेते हैं, तो विज्ञापनदाताओं को वॉइस अधिकारों के लिए भुगतान करने की चिंता नहीं करनी होगी।
वर्चुअल असिस्टेंट अधिक जीवंत बन सकते हैं क्योंकि वॉइस क्लोनिंग उन्हें एक ऐसी आवाज़ में बोलने की अनुमति देता है जो किसी विशेष उपयोगकर्ता के लिए परिचित हो और यह नई गहराई उन्हें अधिक प्राकृतिक बातचीत करने योग्य बना देगी।
हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे स्वयं आज़माने के लिए यहां जाएं। हम लगातार सुधार कर रहे हैं और सभी उपयोगकर्ता फीडबैक हमारे लिए इस प्रारंभिक चरण में बहुत मूल्यवान है। आनंद लें!



