ब्लैक फ्राइडे

रिडीम करें

पहला AI जो हंस सकता है

हमारा मॉडल अनोखे तरीके से भावनाएं उत्पन्न करता है

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

हमारी पिछली प्रविष्टि में, हमने हमारे स्पीच सिंथेसिस टूल द्वारा उत्पन्न कुछ लंबी नमूने प्रस्तुत किए थे और हमने बताया था कि हमारे मॉडल की अनोखी डिज़ाइन कैसे इसे अच्छी तरह से समयबद्ध और गैर-रोबोटिक भाषण उत्पन्न करने की अनुमति देती है। आज हम आपको दिखाएंगे कि यह अन्य किसी से अधिक भावनात्मक रूप से समृद्ध और संदर्भ-संवेदनशील है। यह इसे न केवल सुनने में अत्यधिक आकर्षक बनाता है बल्कि किताबों और वीडियो गेम से लेकर विज्ञापन तक के अनुप्रयोगों के लिए उपयुक्त बनाता है।

भावनाएं

हमारे मॉडल की दोनों ताकतें - प्रवाह और सही उच्चारण - इसके द्वारा देखे गए प्रशिक्षण डेटा की प्रचुरता से आती हैं (500k घंटे से अधिक!), लेकिन वास्तव में केंद्रीय कारक यह है कि यह इस डेटा से कैसे सीखता है, जो इसके निर्माण के तरीके पर निर्भर करता है। सबसे बुनियादी स्तर पर, इसे लेखन में निहित भावनाओं को समझने और यह तय करने के लिए बनाया गया है कि वक्ता को खुश, गुस्सा, दुखी या तटस्थ लगना चाहिए। कुछ उदाहरणों पर विचार करें:

उच्चारण और मूड में सभी अंतर केवल पाठ से आते हैं - कुछ और आउटपुट को प्रभावित नहीं करता। विराम चिह्न और शब्दों का अर्थ यह तय करने में प्रमुख भूमिका निभाते हैं कि किसी विशेष वाक्य को कैसे प्रस्तुत किया जाए, लेकिन यह भी ध्यान दें कि जब वक्ता जीत से खुश होता है, तो मॉडल विश्वासपूर्वक ऐसे ध्वनियाँ उत्पन्न करता है जो नियमित भाषण का हिस्सा नहीं हैं, जैसे हँसी (हम जल्द ही हमारे AI द्वारा सक्षम विभिन्न हँसी का संकलन जारी करेंगे!)। इसी तरह, जब वक्ता कुछ मजेदार से मनोरंजन होता है, तो यह प्रतिक्रिया को उपयुक्त रूप से बढ़ा देता है - यह 'बहुत मजेदार' है।

संदर्भ

लेकिन व्यक्तिगत शब्दों का अर्थ जानना पर्याप्त नहीं है। हमारा मॉडल प्रत्येक उच्चारण के आसपास की व्यापक स्थिति के प्रति समान रूप से संवेदनशील है - यह आकलन करता है कि कुछ समझ में आता है या नहीं, यह देखकर कि यह पूर्ववर्ती और अनुवर्ती पाठ से कैसे जुड़ता है। यह विस्तृत दृष्टिकोण इसे लंबे अंशों को सही ढंग से उच्चारित करने की अनुमति देता है, जो कई वाक्यों में फैले एक विशेष विचार को एकीकृत भावनात्मक पैटर्न के साथ ओवरले करता है, जैसा कि हमारी पिछली प्रविष्टि में दिखाया गया है जिसमें लंबा सामग्री शामिल है। लेकिन यह इसे तार्किक गलतियों से बचने में भी मदद करता है। उदाहरण के लिए, कुछ शब्द एक ही तरीके से लिखे जाते हैं लेकिन उनका अर्थ अलग होता है जैसे 'read' वर्तमान और भूतकाल में या 'minute' समय की इकाई या कुछ छोटा। यह तय करना कि कौन सा उपयुक्त है, संदर्भ पर निर्भर करता है:

लिखित बनाम बोले गए शब्द

क्योंकि हम अपने प्लेटफ़ॉर्म को लंबी सामग्री की मांगों को पूरा करने के लिए डिज़ाइन करते हैं, हमें यह भी चाहिए कि हमारा मॉडल समझे कि प्रतीक और संक्षेपण और कुछ परंपराएँ जो लेखन में सामान्य हैं, उन्हें एक विशेष तरीके से उच्चारित किया जाना चाहिए या शाब्दिक रूप से उच्चारित नहीं किया जाना चाहिए। उदाहरण के लिए, मॉडल को यह जानना चाहिए कि FBI, TNT और ATM को UNESCO या NASA से अलग तरीके से उच्चारित किया जाता है। इसी तरह, $3tr लेखन में पूरी तरह से ठीक है लेकिन जब इसे जोर से पढ़ा जाता है, तो इसे 'तीन ट्रिलियन डॉलर' बनना चाहिए।

मानव हस्तक्षेप

इन सूक्ष्म भेदों को पहचानना महत्वपूर्ण है क्योंकि हमारा लक्ष्य उत्पादन प्रक्रिया में मानव हस्तक्षेप की आवश्यकता को कम करना है। आखिरकार, हम अपने टूल की क्षमता को मिनटों में ऑडियोबुक उत्पन्न करने के लिए प्रचारित नहीं करते ताकि किसी को पूरे ऑडियो को सुनना पड़े और फिर पूरे पाठ को फिर से लिखना पड़े। फिर भी, भले ही हम लगातार हमारे मॉडल के उच्चारण के नियमों को अपडेट करते रहते हैं, यह हमेशा संभव है कि कुछ इसे भ्रमित कर दे। इस उद्देश्य के लिए, हम अब एक प्रणाली विकसित कर रहे हैं जो अनिश्चितता को चिह्नित करने की अनुमति देगी, जिससे उपयोगकर्ता तुरंत देख सकेंगे कि मॉडल को कौन से पाठ के हिस्से समस्याग्रस्त लगे और उन्हें सिखा सकें कि उन्हें कैसे कहा जाना चाहिए।

असंख्य अनुप्रयोग

हमने जो सभी क्षमताएं दिखाई हैं, वे हमारे सॉफ़्टवेयर को सबसे बहुमुखी AI वॉइसिंग टूल बनाने के रास्ते पर कदम हैं।

समाचार प्रकाशक पहले से ही यह पा चुके हैं कि अपनी ऑडियो उपस्थिति बढ़ाना ग्राहकों को बनाए रखने का एक शानदार तरीका है। प्रत्येक लेख को उसके ऑडियो रीडिंग के साथ एम्बेड करने का बड़ा लाभ यह है कि लोग कुछ और करते हुए सुन सकते हैं। जो प्रकाशक ऐसा करते हैं, वे अक्सर वॉइस ऐक्टर का उपयोग करते हैं जो महंगा होता है और सभी लेख कवर नहीं होते। या वे अपनी कहानियों को पढ़ने के लिए अपने रिपोर्टरों का उपयोग करते हैं जो समय लेने वाला होता है, जिसका अर्थ है कि यह भी महंगा होता है। जो लोग अपने कंटेंट को वॉइस देने के लिए सिंथेटिक स्पीच का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता से समझौता करके दूसरी कीमत चुकाते हैं। अब, ElevenLabs के साथ, समझौता करने की कोई आवश्यकता नहीं है और आप दोनों दुनियाओं का सर्वश्रेष्ठ प्राप्त कर सकते हैं।

या कल्पना करें ऑडियोबुक को सभी पात्रों के लिए विशिष्ट, भावनात्मक रूप से आकर्षक वॉइसओवर के साथ मिनटों में उत्पन्न करना। यह न केवल पुस्तकों के साथ जुड़ने के नए तरीके प्रस्तुत करता है बल्कि सीखने में कठिनाई वाले लोगों के लिए पहुंच को भी बहुत आसान बनाता है।

अब उन संभावनाओं के बारे में सोचें जो वीडियो गेम डेवलपर्स के लिए खुली हैं, जिन्हें अब यह विचार करने की आवश्यकता नहीं है कि क्या कोई विशेष पात्र इतना महत्वपूर्ण है कि उन्हें वास्तविक ऐक्टरों के साथ वॉइस देने की लागत को सही ठहराया जा सके। अब सभी NPCs के पास अपनी आवाज़ें और व्यक्तित्व हो सकते हैं।

विज्ञापन एजेंसियां और निर्माता अब स्वतंत्र रूप से प्रयोग कर सकते हैं और किसी भी अभियान के स्वर के अनुरूप वॉइसओवर को समायोजित कर सकते हैं - चाहे वह एक खेल टीवी चैनल के लिए हो या एक लक्जरी घड़ी ब्रांड के लिए। किसी भी ऐक्टर की आवाज़ को क्लोनिंग के लिए लाइसेंस किया जा सकता है ताकि बदलाव तुरंत और बिना ऐक्टर की भौतिक उपस्थिति के लागू किए जा सकें। या यदि वे पूरी तरह से सिंथेटिक आवाज़ के साथ जाने का निर्णय लेते हैं, तो विज्ञापनदाताओं को वॉइस अधिकारों के लिए भुगतान करने की चिंता नहीं करनी होगी।

वर्चुअल असिस्टेंट अधिक जीवंत बन सकते हैं क्योंकि वॉइस क्लोनिंग उन्हें एक ऐसी आवाज़ में बोलने की अनुमति देता है जो किसी विशेष उपयोगकर्ता के लिए परिचित हो और यह नई गहराई उन्हें अधिक प्राकृतिक बातचीत करने योग्य बना देगी।

ElevenLabs बीटा

हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे स्वयं आज़माने के लिए यहां जाएं। हम लगातार सुधार कर रहे हैं और सभी उपयोगकर्ता फीडबैक हमारे लिए इस प्रारंभिक चरण में बहुत मूल्यवान है। आनंद लें!

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें