पहला AI जो हंस सकता है

हमारा मॉडल अनोखे तरीके से भावनाएं उत्पन्न करता है

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

हमारी पिछली प्रविष्टि में, हमने हमारे द्वारा जनरेट किए गए कुछ लंबे नमूने दिखाए थे स्पीच सिंथेसिस टूल और हमने बताया कि हमारे मॉडल की अनोखी डिज़ाइन कैसे इसे अच्छी तरह से समयबद्ध और गैर-रोबोटिक स्पीच उत्पन्न करने की अनुमति देती है। आज हम आपको दिखाएंगे कि यह अन्य किसी भी मॉडल से अधिक भावनात्मक रूप से समृद्ध और संदर्भ-सचेत है। यह इसे न केवल सुनने में अधिक आकर्षक बनाता है बल्कि किताबों और वीडियो गेम्स से लेकर विज्ञापन तक के लिए उपयुक्त बनाता है।

भावनाएं

हमारे मॉडल की दोनों ताकतें - प्रवाह और सही उच्चारण - इसके द्वारा देखे गए विशाल प्रशिक्षण डेटा (500k घंटे से अधिक!) से आती हैं, लेकिन वास्तव में मुख्य कारक यह है कि यह इस डेटा से कैसे सीखता है, जो इसके निर्माण के तरीके पर निर्भर करता है। सबसे बुनियादी स्तर पर, इसे लेखन में निहित भावनाओं को समझने और यह तय करने के लिए बनाया गया है कि वक्ता को खुश, गुस्सा, उदास या तटस्थ कैसे लगना चाहिए। कुछ उदाहरण देखें:

सभी उच्चारण और मूड में अंतर केवल टेक्स्ट से आते हैं - आउटपुट को प्रभावित करने के लिए कुछ और नहीं। विराम चिह्न और शब्दों का अर्थ एक विशेष वाक्य को कैसे प्रस्तुत किया जाए, यह तय करने में प्रमुख भूमिका निभाते हैं, लेकिन यह भी देखें कि जब वक्ता जीत से खुश होता है, तो मॉडल नियमित भाषण का हिस्सा नहीं होने वाले ध्वनियों को कैसे उत्पन्न करता है, जैसे हंसी (हम जल्द ही हमारे AI द्वारा सक्षम विभिन्न हंसी का संकलन जारी करेंगे!)। इसी तरह, जब वक्ता कुछ मजेदार से मनोरंजन होता है, तो यह प्रतिक्रिया को उपयुक्त रूप से बढ़ा देता है - यह 'बहुत मजेदार’ है।

संदर्भ

लेकिन व्यक्तिगत शब्दों का अर्थ जानना पर्याप्त नहीं है। हमारा मॉडल प्रत्येक उच्चारण के आसपास की व्यापक स्थिति के प्रति समान रूप से संवेदनशील है - यह आकलन करता है कि कुछ समझ में आता है या नहीं, यह इस पर निर्भर करता है कि यह पूर्ववर्ती और अनुवर्ती टेक्स्ट से कैसे जुड़ता है। यह विस्तृत दृष्टिकोण इसे लंबे अंशों को सही ढंग से उच्चारित करने की अनुमति देता है, जो कई वाक्यों में फैले एक विशेष विचार को एकीकृत भावनात्मक पैटर्न के साथ ओवरले करता है, जैसा कि हमारी पिछली प्रविष्टि में लंबी सामग्री में दिखाया गया है। लेकिन यह इसे तार्किक गलतियों से बचने में भी मदद करता है। उदाहरण के लिए, कुछ शब्द एक ही तरह से लिखे जाते हैं लेकिन उनका अर्थ अलग होता है जैसे 'read' वर्तमान और भूतकाल में या 'minute' समय की इकाई या कुछ छोटा। यह तय करना कि कौन सा उपयुक्त है, संदर्भ पर निर्भर करता है:

लिखित बनाम बोले गए शब्द

क्योंकि हम अपने प्लेटफ़ॉर्म को लंबे फॉर्म की सामग्री की मांगों को पूरा करने के लिए डिज़ाइन करते हैं, हमें यह भी चाहिए कि हमारा मॉडल समझे कि प्रतीक और संक्षेपण और कुछ परंपराएं जो लेखन में सामान्य हैं, उन्हें एक विशेष तरीके से उच्चारित किया जाना चाहिए या शाब्दिक रूप से उच्चारित नहीं किया जाना चाहिए। उदाहरण के लिए, मॉडल को यह जानना चाहिए कि FBI, TNT और ATM को UNESCO या NASA से अलग तरीके से उच्चारित किया जाता है। इसी तरह, $3tr लेखन में ठीक है लेकिन जब जोर से पढ़ा जाता है, तो इसे ‘तीन ट्रिलियन डॉलर’ बनना चाहिए।

मानव हस्तक्षेप

इन सूक्ष्म भेदों को पहचानना महत्वपूर्ण है क्योंकि हमारा लक्ष्य जनरेशन प्रक्रिया में मानव हस्तक्षेप की आवश्यकता को कम करना है। आखिरकार, हम अपने टूल की क्षमता को मिनटों में ऑडियोबुक जनरेट करने के लिए प्रमोट नहीं करते ताकि किसी को पूरे ऑडियो को सुनकर फिर से पूरा टेक्स्ट लिखना पड़े। फिर भी, भले ही हम लगातार हमारे मॉडल के उच्चारण नियमों को अपडेट करते हैं, यह हमेशा संभव है कि कुछ इसे भ्रमित कर दे। इस उद्देश्य के लिए, हम अब एक प्रणाली विकसित कर रहे हैं जो अनिश्चितता को फ्लैग करेगी, जिससे यूज़र्स तुरंत देख सकेंगे कि मॉडल को कौन से टेक्स्ट के हिस्से समस्याग्रस्त लगे और उन्हें सिखा सकें कि उन्हें कैसे कहा जाना चाहिए।

असंख्य अनुप्रयोग

हमने जो सभी क्षमताएं दिखाई हैं, वे हमारे सॉफ़्टवेयर को सबसे बहुमुखी AI वॉइसिंग टूल बनाने के रास्ते पर कदम हैं।

समाचार प्रकाशक पहले ही यह जान चुके हैं कि अपनी ऑडियो उपस्थिति बढ़ाना ग्राहकों को बनाए रखने का एक शानदार तरीका है। प्रत्येक लेख को उसके ऑडियो रीडिंग के साथ एम्बेड करने का बड़ा लाभ यह है कि लोग कुछ और करते हुए सुन सकते हैं। जो प्रकाशक ऐसा करते हैं, वे अक्सर वॉइस ऐक्टर्स का उपयोग करते हैं जो महंगा होता है और सभी लेख कवर नहीं होते। या वे अपनी खुद की रिपोर्टर्स का उपयोग करते हैं जो कहानियों को पढ़ते हैं, जो समय लेने वाला होता है, मतलब महंगा भी। जो लोग अपने कंटेंट को आवाज देने के लिए सिंथेटिक स्पीच का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता पर समझौता करके दूसरी कीमत चुकाते हैं। अब, ElevenLabs के साथ, कोई समझौता करने की आवश्यकता नहीं है और आप दोनों दुनियाओं का सबसे अच्छा प्राप्त कर सकते हैं।

या कल्पना करें ऑडियोबुक्स को सभी पात्रों के लिए विशिष्ट, भावनात्मक रूप से आकर्षक वॉइसओवर के साथ मिनटों में जनरेट करना। यह न केवल किताबों के साथ जुड़ने के नए तरीके प्रस्तुत करता है बल्कि सीखने की कठिनाइयों वाले लोगों के लिए पहुंच को भी बहुत आसान बनाता है।

अब उन संभावनाओं के बारे में सोचें जो वीडियो गेम डेवलपर्स के लिए खुली हैं, जिन्हें अब यह विचार करने की आवश्यकता नहीं है कि क्या कोई विशेष पात्र इतना महत्वपूर्ण है कि उन्हें वास्तविक ऐक्टर्स के साथ आवाज देने की लागत को सही ठहराया जा सके। अब सभी NPCs की अपनी आवाज़ें और व्यक्तित्व हो सकते हैं।

विज्ञापन एजेंसियां और निर्माता अब स्वतंत्र रूप से प्रयोग कर सकते हैं और किसी भी अभियान के स्वर के अनुरूप वॉइसओवर को समायोजित कर सकते हैं - चाहे वह एक खेल टीवी चैनल के लिए हो या एक लक्जरी घड़ी ब्रांड के लिए। किसी भी ऐक्टर की आवाज़ को क्लोनिंग के लिए लाइसेंस किया जा सकता है ताकि बदलाव तुरंत लागू किए जा सकें और ऐक्टर को शारीरिक रूप से उपस्थित होने की आवश्यकता न हो। या यदि वे पूरी तरह से सिंथेटिक आवाज़ के साथ जाने का निर्णय लेते हैं, तो विज्ञापनदाताओं को आवाज़ अधिकारों के लिए भुगतान करने की चिंता नहीं करनी होगी।

वर्चुअल असिस्टेंट अधिक जीवंत बन सकते हैं क्योंकि वॉइस क्लोनिंग उन्हें एक ऐसी आवाज़ में बोलने की अनुमति देता है जो किसी विशेष यूज़र के लिए परिचित हो और यह नई गहराई उन्हें अधिक प्राकृतिक बातचीत करने योग्य बनाती है।

Eleven Labs बीटा

हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए यहां जाएं। हम लगातार सुधार कर रहे हैं और सभी यूज़र फीडबैक हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान है। आनंद लें!

और जानें

Company
Stripe

Here's how ElevenLabs scaled with Stripe

ElevenLabs used Stripe to scale their AI voice platform from 11 to over 5,000 voices, creating a global marketplace and distributing over $5 million to contributors.

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें