टेक्स्ट टू वॉइस तकनीक क्या है?

टेक्स्ट टू वॉइस, या TTS, लिखित सामग्री को बोले गए कथनों में बदलता है। यह तकनीक उन्नत एल्गोरिदम का उपयोग करती है जो मानव जैसी ध्वनियों को उत्पन्न करती है।

नए बहुभाषी मॉडल का उपयोग करके कितनी भाषाओं में एक कहानी को आवाज़ दी जा सकती है?

हमारा नया बहुभाषी मॉडल सामग्री को 28 विभिन्न भाषाओं में आवाज़ दे सकता है, प्रकाशकों के लिए एक व्यापक वैश्विक पहुंच प्रदान करता है।

कॉन्टेंट पर जाएं

लॉग इन करें साइन अप करें

ब्लॉग रिसोर्सेज़

टेक्स्ट टू वॉइस: लेखकों के लिए एक आवश्यक उपकरण

1 सित॰ 2023 • 9 मिनट पढ़ने का समय

टेक्स्ट टू स्पीच के साथ, कहानियाँ प्रकाशित होते ही विभिन्न आवाज़ों और शैलियों में सुनी जा सकती हैं

इस पेज पर

परिचय
मुख्य बिंदु सारांश:
टेक्स्ट टू स्पीच तकनीक का परिचय
प्रकाशन प्रतिमान: टेक्स्ट टू स्पीच के लाभ
Eleven अलग कैसे है?
स्टूडियो के साथ लंबी सामग्री उत्पन्न करना
- शुरू करना
- फीचर हाइलाइट्स
- संगतता
- क्षितिज का विस्तार: हमारा नया बहुभाषी मॉडल
- वॉइस डिज़ाइन: अद्वितीय कथाएं बनाना
- प्रोफेशनल वॉइस क्लोनिंग के माध्यम से दक्षता
- प्रकाशक वॉइस क्लोनिंग से कैसे लाभ उठा सकते हैं
- निष्कर्ष
- सामान्य प्रश्न

A cluttered workspace with a laptop, open books, a cup of coffee, a typewriter, headphones, sticky notes, and various papers on a desk and wall.

मुख्य बिंदु सारांश:

उन्नत टेक्स्ट टू स्पीच तकनीक मानव जैसी सिंथेसाइज़्ड आवाज़।
प्रकाशन उद्योग के लिए टेक्स्ट टू स्पीच
ElevenLabs के अनोखे स्पीच सिंथेसिस मॉडल का अवलोकन
परिचय स्टूडियो, लंबी ऑडियो सामग्री बनाने के लिए एक व्यापक उपकरण।
हमारा बहुभाषी मॉडल जो 28 भाषाओं का समर्थन करता है वैश्विक पहुंच के लिए।
वॉइस डिज़ाइन और प्रोफेशनल वॉइस क्लोनिंग तकनीकें विशिष्ट और प्रामाणिक आवाज़ें बनाने के लिए।

टेक्स्ट टू स्पीच तकनीक का परिचय

Text to Speech (TTS) तकनीक, मूल रूप से, लिखित सामग्री को श्रव्य आवाज़ में बदलती है। हाल के वर्षों में, मशीन लर्निंग में महत्वपूर्ण प्रगति के साथ, TTS तकनीक इस स्तर तक विकसित हो गई है कि सिंथेसाइज़्ड आवाज़ मानव कथन से लगभग अप्रभेद्य है। आधुनिक TTS सिस्टम द्वारा प्राप्त यथार्थवाद और अभिव्यक्ति विशेष रूप से प्रकाशन उद्योग के लिए अद्वितीय संभावनाएं प्रदान करते हैं।

प्रकाशन प्रतिमान: टेक्स्ट टू स्पीच के लाभ

समाचार प्रकाशकों के लिए, ध्वनि परिदृश्य केवल एक उभरता हुआ क्षेत्र नहीं है बल्कि जुड़ाव के लिए आवश्यक है। ऑडियो उपस्थिति बढ़ाने से उपयोगकर्ता प्रतिधारण और संतुष्टि में सुधार हुआ है। जबकि पारंपरिक मार्ग में वॉइस ऐक्टर को नियुक्त करना या रिपोर्टरों को कथन के लिए लाना शामिल होगा, ये तरीके न तो समय और न ही लागत-कुशल हैं। टेक्स्ट टू स्पीच के साथ, कहानियों को प्रकाशन के तुरंत बाद आवाज़ दी जा सकती है, यह सुनिश्चित करते हुए कि सामग्री ताज़ा, प्रासंगिक और उच्च गुणवत्ता की बनी रहे।

Eleven अलग कैसे है?

हम लंबे टेक्स्ट पर भी मानव जैसी डिलीवरी कैसे प्राप्त करते हैं, यह हमारे मॉडल के निर्माण के तरीके पर निर्भर करता है।हमारा मॉडल। इसे यह समझने के लिए प्रशिक्षित किया गया है कि क्या कहा जा रहा है और तदनुसार डिलीवरी को समायोजित करने के लिए। यह न केवल शब्दों के अर्थ को बल्कि प्रत्येक कथन के आसपास के संदर्भ को भी ध्यान में रखकर करता है।

पारंपरिक स्पीच जनरेशन एल्गोरिदम वाक्य-दर-वाक्य आधार पर कथन उत्पन्न करते हैं। यह कम्प्यूटेशनल रूप से कम मांग वाला है लेकिन तुरंत रोबोटिक लगता है। भावनाएं और स्वर अक्सर एक विशेष विचारधारा को जोड़ने के लिए कई वाक्यों में फैलने और गूंजने की आवश्यकता होती है। स्वर और गति इरादे को व्यक्त करते हैं जो वास्तव में भाषण को मानव जैसा बनाता है। इसलिए प्रत्येक कथन को अलग से उत्पन्न करने के बजाय, हमारा मॉडल पूरे उत्पन्न सामग्री में उचित प्रवाह और प्रोसोडी बनाए रखते हुए आसपास के संदर्भ को ध्यान में रखता है। यह भावनात्मक गहराई, प्रमुख ऑडियो गुणवत्ता के साथ मिलकर, उपयोगकर्ताओं को सबसे प्रामाणिक और आकर्षक कथन उपकरण प्रदान करती है।

स्टूडियो के साथ लंबी सामग्री उत्पन्न करना

स्टूडियो हमारी एंड-टू-एंड वर्कफ़्लो है जो मिनटों में ऑडियोबुक बनाने के लिए है। यह आपके ऑडियो निर्माणों पर अभूतपूर्व स्तर का नियंत्रण प्रदान करता है, जिसमें विशिष्ट ऑडियो खंडों को पुनः उत्पन्न करने, विशेष टेक्स्ट खंडों को विभिन्न वक्ताओं को असाइन करने, कई प्रारूप फ़ाइलों को सीधे आयात करने की क्षमता और अधिक शामिल है।

शुरू करना

स्टूडियो को नेविगेट करना आसान और सहज है।

शीर्ष बार मेनू से स्टूडियो चुनें।
नया प्रोजेक्ट बनाएं पर क्लिक करें।
चुनें कि आप अपने प्रोजेक्ट को कैसे प्रारंभ करना चाहते हैं।
अपना टेक्स्ट बनाना शुरू करें।
अपने पूरे प्रोजेक्ट को एक बार में रेंडर करने के लिए कन्वर्ट पर क्लिक करें, या विशिष्ट खंडों का परीक्षण करने के लिए प्ले और रीजेनरेट का उपयोग करें।

00:00 / 00:00

फीचर हाइलाइट्स

स्टूडियो एक सीधा उपयोगकर्ता अनुभव प्रदान करता है, जैसे कि Google Docs का उपयोग करना, एक सहज, उपयोगकर्ता-केंद्रित इंटरफ़ेस के साथ जो विभिन्न संपादन सुविधाओं का समर्थन करता है:

पूर्ण रूपांतरण: अपने पूरे प्रोजेक्ट को एक बार में रेंडर करने के लिए एक बटन का उपयोग करें, या विशिष्ट खंडों का परीक्षण करने के लिए प्ले और रीजेनरेट का उपयोग करें।
वक्ता असाइनमेंट: विभिन्न टेक्स्ट खंडों को विभिन्न वक्ताओं को असाइन करें; शीर्षकों और पैराग्राफ के लिए डिफ़ॉल्ट आवाज़ें चुनें।
ऑडियो खंडों को पुनः उत्पन्न करें: बड़े ऑडियो खंडों के भीतर विशिष्ट खंडों को सहजता से पुनः उत्पन्न करें जबकि संदर्भ को बरकरार रखें।
विराम डालें (इस सप्ताह के अंत में आ रहा है): भाषण खंडों के बीच विराम की लंबाई को मैन्युअल रूप से समायोजित करें (शुरुआत में 3 सेकंड तक) गति को ठीक करने के लिए।
अध्याय द्वारा खंडित करें: अपने टेक्स्ट को अनुभागों में संरचित करें ताकि एक समय में एक विशेष खंड पर ध्यान केंद्रित किया जा सके।
प्रगति को सहेजें और पुनः आरंभ करें: अपने काम को सुविधाजनक रूप से रोकें और वहीं से पुनः आरंभ करें जहां आपने छोड़ा था।
फ़ाइलें आयात करें: स्टूडियो .epub, .pdf और .txt फ़ाइलों का समर्थन करता है, साथ ही अधिक सुव्यवस्थित वर्कफ़्लो के लिए URL भी।
बुद्धिमान पुनः-उत्पादन: पहले से उत्पन्न प्रोजेक्ट पर काम फिर से शुरू करते समय, आपको केवल बदले गए खंडों के पुनः उत्पन्न करने के लिए शुल्क लिया जाएगा, पूरे प्रोजेक्ट के लिए नहीं।

स्टूडियो

Screenshot of an audiobook editing interface with highlighted text and two book cover images titled "Discover Daily" and "Dune."

वीडियो और ऑडियो संपादित करने, वॉइसओवर और संगीत जोड़ने, टेक्स्ट में ट्रांसक्राइब करने और वर्णनात्मक, कैप्शनयुक्त प्रोडक्शंस प्रकाशित करने के लिए आपका पूरा वर्कफ़्लो

संगतता

स्टूडियो के साथ खड़ा है स्पीच सिंथेसिस, वॉइसलैब, और Voice Library, लंबी ऑडियो सिंथेसिस के लिए एक व्यापक समाधान के रूप में सेवा कर रहा है। इसके अतिरिक्त, यह प्रोफेशनल वॉइस क्लोनिंग, वॉइस लाइब्रेरी और हमारे बहुभाषी मॉडल के साथ सहजता से एकीकृत है।

प्रोफेशनल वॉइस क्लोनिंग: अपनी खुद की आवाज़ में लंबी ऑडियो सामग्री उत्पन्न करें। आप अपनी प्रो वॉइस क्लोन को वॉइस लाइब्रेरी के माध्यम से भी साझा कर सकते हैं और जब अन्य लोग आपकी आवाज़ का उपयोग करके प्रोजेक्ट बनाते हैं तो कैरेक्टर रिवार्ड्स कमा सकते हैं।
वॉइस लाइब्रेरी: हमारे समुदाय द्वारा बनाई गई अनगिनत आवाज़ों में से अपनी कथा के लिए सही आवाज़ चुनें। ऑडियोबुक आवाज़ों की विस्तृत श्रृंखला से चुनें: महाकाव्य, बैरिटोन, एल्टो, टेनर, नसली, हस्की, सुल्त्री, सेडक्टिव, रास्पी, क्रीपी, और अधिक। चाहे आपको एक वयस्क पुरुष या महिला, वृद्ध पुरुष या महिला, बुद्धिमान मार्गदर्शक, भविष्यवादी रोबोट, या साहसी के लिए आपकी उत्सव कहानी, रोमांटिक कहानी, या महाकाव्य गाथा।
Eleven बहुभाषी: चाहे आप एक पूर्व-निर्मित आवाज़ चुनें, एक क्लोन की गई आवाज़ या अपनी खुद की आवाज़, आप उन्हें हमारे बहुभाषी मॉडल द्वारा समर्थित सभी भाषाओं में सहजता से बोल सकते हैं।

क्षितिज का विस्तार: हमारा नया बहुभाषी मॉडल

ElevenLabs में, नवाचार के प्रति हमारी प्रतिबद्धता ने एक नए बहुभाषी मॉडल के लॉन्च का नेतृत्व किया है। यह एक ही कथा को अनुवादित और आवाज़ देने की अनुमति देता है 28 भाषाओं में। प्रकाशकों के लिए, इसका मतलब है अभूतपूर्व वैश्विक पहुंच, विभिन्न संस्कृतियों और क्षेत्रों में कहानियों की गूंज, सभी एक सुसंगत और एकीकृत आवाज़ में।

अब समर्थित भाषाओं में शामिल हैं: अंग्रेजी, कोरियाई, डच, चीनी, तुर्की, स्वीडिश, इंडोनेशियाई, फिलिपिनो, जापानी, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, स्लोवाक, क्रोएशियाई, क्लासिक अरबी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इतालवी, हिंदी, पुर्तगाली, और तमिल।

वॉइस डिज़ाइन: अद्वितीय कथाएं बनाना

हमारा स्वामित्व Voice Design उपकरण प्रकाशकों के लिए एक परिवर्तनकारी अनुभव प्रदान करता है। यह चयनित मापदंडों जैसे आयु, लिंग और उच्चारण के आधार पर पूरी तरह से अद्वितीय आवाज़ें बनाने की सुविधा प्रदान करता है। हर उत्पन्न आवाज़ अद्वितीय होती है, यह सुनिश्चित करते हुए कि प्रकाशक एक विशेष आवाज़ चुन सकते हैं जो उनके ब्रांड या प्रकाशन के पर्याय बन जाए।

प्रोफेशनल वॉइस क्लोनिंग के माध्यम से दक्षता

प्रोफेशनल वॉइस क्लोनिंग (PVC) तकनीक ElevenLabs में अनुकूलन की एक और परत प्रदान करती है। एक प्रकाशन के रिपोर्टरों की आवाज़ों को क्लोन करके, हम उनकी अनूठी टोन में ऑडियो कहानियां बना सकते हैं। यह न केवल प्रामाणिकता प्रदान करता है बल्कि पारंपरिक रिकॉर्डिंग प्रक्रियाओं पर लागत और समय को भी काफी कम करता है। इसके अलावा, हमारा बहुभाषी मॉडल प्रोफेशनल वॉइस क्लोनिंग के साथ संगत है, यह सुनिश्चित करते हुए कि एक रिपोर्टर की आवाज़ अब सभी समर्थित भाषाओं में बोल सकती है।

वॉइस क्लोनिंग

A blue and silver abstract spherical shape next to a gray microphone icon.

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें

हमारे प्रोफेशनल वॉइस क्लोनिंग टूल के साथ उत्पन्न एक पॉडकास्ट एपिसोड सुनें:

00:00 / 00:00

प्रकाशक वॉइस क्लोनिंग से कैसे लाभ उठा सकते हैं

प्रकाशकों के लिए, प्रोफेशनल वॉइस क्लोनिंग (PVC) कई फायदे प्रदान करता है:

विशिष्ट ब्रांड आवाज़: एक अनूठी आवाज़ को क्लोन करके, प्रकाशक एक पहचानने योग्य श्रव्य ब्रांड स्थापित कर सकते हैं, जो उनकी सामग्री को अलग करता है।
सामग्री स्थिरता: वॉइस क्लोनिंग बिना विभिन्न वॉइस ऐक्टर की आवश्यकता के कई लेखों और प्रकाशनों में एक सुसंगत वोकल शैली सुनिश्चित करता है।
दक्षता: क्या आपको वॉइस-ओवर संशोधन की आवश्यकता है? पुनः रिकॉर्डिंग के बजाय, बस क्लोन की गई आवाज़ के साथ आवश्यक कथन उत्पन्न करें, समय बचाएं और एकरूपता बनाए रखें।
संवर्धित जुड़ाव: वैश्विक पाठकों के लिए, एक परिचित क्लोन की गई आवाज़ सामग्री में कनेक्शन और विश्वास को बढ़ाती है।

टेक्स्ट टू वॉइस तकनीक के साथ संयुक्त होने पर, प्रकाशकों के पास समृद्ध, विविध और वैश्विक श्रव्य सामग्री का उत्पादन करने के लिए एक अत्याधुनिक टूलकिट होता है। प्रोफेशनल वॉइस क्लोनिंग तकनीक की क्षमताओं को अपनाना प्रकाशकों के लिए एक प्रगतिशील कदम है, जो अनगिनत अवसरों के द्वार खोलता है।

निष्कर्ष

प्रकाशन का भविष्य केवल लिखित शब्द में नहीं है बल्कि उन शब्दों को कैसे व्यक्त किया जाता है। टेक्स्ट टू वॉइस जैसे उपकरणों के साथ, प्रकाशकों के पास अपनी सामग्री वितरण में क्रांति लाने की क्षमता है, यह सुनिश्चित करते हुए कि पहुंच, विशिष्टता और वैश्विक पहुंच बनी रहे। ElevenLabs में, हम इस परिवर्तन के अग्रणी हैं, ऐसी तकनीक की पेशकश कर रहे हैं जो एक समृद्ध, अधिक विविध श्रव्य अनुभव का मार्ग प्रशस्त करती है।

अपडेट: जनवरी 2025 से, प्रोजेक्ट्स को अब स्टूडियो कहा जाता है और यह सभी मुफ्त उपयोगकर्ताओं के लिए उपलब्ध है।

सामान्य प्रश्न

प्रकाशक अपने लेखों या कहानियों को तुरंत उच्च-गुणवत्ता वाले ऑडियो में बदल सकते हैं, उपयोगकर्ता जुड़ाव को बढ़ा सकते हैं, रिकॉर्डिंग लागतों को बचा सकते हैं, और बहुभाषी क्षमताओं के साथ अपनी वैश्विक पहुंच का विस्तार कर सकते हैं।

हाँ, ElevenLabs में वॉइस डिज़ाइन टूल विशेष मापदंडों के आधार पर पूरी तरह से विशिष्ट आवाज़ें उत्पन्न करने के लिए डिज़ाइन किया गया है, यह सुनिश्चित करते हुए कि प्रत्येक प्रकाशक के पास एक आवाज़ हो जो उनके ब्रांड पहचान के साथ मेल खाती हो।

ElevenLabs में, हम नैतिक विचारों को प्राथमिकता देते हैं। हमारी प्रोफेशनल वॉइस क्लोनिंग तकनीक व्यक्तिगत पहचान का सम्मान और सुरक्षा करने के लिए डिज़ाइन की गई है। हम केवल संबंधित व्यक्तियों की सहमति और प्राधिकरण के साथ आवाज़ों के क्लोनिंग की अनुमति देकर जिम्मेदार उपयोग सुनिश्चित करते हैं।

ElevenLabs टीम के लेखों को देखें

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें

ElevenLabs द्वारा संचालित एजेंट्स