स्पीच टू स्पीच का परिचय

आखिरी अपडेट 16 अक्तू॰ 2025 • 9 मिनट पढ़ने का समय

जैसा आप चाहें वैसा कहें और अपनी आवाज़ को दूसरे किरदार में बदलें, भावनाओं, समय और डिलीवरी पर पूरा नियंत्रण रखें

हमने स्पीच टू स्पीच (STS) को स्पीच सिंथेसिस में जोड़ा है। STS एक वॉइस कन्वर्ज़न टूल है जो आपको एक आवाज़ की रिकॉर्डिंग को दूसरी आवाज़ में बदलने की सुविधा देता है। यह आपको भावनाओं, टोन और उच्चारण को नियंत्रित करने की अनुमति देता है, जो केवल टेक्स्ट टू स्पीच प्रॉम्प्ट्स से संभव नहीं है। इसका उपयोग किसी विशेष आवाज़ से अधिक भावनाएँ निकालने या 'जैसा आप चाहें वैसा कहें' संदर्भ के रूप में करें।

अन्य अपडेट्स में, हम अपनी प्रीमेड आवाज़ों में बदलाव कर रहे हैं। इसके अलावा, हमने स्टूडियो में कई सुधार किए हैं, जिसमें नॉर्मलाइज़ेशन, उच्चारण शब्दकोश और अधिक कस्टमाइज़ेशन विकल्प शामिल हैं।

AI वॉइस चेंजर

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें

स्पीच टू स्पीच

STS आपके अपलोड/रिकॉर्डिंग में मौजूद स्पीच की सामग्री और शैली को लेता है और आवाज़ बदलता है। STS को मुख्य रूप से दो चीजों के लिए उपयोगी समझें।

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

एक है किसी विशेष प्रीमेड आवाज़ से अधिक भावनाएँ निकालना। अत्यधिक अभिव्यक्तिपूर्ण स्पीच अपलोड/रिकॉर्ड करें और STS दूसरी आवाज़ में भावनाओं और स्वर को दोहराएगा। चूंकि सभी आवाज़ें केवल TTS प्रॉम्प्ट्स से मजबूत भावनाएँ व्यक्त नहीं कर सकतीं, अब आप एक पेशेवर कथावाचक या बच्चों की किताब के पात्र को अपनी आवाज़ से अधिक अभिव्यक्तिपूर्ण बना सकते हैं।

STS का एक और उपयोग स्पीच डिलीवरी के लिए 'संदर्भ' प्रदान करना है। जबकि हमारा TTS आमतौर पर तुरंत स्वर को सही कर देता है, आप कभी-कभी इसे फाइन-ट्यून करना चाह सकते हैं। यहाँ, STS आपको दिखाने देता है कि किसी विशेष वाक्यांश को कैसे स्वर देना है और फिर आपकी चुनी हुई कोई भी आवाज़ उसे वैसे ही कहेगी। यह कार्यक्षमता अधिक उपयोगी और सरल हो जाएगी जब हम STS को सीधे स्टूडियो में एकीकृत करेंगे, लेकिन हमारा उद्देश्य यहाँ आपके आउटपुट को सटीक रूप से संपादित करने की आपकी क्षमता को काफी सुधारना है।

हमारे समुदाय के एक सदस्य द्वारा बनाया गया वीडियो देखें:

अनुसंधान

स्रोत स्पीच को लक्ष्य स्पीच में बदलने के लिए, हमें स्रोत स्पीच की सामग्री को लक्ष्य स्पीच की विशेषताओं के साथ व्यक्त करना होगा। एक अच्छा उदाहरण होगा फेस-स्वैपिंग ऐप्स जो आपको अपनी और किसी और की तस्वीर को मिलाकर एक नई तस्वीर बनाने देते हैं।

इसका तरीका यह है कि चेहरे की छवि लें और उसकी विशेषताओं को मैप करें। नीचे दिए गए उदाहरण में मार्कर यही करते हैं: वे सीमाएँ हैं जिनके अंदर दूसरा चेहरा प्रस्तुत किया जाएगा।

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

वॉइस कन्वर्ज़न में चाल यह है कि स्रोत स्पीच की सामग्री को लक्ष्य स्पीच के फोनीम्स का उपयोग करके प्रस्तुत किया जाए। लेकिन यहाँ एक समझौता है, जैसे कि फेस-स्वैपिंग उदाहरण में: जितने अधिक मार्कर आप एक चेहरे की विशेषताओं को मैप करने के लिए उपयोग करते हैं, उतनी ही अधिक सीमाएँ आप उस चेहरे पर लगाते हैं जिसे आप उनके अंदर मैप करते हैं। कम मार्कर का मतलब कम सीमाएँ।

वॉइस कन्वर्ज़न के लिए भी यही सच है। जितनी अधिक प्राथमिकता हम लक्ष्य स्पीच को देते हैं, उतना ही हम स्रोत स्पीच के साथ असंगत होने का जोखिम उठाते हैं। लेकिन अगर हम इसे पर्याप्त प्राथमिकता नहीं देते, तो हम उस स्पीच की विशेषता खोने का जोखिम उठाते हैं। उदाहरण के लिए, अगर हम किसी के गुस्से में चिल्लाने की रिकॉर्डिंग को फुसफुसाती आवाज़ में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। स्रोत स्पीच की भावनाओं को अधिक प्राथमिकता देने पर हम यह प्रभाव खो देते हैं कि यह फुसफुसाती आवाज़ बोल रही है। फुसफुसाती स्पीच पैटर्न पर अधिक जोर देने पर हम स्रोत स्पीच की भावनात्मक चार्ज खो देते हैं।

प्रोडक्ट और हाल के अपडेट्स

प्रीमेड आवाज़ों में बदलाव

हम इस सप्ताह के अंत में स्पीच सिंथेसिस में उपलब्ध डिफ़ॉल्ट आवाज़ों में बदलाव करेंगे। हम कुछ आवाज़ों का समर्थन बंद कर देंगे, लेकिन उन्हें नई आवाज़ों से बदल देंगे। हम आने वाले हफ्तों में कुल मिलाकर 20 से अधिक जोड़ने की योजना बना रहे हैं।

हम यह भी शुरू करेंगे कि प्रत्येक आवाज़ कितने समय तक उपलब्ध रहने की उम्मीद है, इसके बारे में UI जानकारी प्रदान करेंगे। अंत में, दिसंबर के दौरान हम अपने प्लेटफ़ॉर्म की आवाज़ साझा करने और उपयोग मुआवजा सुविधाओं को सुधारने पर काम करेंगे ताकि आवाज़ की विविधता को और बेहतर बनाया जा सके। इस पर जल्द ही और विवरण।

Eleven Turbo v2 और uLaw 8khz फॉर्मेट

हमारा टर्बो मॉडल हमारी टेक टीम के महीनों के अनुसंधान का परिणाम है। यह रीयलटाइम इंटरैक्शन के लिए डिज़ाइन किया गया है लेकिन इसका उपयोग आप किसी भी चीज़ के लिए कर सकते हैं। यह IVR सिस्टम्स के लिए मानक (m)uLaw 8kHz फॉर्मेट के साथ भी आता है।

स्टूडियो के साथ नॉर्मलाइज़ेशन और मेटाडेटा

अब आप स्टूडियो में उद्योग-मानक ऑडियोबुक सबमिशन दिशानिर्देशों का पालन कर सकते हैं। इसमें गेन को समायोजित करना और डायनामिक कंप्रेशन लागू करना शामिल है। इसके अलावा, अब आपके स्टूडियो में मेटाडेटा (ISBN, लेखक, और शीर्षक) एम्बेड करने का विकल्प है।

उच्चारण डायरी

उच्चारण शब्दकोश जोड़ना हमारी सबसे अधिक अनुरोधित विशेषताओं में से एक रहा है। पिछले महीने हमने हमारे अंग्रेजी मॉडलों के लिए IPA और CMU शब्दकोशों का उपयोग करके उच्चारण निर्दिष्ट करने के लिए SSML टैग जोड़ने को लागू किया। हमने अब हमारे स्टूडियो UI में उच्चारण शब्दकोश समर्थन जारी किया है, जिससे आप IPA, CMU या शब्द प्रतिस्थापन का उपयोग करके उच्चारण निर्दिष्ट करने वाली फ़ाइल अपलोड कर सकते हैं। शब्दकोश फ़ाइलें उद्योग मानक और ओपन .PLS लेक्सिकॉन फ़ाइल फॉर्मेट का उपयोग करके अपलोड की जाती हैं।

फिलहाल, IPA और CMU Turbo V2 अंग्रेजी द्वारा समर्थित हैं, और शब्द प्रतिस्थापन (उपनाम) सभी मॉडलों और भाषाओं द्वारा समर्थित हैं। पूरी डॉक्यूमेंटेशन यहाँ पाई जा सकती है।

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

यदि आपके पास कोई प्रतिक्रिया है, तो बेझिझक हमें Discord पर संपर्क करें!

AI वॉइस चेंजर

ElevenLabs टीम के लेखों को देखें

Impact

Impact

Restoring identity through voice in Africa: Senses Hub x ElevenLabs

Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.

Company

Company

Powering India’s new generation of voice AI agents

A look at the architecture, players, and infrastructure driving India’s 2025 voice-AI landscape

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें

ElevenLabs द्वारा संचालित एजेंट्स