
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
OpenAI अपने पोर्टफोलियो में नए प्रोडक्ट्स जोड़ रहा है, और इनमें से सबसे चर्चित है उनकी वॉइस असिस्टेंट तकनीक। यह आवाज़ के माध्यम से मशीनों के साथ हमारे इंटरैक्शन को बदलने वाली है, लेकिन इसके व्यापक उपयोग के बारे में अभी बहुत कुछ गुप्त है।
कहा जा रहा है कि OpenAI एक ऐसी तकनीक विकसित कर रहा है जो ऑडियो, टेक्स्ट और इमेज रिकग्निशन क्षमताओं को एक ही प्रोडक्ट में जोड़ती है। यह तकनीक, उदाहरण के लिए, बच्चों को उनके गणित के होमवर्क में मदद कर सकती है या यूज़र्स को उनके आस-पास के वातावरण के बारे में व्यावहारिक जानकारी प्रदान कर सकती है, जैसे भाषा अनुवाद या वाहन मरम्मत मार्गदर्शन।
कहा जा रहा है कि वॉइस असिस्टेंट को यूज़र्स के साथ स्वाभाविक रूप से बातचीत करने के लिए डिज़ाइन किया गया है। यह ऑटोमैटिक स्पीच रिकग्निशन (ASR), लार्ज लैंग्वेज मॉडल्स (LLMs), और Text to Speech) (TTS) सिस्टम्स का उपयोग करता है। इन तकनीकों के एकीकरण से वॉइस असिस्टेंट बोले गए इनपुट को समझ सकता है, जानकारी को संदर्भ के अनुसार प्रोसेस कर सकता है, और एक प्राकृतिक, मानव जैसी आवाज़ में जवाब दे सकता है।
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
लगभग सभी वॉइस AI सिस्टम्स तीन चरणों का पालन करते हैं:
इन तीन चरणों का सख्ती से पालन करने से महत्वपूर्ण देरी हो सकती है। अगर यूज़र्स को हर जवाब के लिए पांच सेकंड इंतजार करना पड़े, तो इंटरैक्शन बोझिल और अप्राकृतिक हो जाता है, जिससे यूज़र अनुभव कम हो जाता है, भले ही ऑडियो वास्तविक लगे।
प्रभावी प्राकृतिक संवाद क्रमिक रूप से काम नहीं करता:
वास्तविक समय संवाद को बेहतर बनाना केवल प्रत्येक न्यूरल नेटवर्क प्रक्रिया को तेज करने के बारे में नहीं है; यह पूरे सिस्टम के मौलिक पुनः डिज़ाइन की आवश्यकता है। हमें इन घटकों के ओवरलैप को अधिकतम करना होगा और वास्तविक समय में प्रभावी समायोजन करना सीखना होगा।
OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
— Ananay (@ananayarora) May 11, 2024
(1/n) pic.twitter.com/KT8Hb54DwA
Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)
— Bindu Reddy (@bindureddy) May 13, 2024
Guess Apple decided that it couldn't make it on its own 🤷
The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
इस तकनीक के संभावित अनुप्रयोग व्यापक हैं, व्यक्तिगत और व्यावसायिक उपयोग से लेकर सामुदायिक स्वास्थ्य कार्यकर्ताओं को स्थानीय भाषाओं में बेहतर सेवाएं प्रदान करने या भाषण विकार वाले व्यक्तियों की सहायता करने तक।
अफवाहें हैं कि यह तकनीक Apple के iOS जैसे सिस्टम्स में एकीकृत हो सकती है, जो Siri की तुलना में अधिक सहज और इंटरैक्टिव यूज़र अनुभव प्रदान करती है। हालांकि, ऐसी साझेदारियों या वॉइस असिस्टेंट की पूरी क्षमताओं के बारे में आधिकारिक पुष्टि नहीं हुई है।
किसी भी उन्नत वॉइस असिस्टेंट में अत्याधुनिक वॉइस AI का होना निश्चित है। ElevenLabs मॉडल्स संदर्भ जागरूकता और उच्च संपीड़न के लिए स्वामित्व विधियों को जोड़ते हैं ताकि विभिन्न भावनाओं और भाषाओं में अल्ट्रा-रियलिस्टिक, जीवन जैसी आवाज़ प्रदान की जा सके। हमारा संदर्भात्मक टेक्स्ट टू स्पीच मॉडल शब्द संबंधों को समझने के लिए बनाया गया है और संदर्भ के आधार पर डिलीवरी को समायोजित करता है। इसमें कोई हार्डकोडेड फीचर्स नहीं हैं, जिसका मतलब है कि यह भाषण उत्पन्न करते समय हजारों वॉइस विशेषताओं की गतिशील रूप से भविष्यवाणी कर सकता है। हमारे मॉडल विशेष अनुप्रयोगों के लिए अनुकूलित हैं, जैसे लंबी अवधि और बहुभाषी भाषण उत्पादन या विलंबता-संवेदनशील कार्य।
एक पेशेवर AI ऑडियो टूलकिट तक पहुंचने के लिए साइन अप करें और अभी कंटेंट बनाना या एप्लिकेशन बनाना शुरू करें!
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
Scaling incredible experiences for millions of users in Hindi and English
AI-generated videos created with avatars & dubbed voice have grown 7x
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI