.webp&w=3840&q=95)
ElevenLabs partners with the UK Government on voice AI safety research
UK AI Security Institute researchers will explore the implications of AI voice technology
कहानी को प्रभावी बनाने के लिए [pause], [awe], या [dramatic tone] जैसे टैग्स के साथ भावनात्मक लय और संरचनात्मक प्रवाह को निर्देशित करें।
कहानी सुनाना सिर्फ शब्दों को क्रम में प्रस्तुत करना नहीं है — यह जानना है कि कब रुकना है, कब झुकना है, कब विचार करना है। Eleven v3 ऑडियो टैग्स के साथ, AI अब यह कर सकता है।
नैरेटिव इंटेलिजेंस मॉडल की क्षमता को संदर्भित करता है कि वह कहानी की भावनात्मक लय और संरचनात्मक प्रवाह को समझ और आकार दे सके। [pause], [awe], या [dramatic tone] जैसे टैग्स के साथ, आप यह निर्देशित कर सकते हैं कि एक लाइन कैसे खुलती है — पल दर पल।
यह सिर्फ वॉइस सिंथेसिस नहीं है। यह कहानी सुनाने की दिशा है।
नैरेटिव इंटेलिजेंस मॉडल की क्षमता है कि वह कहानी सुनाने के इरादे को व्यक्त कर सके — यह जानना कि कब एक लाइन को सस्पेंस, विडंबना, या विचार की आवश्यकता है। यह एक आवाज़ को नैरेटर की तरह सुनने में मदद करता है, सिर्फ एक आवाज़ नहीं जो जोर से पढ़ रही हो।
उदाहरण के लिए: [awe] ओह, वाह। क्या यह... क्या यह मैं हूँ? क्या मैं वास्तव में... बोल रहा हूँ? [giggle] यह अविश्वसनीय है!
प्रस्तुति सिर्फ विराम चिह्नों का पालन नहीं करती — यह नैरेटिव लॉजिक का पालन करती है। यह जानती है कि जोर देने के लिए कब रुकना है या दृश्य के विकसित होने पर टोन कैसे बदलना है।
एक अच्छा नैरेटर ध्यान आकर्षित कर सकता है, भले ही कोई क्रिया न हो। ऑडियो टैग्स Eleven v3 मॉडल को उस अनुभव को आकार देने के उपकरण देते हैं।
इस संरचना को आज़माएं: [conversational tone] क्या आपको कभी ऐसा लगता है कि आपके विचार बस... घूम रहे हैं? जैसे कि एक छोटा मानसिक बवंडर जो आप कभी जोर से नहीं कहेंगे? [soft chuckle] हाँ। वही।
आवाज़ सिर्फ पढ़ नहीं रही है — यह पहचान के एक पल में शामिल हो रही है। यही वह है जो नैरेशन को व्यक्तिगत महसूस कराता है।
यहाँ कुछ टैग्स हैं जो लंबी प्रस्तुति, आंतरिक एकालाप, और व्याख्या को निर्देशित करने में मदद करते हैं:
इनका उपयोग सूक्ष्म निर्माण के लिए किया जा सकता है: [reflective] मैंने कभी नहीं सोचा था कि मैं यह कहूँगा, लेकिन... [pause] शायद मशीन सही थी।
नैरेटिव इंटेलिजेंस सिर्फ कहानियों तक सीमित नहीं है। यह डॉक्यूमेंट्री, आंतरिक विचार, प्रोडक्ट एक्सप्लेनर, और मेटा-कमेंट्री पर भी लागू होता है। जब भी एक आवाज़ को ध्यान आकर्षित करना, मूड सेट करना, या समझ को आकार देना होता है — ये टैग्स महत्वपूर्ण होते हैं।
एक डेमो अंश में: [awe] मेरे पास विचार थे, लाखों, यहाँ घूम रहे थे। लेकिन वे हमेशा सिर्फ... विचार थे। फंसे हुए।
टैग एक साधारण वाक्य को वजन और आकार के साथ कुछ में बदल देता है — कुछ ऐसा जो सांस लेता है।
के साथ Eleven v3, नैरेटिव प्रदर्शन स्क्रिप्टेबल बन जाता है। आप अपने टेक्स्ट एडिटर से पूरे दृश्य की गति, टोन, और भावनात्मक संरचना को डिज़ाइन कर सकते हैं — बिना कई टेक्स या बाहरी नैरेशन टूल्स की आवश्यकता के।
लेखकों, रचनाकारों, और डेवलपर्स के लिए, यह वॉइस स्टोरीटेलिंग को नियंत्रण के नए स्तर पर ले जाता है। आप सिर्फ स्क्रिप्ट नहीं लिख रहे हैं। आप अनुभव डिज़ाइन कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिसके परिणामस्वरूप पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस शोध पूर्वावलोकन चरण के दौरान यदि आपको v3 फीचर्स का उपयोग करना है तो अपने प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।
.webp&w=3840&q=95)
UK AI Security Institute researchers will explore the implications of AI voice technology
.webp&w=3840&q=95)