
Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
Eleven v3 अल्फा का परिचय
v3 आजमाएंकैसे मैंने एक पूर्ण AI-संचालित टूल बनाया जो सरल संकेतों को तैयार वीडियो विज्ञापनों में बदलता है।
मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।
कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs TTS और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।
अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।unknown node
मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।
मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।
यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।
एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:
प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।
पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।
मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"
1 | """Enhance a product idea using Gemini""" |
2 | |
3 | prompt = f""" |
4 | Enhance this product idea to make it more compelling: |
5 | |
6 | Original idea: {idea} |
7 | Target mood: {mood} |
8 | Target audience: {audience} |
9 | |
10 | Make it: |
11 | 1. Clear and specific about the value proposition |
12 | 2. Appeal to {audience} |
13 | 3. Match the {mood.lower()} tone |
14 | 4. Be memorable and marketable |
15 | |
16 | Keep it to 2-3 sentences. |
17 | """ |
इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:
कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।
मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।
1 | """Generate a 4-scene commercial script""" |
2 | |
3 | prompt = f""" |
4 | Create a 30-second commercial script with exactly 4 scenes. |
5 | |
6 | Product: {product_name} |
7 | Audience: {target_audience} |
8 | Key Message: {key_message} |
9 | Mood: {mood} |
10 | |
11 | Return a JSON array with 4 scenes, each with: |
12 | - number: 1-4 |
13 | - duration: 5 |
14 | - script: What the voiceover says |
15 | - videoPrompt: Visual description for video generation |
16 | - sfxPrompt: Sound effects description |
17 | |
18 | Example format: |
19 | [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}] |
20 | """ |
21 |
मैंने Google के VEO 2 मॉडल के लिए FAL.ai की होस्टेड API का उपयोग किया। प्रत्येक दृश्य का वीडियो प्रॉम्प्ट FAL.ai को भेजा जाता है, जो 5-सेकंड का वीडियो क्लिप लौटाता है। यह सबसे कठिन इंटीग्रेशन में से एक था – लंबे जनरेशन समय को संभालना, API सीमाओं का प्रबंधन करना, और उपयोगकर्ताओं को प्रतीक्षा करते समय फीडबैक प्रदान करना।
मैंने मूल रूप से Google AI Studio या Vertex AI का उपयोग करने की योजना बनाई थी Veo 2 API के लिए, क्योंकि इसका मतलब होता कि मैं Gemini के समान API कुंजी का उपयोग कर रहा था, लेकिन मैं अपने खाते पर Veo 2 को काम नहीं करवा सका।
मैंने एक स्टेट मैनेजमेंट सिस्टम लागू किया जो जनरेटेड वीडियो को स्थानीय रूप से सहेजता है, ताकि उपयोगकर्ताओं को महंगे कंटेंट को फिर से जनरेट न करना पड़े यदि वे नेविगेट करते हैं और वापस आते हैं। जब आप Claude पर दर सीमा तक पहुँच रहे होते हैं, तो आखिरी चीज जो आप चाहते हैं वह है अपने जनरेटेड वीडियो को खो देना क्योंकि आपने पेज को रिफ्रेश किया।
20 सेकंड के क्लिप के लिए वीडियो कंटेंट, मान लें कि कोई रीकट्स या पुनः जनरेशन नहीं हुआ, लगभग $10 आया।
यहाँ मैंने ElevenLabs' APIs के साथ क्रिएटिव तरीके से काम किया। जबकि ElevenLabs मुख्य रूप से वॉइस जनरेशन के लिए जाना जाता है, हमारे पास एक साउंड इफेक्ट्स API भी है जो बहुत प्रभावशाली है। संभावित उपयोग मामलों का अद्भुत साउंडबोर्ड उदाहरण देखें।
मैंने प्रत्येक दृश्य के लिए साउंड इफेक्ट्स की चार विविधताएँ जनरेट कीं – उत्साही, ऊर्जावान, शांत, और नाटकीय। उपयोगकर्ता प्रत्येक विकल्प का पूर्वावलोकन कर सकते हैं और जो उनके दृष्टिकोण के अनुकूल हो उसे चुन सकते हैं।
1 | const response = await elevenLabs.soundGeneration({ |
2 | text: modifiedPrompt, |
3 | duration_seconds: duration, |
4 | prompt_influence: 0.3 |
5 | }); |
6 |
चार वीडियो क्लिप और चार साउंड इफेक्ट ट्रैक्स के साथ, मुझे उन्हें संयोजित करना था। इसका मतलब था FFmpeg, वीडियो प्रोसेसिंग के स्विस आर्मी नाइफ, में गहराई से जाना। बैकएंड FFmpeg कमांड्स चलाता है:
FFmpeg कमांड्स को सही करना काफी डिबगिंग लेता था। ऑडियो मिक्सिंग, विशेष रूप से, स्तरों और समय पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। मैंने सीखा कि बैकग्राउंड ऑडियो को वॉइसओवर के साथ मिक्स करते समय लगभग 30% वॉल्यूम तक कम किया जाना चाहिए – इससे अधिक और यह ध्यान के लिए प्रतिस्पर्धा करता है, इससे कम और यह वहाँ नहीं होता।
वॉइसओवर के लिए, मैंने ElevenLabs' टेक्स्ट टू स्पीच API को एकीकृत किया ताकि उपयोगकर्ताओं को आवाज़ों का चयन प्रदान किया जा सके। सिस्टम सभी दृश्य स्क्रिप्ट्स से एक एकल सुसंगत वॉइसओवर स्क्रिप्ट जनरेट करता है, फिर इसे ElevenLabs को अनुकूलित वॉइस सेटिंग्स के साथ भेजता है:
1 | const voiceSettings = { |
2 | stability: 0.75, |
3 | similarity_boost: 0.75, |
4 | style: 0.0, |
5 | use_speaker_boost: true |
6 | }; |
7 |
ये सेटिंग्स एक स्पष्ट, पेशेवर नैरेशन प्रदान करती हैं जो विज्ञापनों के लिए अच्छी तरह से काम करती है। विभिन्न कॉन्फ़िगरेशन के साथ प्रयोग करने के बाद, मैंने पाया कि यह संतुलन बिना रोबोटिक लगे स्थिरता प्रदान करता है।
कई AI APIs के साथ निर्माण का मतलब विभिन्न विफलता मोड्स से निपटना है। दर सीमाएँ, टाइमआउट एरर, गलत प्रतिक्रियाएँ – ये सभी होते हैं। विशेष रूप से जब आप रात 2 बजे डिबगिंग कर रहे होते हैं और VEO 2 कुछ अप्रत्याशित लौटाता है।
मैंने व्यापक एरर हैंडलिंग को फॉलबैक विकल्पों के साथ लागू किया:
लक्ष्य यह था कि उपयोगकर्ता हमेशा अपना विज्ञापन पूरा कर सकें, भले ही कुछ AI सेवाएँ खराब दिन पर हों।
एक विज्ञापन जनरेट करना कई AI API कॉल्स शामिल करता है जो कई मिनट ले सकते हैं। अनुभव को बेहतर बनाने के लिए, मैंने:
मैंने एक स्टेट पर्सिस्टेंस सिस्टम भी लागू किया। यदि कोई व्यक्ति अपने ब्राउज़र को जनरेशन के बीच में बंद कर देता है, तो वे वापस आ सकते हैं और जहाँ से छोड़ा था वहाँ से शुरू कर सकते हैं। यह मेरी मूल योजना में नहीं था, लेकिन परीक्षण के दौरान अपनी प्रगति खोने के बाद, यह प्राथमिकता बन गया।
इस टूल को बनाने से तीन मुख्य सबक सामने आए।
पहला, प्रॉम्प्ट डिज़ाइन महत्वपूर्ण है। किसी भी AI मॉडल से आउटपुट की गुणवत्ता इस पर बहुत निर्भर करती है कि आप इनपुट को कैसे फ्रेम करते हैं। मैंने प्रॉम्प्ट्स को परिष्कृत करने में उतना ही समय बिताया जितना कोड लिखने में।
दूसरा, उपयोगकर्ता अनुभव तकनीकी जटिलता से बेहतर है। उपयोगकर्ताओं को इस बात की परवाह नहीं है कि कितनी AI सेवाएँ शामिल हैं — उन्हें परवाह है कि टूल काम करता है। प्रगति संकेतक, एरर हैंडलिंग, और तेज़ फीडबैक लूप्स सभी फर्क डालते हैं।
तीसरा, Claude जैसे AI सहायक विकास को तेज करते हैं। मैंने प्रोडक्ट लॉजिक पर ध्यान केंद्रित किया जबकि मॉडल को बोइलरप्लेट और सिंटैक्स सौंप दिया। यह कदम छोड़ने के बारे में नहीं है — यह स्मार्ट तरीके से बनाने के बारे में है।
जो एक वीकेंड प्रोजेक्ट के रूप में शुरू हुआ वह एक वास्तविक, एक्स्टेंसिबल टूल बन गया। मार्केटिंग टीमें इसे प्रोटोटाइपिंग के लिए, स्टार्टअप्स पिच वीडियो के लिए, और क्रिएटर्स प्रायोजित कंटेंट के लिए उपयोग कर सकते हैं।
सिस्टम डिज़ाइन द्वारा लचीला है। आप VEO 2 प्रॉम्प्ट्स को समायोजित करके वीडियो शैलियों को बदल सकते हैं, विभिन्न प्रारूपों के लिए दृश्य लंबाई को संशोधित कर सकते हैं, या FFmpeg के माध्यम से संगीत जोड़ सकते हैं।
वास्तविक अवसर कई AI सिस्टम्स को ऑर्केस्ट्रेट करने में है। कोई एकल मॉडल एक पूर्ण विज्ञापन जनरेट नहीं कर सकता — लेकिन संयुक्त रूप से, Gemini, VEO 2, और ElevenLabs कुछ ऐसा उत्पन्न कर सकते हैं जो उनमें से किसी एक से अधिक शक्तिशाली हो।
यह AI के क्रिएटर्स को बदलने के बारे में नहीं है। यह क्रिएटर्स को बेहतर टूल्स देने के बारे में है। कंटेंट में 20 वर्षों के बाद, मैंने बहुत बदलाव देखा है — लेकिन यह बदलाव बुनियादी लगता है।
यदि आप यह जानना चाहते हैं कि ElevenLabs की तकनीक कंटेंट और मीडिया के लिए नए दृष्टिकोण कैसे प्रदान कर सकती है हमारी सेल्स टीम से संपर्क करें.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.