मैंने ElevenLabs, Gemini, और VEO 2 का उपयोग करके टेक्स्ट-टू-कमर्शियल जनरेटर कैसे बनाया
- लेखक
- Ryan Morrison
- प्रकाशित
- आखिरी बार अपडेट किया गया
सुनेंइस आर्टिकल को सुनें
मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।
कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs टेक्स्ट टू स्पीच और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।
अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।
स्टैक चयन: Node.js, Express, React, और Claude 4 Opus
मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।
मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।
यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।
आठ-स्टेप विज़ार्ड: प्रॉम्प्ट से तैयार विज्ञापन तक

एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:
- प्रोडक्ट जानकारी
- स्क्रिप्ट जनरेशन
- वीडियो क्रिएशन
- साउंड इफेक्ट्स
- वीडियो असेंबली
- वॉइस ओवर
- अंतिम वीडियो
- सोशल पोस्ट्स
प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।
Gemini Flash के साथ आइडियाज को परिष्कृत करना
पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।
मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"
Gemini के साथ गैर-सामान्य स्क्रिप्ट्स जनरेट करना
इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:
- वॉइसओवर स्क्रिप्ट
- एक वीडियो जनरेशन प्रॉम्प्ट
- एक साउंड इफेक्ट्स विवरण
कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।
मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।
VEO 2 के साथ 5s दृश्य बनाना
मैंने Google के VEO 2 मॉडल के लिए FAL.ai की होस्टेड API का उपयोग किया। प्रत्येक दृश्य का वीडियो प्रॉम्प्ट FAL.ai को भेजा जाता है, जो 5-सेकंड का वीडियो क्लिप लौटाता है। यह सबसे कठिन इंटीग्रेशन में से एक था – लंबे जनरेशन समय को संभालना, API सीमाओं का प्रबंधन करना, और उपयोगकर्ताओं को प्रतीक्षा करते समय फीडबैक प्रदान करना।
मैंने मूल रूप से Google AI Studio या Vertex AI का उपयोग करने की योजना बनाई थी Veo 2 API के लिए, क्योंकि इसका मतलब होता कि मैं Gemini के समान API कुंजी का उपयोग कर रहा था, लेकिन मैं अपने खाते पर Veo 2 को काम नहीं करवा सका।
मैंने एक स्टेट मैनेजमेंट सिस्टम लागू किया जो जनरेटेड वीडियो को स्थानीय रूप से सहेजता है, ताकि उपयोगकर्ताओं को महंगे कंटेंट को फिर से जनरेट न करना पड़े यदि वे नेविगेट करते हैं और वापस आते हैं। जब आप Claude पर दर सीमा तक पहुँच रहे होते हैं, तो आखिरी चीज जो आप चाहते हैं वह है अपने जनरेटेड वीडियो को खो देना क्योंकि आपने पेज को रिफ्रेश किया।
20 सेकंड के क्लिप के लिए वीडियो कंटेंट, मान लें कि कोई रीकट्स या पुनः जनरेशन नहीं हुआ, लगभग $10 आया।
साउंड इफेक्ट्स और वॉइसओवर के लिए ElevenLabs का उपयोग करना
यहाँ मैंने ElevenLabs की APIs के साथ क्रिएटिव तरीके से काम किया। जबकि ElevenLabs मुख्य रूप से वॉइस जनरेशन के लिए जाना जाता है, हमारे पास एक साउंड इफेक्ट्स API भी है जो बहुत प्रभावशाली है। संभावित उपयोग मामलों का अद्भुत साउंडबोर्ड उदाहरण देखें।
मैंने प्रत्येक दृश्य के लिए साउंड इफेक्ट्स की चार विविधताएँ जनरेट कीं – उत्साही, ऊर्जावान, शांत, और नाटकीय। उपयोगकर्ता प्रत्येक विकल्प का पूर्वावलोकन कर सकते हैं और जो उनके दृष्टिकोण के अनुकूल हो उसे चुन सकते हैं।
FFmpeg के साथ अंतिम वीडियो असेंबल करना
चार वीडियो क्लिप और चार साउंड इफेक्ट ट्रैक्स के साथ, मुझे उन्हें संयोजित करना था। इसका मतलब था FFmpeg, वीडियो प्रोसेसिंग के स्विस आर्मी नाइफ, में गहराई से जाना। बैकएंड FFmpeg कमांड्स चलाता है:
- प्रत्येक वीडियो क्लिप के साथ साउंड इफेक्ट्स मिक्स करें
- सभी क्लिप्स को एक वीडियो में जोड़ें
- अंतिम वीडियो में वॉइसओवर ट्रैक जोड़ें
FFmpeg कमांड्स को सही करना काफी डिबगिंग लेता था। ऑडियो मिक्सिंग, विशेष रूप से, स्तरों और समय पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। मैंने सीखा कि बैकग्राउंड ऑडियो को वॉइसओवर के साथ मिक्स करते समय लगभग 30% वॉल्यूम तक कम किया जाना चाहिए – इससे अधिक और यह ध्यान के लिए प्रतिस्पर्धा करता है, इससे कम और यह वहाँ नहीं होता।
वॉइसओवर: जहाँ ElevenLabs वास्तव में चमकता है
वॉइसओवर के लिए, मैंने ElevenLabs का
ये सेटिंग्स एक स्पष्ट, पेशेवर नैरेशन प्रदान करती हैं जो विज्ञापनों के लिए अच्छी तरह से काम करती है। विभिन्न कॉन्फ़िगरेशन के साथ प्रयोग करने के बाद, मैंने पाया कि यह संतुलन बिना रोबोटिक लगे स्थिरता प्रदान करता है।
लचीला एरर हैंडलिंग और उपयोगकर्ता अनुभव
कई AI APIs के साथ निर्माण का मतलब विभिन्न विफलता मोड्स से निपटना है। दर सीमाएँ, टाइमआउट एरर, गलत प्रतिक्रियाएँ – ये सभी होते हैं। विशेष रूप से जब आप रात 2 बजे डिबगिंग कर रहे होते हैं और VEO 2 कुछ अप्रत्याशित लौटाता है।
मैंने व्यापक एरर हैंडलिंग को फॉलबैक विकल्पों के साथ लागू किया:
- यदि Gemini विफल होता है, तो सिस्टम बुद्धिमान फॉलबैक स्क्रिप्ट्स प्रदान करता है
- यदि वीडियो जनरेशन विफल होता है, तो प्लेसहोल्डर वीडियो उपलब्ध हैं
- यदि साउंड जनरेशन विफल होता है, तो बेसिक ऑडियो ट्रैक्स का उपयोग किया जाता है
लक्ष्य यह था कि उपयोगकर्ता हमेशा अपना विज्ञापन पूरा कर सकें, भले ही कुछ AI सेवाएँ खराब दिन पर हों।
प्रदर्शन विचार
एक विज्ञापन जनरेट करना कई AI API कॉल्स शामिल करता है जो कई मिनट ले सकते हैं। अनुभव को बेहतर बनाने के लिए, मैंने:
- जहाँ संभव हो वीडियो को समानांतर में प्रोसेस करें
- रियल-टाइम प्रगति संकेतक दिखाएँ
- महंगे जनरेटेड कंटेंट को स्थानीय रूप से सहेजें
- उपयोगकर्ताओं को व्यक्तिगत घटकों को पुनः जनरेट करने की अनुमति दें
मैंने एक स्टेट पर्सिस्टेंस सिस्टम भी लागू किया। यदि कोई व्यक्ति अपने ब्राउज़र को जनरेशन के बीच में बंद कर देता है, तो वे वापस आ सकते हैं और जहाँ से छोड़ा था वहाँ से शुरू कर सकते हैं। यह मेरी मूल योजना में नहीं था, लेकिन परीक्षण के दौरान अपनी प्रगति खोने के बाद, यह प्राथमिकता बन गया।
मुख्य सीख और आगे क्या है
इस टूल को बनाने से तीन मुख्य सबक सामने आए।
पहला, प्रॉम्प्ट डिज़ाइन महत्वपूर्ण है। किसी भी AI मॉडल से आउटपुट की गुणवत्ता इस पर बहुत निर्भर करती है कि आप इनपुट को कैसे फ्रेम करते हैं। मैंने प्रॉम्प्ट्स को परिष्कृत करने में उतना ही समय बिताया जितना कोड लिखने में।
दूसरा, उपयोगकर्ता अनुभव तकनीकी जटिलता से बेहतर है। उपयोगकर्ताओं को इस बात की परवाह नहीं है कि कितनी AI सेवाएँ शामिल हैं — उन्हें परवाह है कि टूल काम करता है। प्रगति संकेतक, एरर हैंडलिंग, और तेज़ फीडबैक लूप्स सभी फर्क डालते हैं।
तीसरा, Claude जैसे AI सहायक विकास को तेज करते हैं। मैंने प्रोडक्ट लॉजिक पर ध्यान केंद्रित किया जबकि मॉडल को बोइलरप्लेट और सिंटैक्स सौंप दिया। यह कदम छोड़ने के बारे में नहीं है — यह स्मार्ट तरीके से बनाने के बारे में है।
जो एक वीकेंड प्रोजेक्ट के रूप में शुरू हुआ वह एक वास्तविक, एक्स्टेंसिबल टूल बन गया। मार्केटिंग टीमें इसे प्रोटोटाइपिंग के लिए, स्टार्टअप्स पिच वीडियो के लिए, और क्रिएटर्स प्रायोजित कंटेंट के लिए उपयोग कर सकते हैं।
सिस्टम डिज़ाइन द्वारा लचीला है। आप VEO 2 प्रॉम्प्ट्स को समायोजित करके वीडियो शैलियों को बदल सकते हैं, विभिन्न प्रारूपों के लिए दृश्य लंबाई को संशोधित कर सकते हैं, या FFmpeg के माध्यम से संगीत जोड़ सकते हैं।
वास्तविक अवसर कई AI सिस्टम्स को ऑर्केस्ट्रेट करने में है। कोई एकल मॉडल एक पूर्ण विज्ञापन जनरेट नहीं कर सकता — लेकिन संयुक्त रूप से, Gemini, VEO 2, और ElevenLabs कुछ ऐसा उत्पन्न कर सकते हैं जो उनमें से किसी एक से अधिक शक्तिशाली हो।
यह AI के क्रिएटर्स को बदलने के बारे में नहीं है। यह क्रिएटर्स को बेहतर टूल्स देने के बारे में है। कंटेंट में 20 वर्षों के बाद, मैंने बहुत बदलाव देखा है — लेकिन यह बदलाव बुनियादी लगता है।
यदि आप यह जानना चाहते हैं कि ElevenLabs की तकनीक कंटेंट और मीडिया के लिए नए दृष्टिकोण कैसे प्रदान कर सकती है हमारी सेल्स टीम से संपर्क करें.



