मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।
कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs TTS और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।
अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।
स्टैक चयन: Node.js, Express, React, और Claude 4 Opus
A commercial for "finding places to eat lunch in a park"
मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।
मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।
यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।
आठ-स्टेप विज़ार्ड: प्रॉम्प्ट से तैयार विज्ञापन तक
एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:
प्रोडक्ट जानकारी
स्क्रिप्ट जनरेशन
वीडियो क्रिएशन
Sound Effects
वीडियो असेंबली
वॉइस ओवर
अंतिम वीडियो
सोशल पोस्ट्स
प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।
A commercial for "Epoch" matching
Gemini Flash के साथ आइडियाज को परिष्कृत करना
पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।
मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"
1
"""Enhance a product idea using Gemini"""
2
3
prompt = f"""
4
Enhancethis product idea to make it more compelling:
5
6
Original idea:{idea}
7
Target mood:{mood}
8
Target audience:{audience}
9
10
Make it:
11
1.Clear and specific about the value proposition
12
2.Appeal to {audience}
13
3.Match the {mood.lower()} tone
14
4.Be memorable and marketable
15
16
Keep it to 2-3 sentences.
17
"""
Gemini के साथ गैर-सामान्य स्क्रिप्ट्स जनरेट करना
इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:
वॉइसओवर स्क्रिप्ट
एक वीडियो जनरेशन प्रॉम्प्ट
एक साउंड इफेक्ट्स विवरण
कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।
मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।
1
"""Generate a 4-scene commercial script"""
2
3
prompt = f"""
4
Create a 30-second commercial script with exactly 4 scenes.
5
6
Product:{product_name}
7
Audience:{target_audience}
8
KeyMessage:{key_message}
9
Mood:{mood}
10
11
Return a JSON array with4 scenes, each with:
12
- number:1-4
13
- duration:5
14
- script:What the voiceover says
15
- videoPrompt:Visual description for video generation
मैंने Google के VEO 2 मॉडल के लिए FAL.ai की होस्टेड API का उपयोग किया। प्रत्येक दृश्य का वीडियो प्रॉम्प्ट FAL.ai को भेजा जाता है, जो 5-सेकंड का वीडियो क्लिप लौटाता है। यह सबसे कठिन इंटीग्रेशन में से एक था – लंबे जनरेशन समय को संभालना, API सीमाओं का प्रबंधन करना, और उपयोगकर्ताओं को प्रतीक्षा करते समय फीडबैक प्रदान करना।
मैंने मूल रूप से Google AI Studio या Vertex AI का उपयोग करने की योजना बनाई थी Veo 2 API के लिए, क्योंकि इसका मतलब होता कि मैं Gemini के समान API कुंजी का उपयोग कर रहा था, लेकिन मैं अपने खाते पर Veo 2 को काम नहीं करवा सका।
मैंने एक स्टेट मैनेजमेंट सिस्टम लागू किया जो जनरेटेड वीडियो को स्थानीय रूप से सहेजता है, ताकि उपयोगकर्ताओं को महंगे कंटेंट को फिर से जनरेट न करना पड़े यदि वे नेविगेट करते हैं और वापस आते हैं। जब आप Claude पर दर सीमा तक पहुँच रहे होते हैं, तो आखिरी चीज जो आप चाहते हैं वह है अपने जनरेटेड वीडियो को खो देना क्योंकि आपने पेज को रिफ्रेश किया।
20 सेकंड के क्लिप के लिए वीडियो कंटेंट, मान लें कि कोई रीकट्स या पुनः जनरेशन नहीं हुआ, लगभग $10 आया।
साउंड इफेक्ट्स और वॉइसओवर के लिए ElevenLabs का उपयोग करना
यहाँ मैंने ElevenLabs' APIs के साथ क्रिएटिव तरीके से काम किया। जबकि ElevenLabs मुख्य रूप से वॉइस जनरेशन के लिए जाना जाता है, हमारे पास एक साउंड इफेक्ट्स API भी है जो बहुत प्रभावशाली है। संभावित उपयोग मामलों का अद्भुत साउंडबोर्ड उदाहरण देखें।
मैंने प्रत्येक दृश्य के लिए साउंड इफेक्ट्स की चार विविधताएँ जनरेट कीं – उत्साही, ऊर्जावान, शांत, और नाटकीय। उपयोगकर्ता प्रत्येक विकल्प का पूर्वावलोकन कर सकते हैं और जो उनके दृष्टिकोण के अनुकूल हो उसे चुन सकते हैं।
चार वीडियो क्लिप और चार साउंड इफेक्ट ट्रैक्स के साथ, मुझे उन्हें संयोजित करना था। इसका मतलब था FFmpeg, वीडियो प्रोसेसिंग के स्विस आर्मी नाइफ, में गहराई से जाना। बैकएंड FFmpeg कमांड्स चलाता है:
प्रत्येक वीडियो क्लिप के साथ साउंड इफेक्ट्स मिक्स करें
सभी क्लिप्स को एक वीडियो में जोड़ें
अंतिम वीडियो में वॉइसओवर ट्रैक जोड़ें
FFmpeg कमांड्स को सही करना काफी डिबगिंग लेता था। ऑडियो मिक्सिंग, विशेष रूप से, स्तरों और समय पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। मैंने सीखा कि बैकग्राउंड ऑडियो को वॉइसओवर के साथ मिक्स करते समय लगभग 30% वॉल्यूम तक कम किया जाना चाहिए – इससे अधिक और यह ध्यान के लिए प्रतिस्पर्धा करता है, इससे कम और यह वहाँ नहीं होता।
वॉइसओवर: जहाँ ElevenLabs वास्तव में चमकता है
वॉइसओवर के लिए, मैंने ElevenLabs' टेक्स्ट टू स्पीच API को एकीकृत किया ताकि उपयोगकर्ताओं को आवाज़ों का चयन प्रदान किया जा सके। सिस्टम सभी दृश्य स्क्रिप्ट्स से एक एकल सुसंगत वॉइसओवर स्क्रिप्ट जनरेट करता है, फिर इसे ElevenLabs को अनुकूलित वॉइस सेटिंग्स के साथ भेजता है:
1
const voiceSettings ={
2
stability:0.75,
3
similarity_boost:0.75,
4
style:0.0,
5
use_speaker_boost:true
6
};
7
ये सेटिंग्स एक स्पष्ट, पेशेवर नैरेशन प्रदान करती हैं जो विज्ञापनों के लिए अच्छी तरह से काम करती है। विभिन्न कॉन्फ़िगरेशन के साथ प्रयोग करने के बाद, मैंने पाया कि यह संतुलन बिना रोबोटिक लगे स्थिरता प्रदान करता है।
लचीला एरर हैंडलिंग और उपयोगकर्ता अनुभव
कई AI APIs के साथ निर्माण का मतलब विभिन्न विफलता मोड्स से निपटना है। दर सीमाएँ, टाइमआउट एरर, गलत प्रतिक्रियाएँ – ये सभी होते हैं। विशेष रूप से जब आप रात 2 बजे डिबगिंग कर रहे होते हैं और VEO 2 कुछ अप्रत्याशित लौटाता है।
मैंने व्यापक एरर हैंडलिंग को फॉलबैक विकल्पों के साथ लागू किया:
यदि Gemini विफल होता है, तो सिस्टम बुद्धिमान फॉलबैक स्क्रिप्ट्स प्रदान करता है
यदि वीडियो जनरेशन विफल होता है, तो प्लेसहोल्डर वीडियो उपलब्ध हैं
यदि साउंड जनरेशन विफल होता है, तो बेसिक ऑडियो ट्रैक्स का उपयोग किया जाता है
लक्ष्य यह था कि उपयोगकर्ता हमेशा अपना विज्ञापन पूरा कर सकें, भले ही कुछ AI सेवाएँ खराब दिन पर हों।
प्रदर्शन विचार
A commercial for "Globetrotter Grocer"
एक विज्ञापन जनरेट करना कई AI API कॉल्स शामिल करता है जो कई मिनट ले सकते हैं। अनुभव को बेहतर बनाने के लिए, मैंने:
जहाँ संभव हो वीडियो को समानांतर में प्रोसेस करें
रियल-टाइम प्रगति संकेतक दिखाएँ
महंगे जनरेटेड कंटेंट को स्थानीय रूप से सहेजें
उपयोगकर्ताओं को व्यक्तिगत घटकों को पुनः जनरेट करने की अनुमति दें
मैंने एक स्टेट पर्सिस्टेंस सिस्टम भी लागू किया। यदि कोई व्यक्ति अपने ब्राउज़र को जनरेशन के बीच में बंद कर देता है, तो वे वापस आ सकते हैं और जहाँ से छोड़ा था वहाँ से शुरू कर सकते हैं। यह मेरी मूल योजना में नहीं था, लेकिन परीक्षण के दौरान अपनी प्रगति खोने के बाद, यह प्राथमिकता बन गया।
मुख्य सीख और आगे क्या है
इस टूल को बनाने से तीन मुख्य सबक सामने आए।
पहला, प्रॉम्प्ट डिज़ाइन महत्वपूर्ण है। किसी भी AI मॉडल से आउटपुट की गुणवत्ता इस पर बहुत निर्भर करती है कि आप इनपुट को कैसे फ्रेम करते हैं। मैंने प्रॉम्प्ट्स को परिष्कृत करने में उतना ही समय बिताया जितना कोड लिखने में।
दूसरा, उपयोगकर्ता अनुभव तकनीकी जटिलता से बेहतर है। उपयोगकर्ताओं को इस बात की परवाह नहीं है कि कितनी AI सेवाएँ शामिल हैं — उन्हें परवाह है कि टूल काम करता है। प्रगति संकेतक, एरर हैंडलिंग, और तेज़ फीडबैक लूप्स सभी फर्क डालते हैं।
तीसरा, Claude जैसे AI सहायक विकास को तेज करते हैं। मैंने प्रोडक्ट लॉजिक पर ध्यान केंद्रित किया जबकि मॉडल को बोइलरप्लेट और सिंटैक्स सौंप दिया। यह कदम छोड़ने के बारे में नहीं है — यह स्मार्ट तरीके से बनाने के बारे में है।
जो एक वीकेंड प्रोजेक्ट के रूप में शुरू हुआ वह एक वास्तविक, एक्स्टेंसिबल टूल बन गया। मार्केटिंग टीमें इसे प्रोटोटाइपिंग के लिए, स्टार्टअप्स पिच वीडियो के लिए, और क्रिएटर्स प्रायोजित कंटेंट के लिए उपयोग कर सकते हैं।
सिस्टम डिज़ाइन द्वारा लचीला है। आप VEO 2 प्रॉम्प्ट्स को समायोजित करके वीडियो शैलियों को बदल सकते हैं, विभिन्न प्रारूपों के लिए दृश्य लंबाई को संशोधित कर सकते हैं, या FFmpeg के माध्यम से संगीत जोड़ सकते हैं।
वास्तविक अवसर कई AI सिस्टम्स को ऑर्केस्ट्रेट करने में है। कोई एकल मॉडल एक पूर्ण विज्ञापन जनरेट नहीं कर सकता — लेकिन संयुक्त रूप से, Gemini, VEO 2, और ElevenLabs कुछ ऐसा उत्पन्न कर सकते हैं जो उनमें से किसी एक से अधिक शक्तिशाली हो।
यह AI के क्रिएटर्स को बदलने के बारे में नहीं है। यह क्रिएटर्स को बेहतर टूल्स देने के बारे में है। कंटेंट में 20 वर्षों के बाद, मैंने बहुत बदलाव देखा है — लेकिन यह बदलाव बुनियादी लगता है।
यदि आप यह जानना चाहते हैं कि ElevenLabs की तकनीक कंटेंट और मीडिया के लिए नए दृष्टिकोण कैसे प्रदान कर सकती है हमारी सेल्स टीम से संपर्क करें.
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.