Eleven v3 अल्फा का परिचय

v3 आजमाएं

मैंने ElevenLabs, Gemini, और VEO 2 का उपयोग करके टेक्स्ट-टू-कमर्शियल जनरेटर कैसे बनाया

कैसे मैंने एक पूर्ण AI-संचालित टूल बनाया जो सरल संकेतों को तैयार वीडियो विज्ञापनों में बदलता है।

Marketing video gen

मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।

कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs TTS और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।

अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।unknown node

स्टैक चयन: Node.js, Express, React, और Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।

मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।

यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।

आठ-स्टेप विज़ार्ड: प्रॉम्प्ट से तैयार विज्ञापन तक

Eight step wizard

एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:

  1. प्रोडक्ट जानकारी
  2. स्क्रिप्ट जनरेशन
  3. वीडियो क्रिएशन
  4. Sound Effects
  5. वीडियो असेंबली
  6. वॉइस ओवर
  7. अंतिम वीडियो
  8. सोशल पोस्ट्स

प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।

A commercial for "Epoch" matching

Gemini Flash के साथ आइडियाज को परिष्कृत करना

पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।

मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"

1"""Enhance a product idea using Gemini"""
2
3 prompt = f"""
4 Enhance this product idea to make it more compelling:
5
6 Original idea: {idea}
7 Target mood: {mood}
8 Target audience: {audience}
9
10 Make it:
11 1. Clear and specific about the value proposition
12 2. Appeal to {audience}
13 3. Match the {mood.lower()} tone
14 4. Be memorable and marketable
15
16 Keep it to 2-3 sentences.
17 """

Gemini के साथ गैर-सामान्य स्क्रिप्ट्स जनरेट करना

इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:

  • वॉइसओवर स्क्रिप्ट
  • एक वीडियो जनरेशन प्रॉम्प्ट
  • एक साउंड इफेक्ट्स विवरण

कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।

मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।

1 """Generate a 4-scene commercial script"""
2
3 prompt = f"""
4 Create a 30-second commercial script with exactly 4 scenes.
5
6 Product: {product_name}
7 Audience: {target_audience}
8 Key Message: {key_message}
9 Mood: {mood}
10
11 Return a JSON array with 4 scenes, each with:
12 - number: 1-4
13 - duration: 5
14 - script: What the voiceover says
15 - videoPrompt: Visual description for video generation
16 - sfxPrompt: Sound effects description
17
18 Example format:
19 [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
20 """
21

VEO 2 के साथ 5s दृश्य बनाना

मैंने Google के VEO 2 मॉडल के लिए FAL.ai की होस्टेड API का उपयोग किया। प्रत्येक दृश्य का वीडियो प्रॉम्प्ट FAL.ai को भेजा जाता है, जो 5-सेकंड का वीडियो क्लिप लौटाता है। यह सबसे कठिन इंटीग्रेशन में से एक था – लंबे जनरेशन समय को संभालना, API सीमाओं का प्रबंधन करना, और उपयोगकर्ताओं को प्रतीक्षा करते समय फीडबैक प्रदान करना।

मैंने मूल रूप से Google AI Studio या Vertex AI का उपयोग करने की योजना बनाई थी Veo 2 API के लिए, क्योंकि इसका मतलब होता कि मैं Gemini के समान API कुंजी का उपयोग कर रहा था, लेकिन मैं अपने खाते पर Veo 2 को काम नहीं करवा सका।

मैंने एक स्टेट मैनेजमेंट सिस्टम लागू किया जो जनरेटेड वीडियो को स्थानीय रूप से सहेजता है, ताकि उपयोगकर्ताओं को महंगे कंटेंट को फिर से जनरेट न करना पड़े यदि वे नेविगेट करते हैं और वापस आते हैं। जब आप Claude पर दर सीमा तक पहुँच रहे होते हैं, तो आखिरी चीज जो आप चाहते हैं वह है अपने जनरेटेड वीडियो को खो देना क्योंकि आपने पेज को रिफ्रेश किया।

20 सेकंड के क्लिप के लिए वीडियो कंटेंट, मान लें कि कोई रीकट्स या पुनः जनरेशन नहीं हुआ, लगभग $10 आया।

साउंड इफेक्ट्स और वॉइसओवर के लिए ElevenLabs का उपयोग करना

यहाँ मैंने ElevenLabs' APIs के साथ क्रिएटिव तरीके से काम किया। जबकि ElevenLabs मुख्य रूप से वॉइस जनरेशन के लिए जाना जाता है, हमारे पास एक साउंड इफेक्ट्स API भी है जो बहुत प्रभावशाली है। संभावित उपयोग मामलों का अद्भुत साउंडबोर्ड उदाहरण देखें।

मैंने प्रत्येक दृश्य के लिए साउंड इफेक्ट्स की चार विविधताएँ जनरेट कीं – उत्साही, ऊर्जावान, शांत, और नाटकीय। उपयोगकर्ता प्रत्येक विकल्प का पूर्वावलोकन कर सकते हैं और जो उनके दृष्टिकोण के अनुकूल हो उसे चुन सकते हैं।

1const response = await elevenLabs.soundGeneration({
2 text: modifiedPrompt,
3 duration_seconds: duration,
4 prompt_influence: 0.3
5});
6

FFmpeg के साथ अंतिम वीडियो असेंबल करना

चार वीडियो क्लिप और चार साउंड इफेक्ट ट्रैक्स के साथ, मुझे उन्हें संयोजित करना था। इसका मतलब था FFmpeg, वीडियो प्रोसेसिंग के स्विस आर्मी नाइफ, में गहराई से जाना। बैकएंड FFmpeg कमांड्स चलाता है:

  1. प्रत्येक वीडियो क्लिप के साथ साउंड इफेक्ट्स मिक्स करें
  2. सभी क्लिप्स को एक वीडियो में जोड़ें
  3. अंतिम वीडियो में वॉइसओवर ट्रैक जोड़ें

FFmpeg कमांड्स को सही करना काफी डिबगिंग लेता था। ऑडियो मिक्सिंग, विशेष रूप से, स्तरों और समय पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। मैंने सीखा कि बैकग्राउंड ऑडियो को वॉइसओवर के साथ मिक्स करते समय लगभग 30% वॉल्यूम तक कम किया जाना चाहिए – इससे अधिक और यह ध्यान के लिए प्रतिस्पर्धा करता है, इससे कम और यह वहाँ नहीं होता।

वॉइसओवर: जहाँ ElevenLabs वास्तव में चमकता है

वॉइसओवर के लिए, मैंने ElevenLabs' टेक्स्ट टू स्पीच API को एकीकृत किया ताकि उपयोगकर्ताओं को आवाज़ों का चयन प्रदान किया जा सके। सिस्टम सभी दृश्य स्क्रिप्ट्स से एक एकल सुसंगत वॉइसओवर स्क्रिप्ट जनरेट करता है, फिर इसे ElevenLabs को अनुकूलित वॉइस सेटिंग्स के साथ भेजता है:

1const voiceSettings = {
2 stability: 0.75,
3 similarity_boost: 0.75,
4 style: 0.0,
5 use_speaker_boost: true
6};
7

ये सेटिंग्स एक स्पष्ट, पेशेवर नैरेशन प्रदान करती हैं जो विज्ञापनों के लिए अच्छी तरह से काम करती है। विभिन्न कॉन्फ़िगरेशन के साथ प्रयोग करने के बाद, मैंने पाया कि यह संतुलन बिना रोबोटिक लगे स्थिरता प्रदान करता है।

लचीला एरर हैंडलिंग और उपयोगकर्ता अनुभव

कई AI APIs के साथ निर्माण का मतलब विभिन्न विफलता मोड्स से निपटना है। दर सीमाएँ, टाइमआउट एरर, गलत प्रतिक्रियाएँ – ये सभी होते हैं। विशेष रूप से जब आप रात 2 बजे डिबगिंग कर रहे होते हैं और VEO 2 कुछ अप्रत्याशित लौटाता है।

मैंने व्यापक एरर हैंडलिंग को फॉलबैक विकल्पों के साथ लागू किया:

  • यदि Gemini विफल होता है, तो सिस्टम बुद्धिमान फॉलबैक स्क्रिप्ट्स प्रदान करता है
  • यदि वीडियो जनरेशन विफल होता है, तो प्लेसहोल्डर वीडियो उपलब्ध हैं
  • यदि साउंड जनरेशन विफल होता है, तो बेसिक ऑडियो ट्रैक्स का उपयोग किया जाता है

लक्ष्य यह था कि उपयोगकर्ता हमेशा अपना विज्ञापन पूरा कर सकें, भले ही कुछ AI सेवाएँ खराब दिन पर हों।

प्रदर्शन विचार

A commercial for "Globetrotter Grocer"

एक विज्ञापन जनरेट करना कई AI API कॉल्स शामिल करता है जो कई मिनट ले सकते हैं। अनुभव को बेहतर बनाने के लिए, मैंने:

  • जहाँ संभव हो वीडियो को समानांतर में प्रोसेस करें
  • रियल-टाइम प्रगति संकेतक दिखाएँ
  • महंगे जनरेटेड कंटेंट को स्थानीय रूप से सहेजें
  • उपयोगकर्ताओं को व्यक्तिगत घटकों को पुनः जनरेट करने की अनुमति दें

मैंने एक स्टेट पर्सिस्टेंस सिस्टम भी लागू किया। यदि कोई व्यक्ति अपने ब्राउज़र को जनरेशन के बीच में बंद कर देता है, तो वे वापस आ सकते हैं और जहाँ से छोड़ा था वहाँ से शुरू कर सकते हैं। यह मेरी मूल योजना में नहीं था, लेकिन परीक्षण के दौरान अपनी प्रगति खोने के बाद, यह प्राथमिकता बन गया।

मुख्य सीख और आगे क्या है

इस टूल को बनाने से तीन मुख्य सबक सामने आए।

पहला, प्रॉम्प्ट डिज़ाइन महत्वपूर्ण है। किसी भी AI मॉडल से आउटपुट की गुणवत्ता इस पर बहुत निर्भर करती है कि आप इनपुट को कैसे फ्रेम करते हैं। मैंने प्रॉम्प्ट्स को परिष्कृत करने में उतना ही समय बिताया जितना कोड लिखने में।

दूसरा, उपयोगकर्ता अनुभव तकनीकी जटिलता से बेहतर है। उपयोगकर्ताओं को इस बात की परवाह नहीं है कि कितनी AI सेवाएँ शामिल हैं — उन्हें परवाह है कि टूल काम करता है। प्रगति संकेतक, एरर हैंडलिंग, और तेज़ फीडबैक लूप्स सभी फर्क डालते हैं।

तीसरा, Claude जैसे AI सहायक विकास को तेज करते हैं। मैंने प्रोडक्ट लॉजिक पर ध्यान केंद्रित किया जबकि मॉडल को बोइलरप्लेट और सिंटैक्स सौंप दिया। यह कदम छोड़ने के बारे में नहीं है — यह स्मार्ट तरीके से बनाने के बारे में है।

जो एक वीकेंड प्रोजेक्ट के रूप में शुरू हुआ वह एक वास्तविक, एक्स्टेंसिबल टूल बन गया। मार्केटिंग टीमें इसे प्रोटोटाइपिंग के लिए, स्टार्टअप्स पिच वीडियो के लिए, और क्रिएटर्स प्रायोजित कंटेंट के लिए उपयोग कर सकते हैं।

सिस्टम डिज़ाइन द्वारा लचीला है। आप VEO 2 प्रॉम्प्ट्स को समायोजित करके वीडियो शैलियों को बदल सकते हैं, विभिन्न प्रारूपों के लिए दृश्य लंबाई को संशोधित कर सकते हैं, या FFmpeg के माध्यम से संगीत जोड़ सकते हैं।

वास्तविक अवसर कई AI सिस्टम्स को ऑर्केस्ट्रेट करने में है। कोई एकल मॉडल एक पूर्ण विज्ञापन जनरेट नहीं कर सकता — लेकिन संयुक्त रूप से, Gemini, VEO 2, और ElevenLabs कुछ ऐसा उत्पन्न कर सकते हैं जो उनमें से किसी एक से अधिक शक्तिशाली हो।

यह AI के क्रिएटर्स को बदलने के बारे में नहीं है। यह क्रिएटर्स को बेहतर टूल्स देने के बारे में है। कंटेंट में 20 वर्षों के बाद, मैंने बहुत बदलाव देखा है — लेकिन यह बदलाव बुनियादी लगता है।

यदि आप यह जानना चाहते हैं कि ElevenLabs की तकनीक कंटेंट और मीडिया के लिए नए दृष्टिकोण कैसे प्रदान कर सकती है हमारी सेल्स टीम से संपर्क करें.

और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें