
Voice Isolator API लॉन्च
- श्रेणी
- ElevenAPI
- तारीख
कैसे मैंने एक पूर्ण AI-संचालित टूल बनाया जो सरल संकेतों को तैयार वीडियो विज्ञापनों में बदलता है।
मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।
कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs टेक्स्ट टू स्पीच और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।
अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।
मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।
मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।
यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।

एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:
प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।
पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।
मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"
इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:
कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।
मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।
मैंने Google के VEO 2 मॉडल के लिए FAL.ai की होस्टेड API का उपयोग किया। प्रत्येक दृश्य का वीडियो प्रॉम्प्ट FAL.ai को भेजा जाता है, जो 5-सेकंड का वीडियो क्लिप लौटाता है। यह सबसे कठिन इंटीग्रेशन में से एक था – लंबे जनरेशन समय को संभालना, API सीमाओं का प्रबंधन करना, और उपयोगकर्ताओं को प्रतीक्षा करते समय फीडबैक प्रदान करना।
मैंने मूल रूप से Google AI Studio या Vertex AI का उपयोग करने की योजना बनाई थी Veo 2 API के लिए, क्योंकि इसका मतलब होता कि मैं Gemini के समान API कुंजी का उपयोग कर रहा था, लेकिन मैं अपने खाते पर Veo 2 को काम नहीं करवा सका।
मैंने एक स्टेट मैनेजमेंट सिस्टम लागू किया जो जनरेटेड वीडियो को स्थानीय रूप से सहेजता है, ताकि उपयोगकर्ताओं को महंगे कंटेंट को फिर से जनरेट न करना पड़े यदि वे नेविगेट करते हैं और वापस आते हैं। जब आप Claude पर दर सीमा तक पहुँच रहे होते हैं, तो आखिरी चीज जो आप चाहते हैं वह है अपने जनरेटेड वीडियो को खो देना क्योंकि आपने पेज को रिफ्रेश किया।
20 सेकंड के क्लिप के लिए वीडियो कंटेंट, मान लें कि कोई रीकट्स या पुनः जनरेशन नहीं हुआ, लगभग $10 आया।
यहाँ मैंने ElevenLabs की APIs के साथ क्रिएटिव तरीके से काम किया। जबकि ElevenLabs मुख्य रूप से वॉइस जनरेशन के लिए जाना जाता है, हमारे पास एक साउंड इफेक्ट्स API भी है जो बहुत प्रभावशाली है। संभावित उपयोग मामलों का अद्भुत साउंडबोर्ड उदाहरण देखें।
मैंने प्रत्येक दृश्य के लिए साउंड इफेक्ट्स की चार विविधताएँ जनरेट कीं – उत्साही, ऊर्जावान, शांत, और नाटकीय। उपयोगकर्ता प्रत्येक विकल्प का पूर्वावलोकन कर सकते हैं और जो उनके दृष्टिकोण के अनुकूल हो उसे चुन सकते हैं।
चार वीडियो क्लिप और चार साउंड इफेक्ट ट्रैक्स के साथ, मुझे उन्हें संयोजित करना था। इसका मतलब था FFmpeg, वीडियो प्रोसेसिंग के स्विस आर्मी नाइफ, में गहराई से जाना। बैकएंड FFmpeg कमांड्स चलाता है:
FFmpeg कमांड्स को सही करना काफी डिबगिंग लेता था। ऑडियो मिक्सिंग, विशेष रूप से, स्तरों और समय पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। मैंने सीखा कि बैकग्राउंड ऑडियो को वॉइसओवर के साथ मिक्स करते समय लगभग 30% वॉल्यूम तक कम किया जाना चाहिए – इससे अधिक और यह ध्यान के लिए प्रतिस्पर्धा करता है, इससे कम और यह वहाँ नहीं होता।
वॉइसओवर के लिए, मैंने ElevenLabs का
ये सेटिंग्स एक स्पष्ट, पेशेवर नैरेशन प्रदान करती हैं जो विज्ञापनों के लिए अच्छी तरह से काम करती है। विभिन्न कॉन्फ़िगरेशन के साथ प्रयोग करने के बाद, मैंने पाया कि यह संतुलन बिना रोबोटिक लगे स्थिरता प्रदान करता है।
कई AI APIs के साथ निर्माण का मतलब विभिन्न विफलता मोड्स से निपटना है। दर सीमाएँ, टाइमआउट एरर, गलत प्रतिक्रियाएँ – ये सभी होते हैं। विशेष रूप से जब आप रात 2 बजे डिबगिंग कर रहे होते हैं और VEO 2 कुछ अप्रत्याशित लौटाता है।
मैंने व्यापक एरर हैंडलिंग को फॉलबैक विकल्पों के साथ लागू किया:
लक्ष्य यह था कि उपयोगकर्ता हमेशा अपना विज्ञापन पूरा कर सकें, भले ही कुछ AI सेवाएँ खराब दिन पर हों।
एक विज्ञापन जनरेट करना कई AI API कॉल्स शामिल करता है जो कई मिनट ले सकते हैं। अनुभव को बेहतर बनाने के लिए, मैंने:
मैंने एक स्टेट पर्सिस्टेंस सिस्टम भी लागू किया। यदि कोई व्यक्ति अपने ब्राउज़र को जनरेशन के बीच में बंद कर देता है, तो वे वापस आ सकते हैं और जहाँ से छोड़ा था वहाँ से शुरू कर सकते हैं। यह मेरी मूल योजना में नहीं था, लेकिन परीक्षण के दौरान अपनी प्रगति खोने के बाद, यह प्राथमिकता बन गया।
इस टूल को बनाने से तीन मुख्य सबक सामने आए।
पहला, प्रॉम्प्ट डिज़ाइन महत्वपूर्ण है। किसी भी AI मॉडल से आउटपुट की गुणवत्ता इस पर बहुत निर्भर करती है कि आप इनपुट को कैसे फ्रेम करते हैं। मैंने प्रॉम्प्ट्स को परिष्कृत करने में उतना ही समय बिताया जितना कोड लिखने में।
दूसरा, उपयोगकर्ता अनुभव तकनीकी जटिलता से बेहतर है। उपयोगकर्ताओं को इस बात की परवाह नहीं है कि कितनी AI सेवाएँ शामिल हैं — उन्हें परवाह है कि टूल काम करता है। प्रगति संकेतक, एरर हैंडलिंग, और तेज़ फीडबैक लूप्स सभी फर्क डालते हैं।
तीसरा, Claude जैसे AI सहायक विकास को तेज करते हैं। मैंने प्रोडक्ट लॉजिक पर ध्यान केंद्रित किया जबकि मॉडल को बोइलरप्लेट और सिंटैक्स सौंप दिया। यह कदम छोड़ने के बारे में नहीं है — यह स्मार्ट तरीके से बनाने के बारे में है।
जो एक वीकेंड प्रोजेक्ट के रूप में शुरू हुआ वह एक वास्तविक, एक्स्टेंसिबल टूल बन गया। मार्केटिंग टीमें इसे प्रोटोटाइपिंग के लिए, स्टार्टअप्स पिच वीडियो के लिए, और क्रिएटर्स प्रायोजित कंटेंट के लिए उपयोग कर सकते हैं।
सिस्टम डिज़ाइन द्वारा लचीला है। आप VEO 2 प्रॉम्प्ट्स को समायोजित करके वीडियो शैलियों को बदल सकते हैं, विभिन्न प्रारूपों के लिए दृश्य लंबाई को संशोधित कर सकते हैं, या FFmpeg के माध्यम से संगीत जोड़ सकते हैं।
वास्तविक अवसर कई AI सिस्टम्स को ऑर्केस्ट्रेट करने में है। कोई एकल मॉडल एक पूर्ण विज्ञापन जनरेट नहीं कर सकता — लेकिन संयुक्त रूप से, Gemini, VEO 2, और ElevenLabs कुछ ऐसा उत्पन्न कर सकते हैं जो उनमें से किसी एक से अधिक शक्तिशाली हो।
यह AI के क्रिएटर्स को बदलने के बारे में नहीं है। यह क्रिएटर्स को बेहतर टूल्स देने के बारे में है। कंटेंट में 20 वर्षों के बाद, मैंने बहुत बदलाव देखा है — लेकिन यह बदलाव बुनियादी लगता है।
यदि आप यह जानना चाहते हैं कि ElevenLabs की तकनीक कंटेंट और मीडिया के लिए नए दृष्टिकोण कैसे प्रदान कर सकती है हमारी सेल्स टीम से संपर्क करें.



