Jag har ägnat två decennier åt att skapa innehåll – från journalistik till produktvideor. AI gör det möjligt att låsa upp helt nya kreativa arbetsflöden. Med kombinationen av vibe-kodning och alltmer realistisk videoproduktion undrade jag om jag kunde skapa ett verktyg som tar en enkel prompt och gör en 20 sekunders reklamfilm.
Konceptet var enkelt: skriv in en grov produktidé och få tillbaka en fullt producerad 30-sekunders reklam med AI-genererade bilder, voice-over och ljudeffekter. Så här byggde jag det med ElevenLabs TTS och SFX API:er, Googles Gemini och VEO 2 från Google för videoproduktion. Vid skapandet hade VEO 3 inte släppts.
Den slutliga versionen skapades nästan helt med Anthropics imponerande Claude 4 Opus, även om det tog några dagar eftersom jag ständigt nådde gränsen för användning.
Stackval: Node.js, Express, React och Claude 4 Opus
A commercial for "finding places to eat lunch in a park"
Jag valde Node.js med Express för backend och React för frontend. Node hanterar realtidsuppdateringar när videor genereras, medan Reacts komponentbaserade arkitektur gör det enkelt att hantera och utöka gränssnittet med flera steg.
Jag har skrivit kod av och till sedan barndomen – började med en robotpenna i grundskolan. Men jag har alltid varit mer av en produktutvecklare än en heltidsingenjör. Verktyg som Claude 4 Opus ändrade det. Med rätt prompts kunde jag arbeta snabbt, implementera funktioner korrekt och fokusera på produktlogik snarare än standardkod.
Det handlar inte om att outsourca kreativitet till AI – det handlar om att bygga smartare med rätt verktyg.
Åtta-stegs guide: Från prompt till färdig reklam
Att skapa en reklam för en ny produkt eller tjänst, även om den bara är 20 sekunder lång, innebär flera komplexa steg, så jag delade upp det i åtta distinkta faser:
Produktinformation
Manusgenerering
Videoproduktion
Sound Effects
Videoassemblage
Voice-over
Slutlig video
Sociala inlägg
Varje steg bygger på det föregående och skapar en pipeline som förvandlar en enkel idé till en komplett reklam. Vid varje steg har användaren full kontroll att ändra vilket element som helst eller återskapa text, video eller ljud.
A commercial for "Epoch" matching
Förfina idéer med Gemini Flash
Den första utmaningen var att de flesta inte börjar med fullt utvecklade produktidéer. De kanske skriver något vagt som "något för produktivitet." Det är där Gemini kommer in.
Jag använde Googles Gemini 2.0 Flash-modell för att förbättra grova idéer till konkreta produktkoncept. Promptdesignen här var avgörande – jag behövde att Gemini skulle vara specifik och konkret, inte vag och generell. Istället för att acceptera "något för fitness" förvandlar systemet det till något som "FitPulse AI: Ett smart armband som använder avancerad biometrik för att skapa personliga mikroträningar under dagen."
1
"""Enhance a product idea using Gemini"""
2
3
prompt = f"""
4
Enhancethis product idea to make it more compelling:
5
6
Original idea:{idea}
7
Target mood:{mood}
8
Target audience:{audience}
9
10
Make it:
11
1.Clear and specific about the value proposition
12
2.Appeal to {audience}
13
3.Match the {mood.lower()} tone
14
4.Be memorable and marketable
15
16
Keep it to 2-3 sentences.
17
"""
Generera icke-generiska manus med Gemini
Nästa steg var manusgenerering. Återigen med Gemini strukturerade jag utdata som fyra 5-sekunders scener, var och en med tre komponenter:
Voice-over manus
En videoproduktionsprompt
En beskrivning av ljudeffekter
Nyckeln var att få Gemini att förstå stämning och publik. En "quirky" reklam för millennials behöver ett annat språk än en "professionell" för företagskunder.
Jag ägnade mycket tid åt att förfina prompts för att undvika generiskt AI-språk och skapa manus som kändes skräddarsydda för varje produkt.
1
"""Generate a 4-scene commercial script"""
2
3
prompt = f"""
4
Create a 30-second commercial script with exactly 4 scenes.
5
6
Product:{product_name}
7
Audience:{target_audience}
8
KeyMessage:{key_message}
9
Mood:{mood}
10
11
Return a JSON array with4 scenes, each with:
12
- number:1-4
13
- duration:5
14
- script:What the voiceover says
15
- videoPrompt:Visual description for video generation
Jag använde FAL.ai:s hostade API för Googles VEO 2-modell. Varje scenens videoprompt skickas till FAL.ai, som returnerar ett 5-sekunders videoklipp. Detta var en av de knepigare integrationerna – hantera långa genereringstider, hantera API-gränser och ge feedback till användare medan de väntar.
Jag hade ursprungligen planerat att använda Google AI Studio eller Vertex AI för Veo 2 API, eftersom detta skulle ha inneburit att jag använde samma API-nyckel som Gemini, men jag kunde inte få Veo 2 att fungera på mitt konto.
Jag implementerade ett tillståndshanteringssystem som sparar genererade videor lokalt, så användare inte behöver återskapa dyrt innehåll om de navigerar bort och kommer tillbaka. När du når gränser på Claude är det sista du vill att förlora dina genererade videor för att du uppdaterade sidan.
Videoinnehållet för ett 20 sekunders klipp, förutsatt inga omtagningar eller återskapningar, kostade cirka $10.
Använda ElevenLabs för ljudeffekter och voice-over
Här blev jag kreativ med ElevenLabs' API:er. Medan ElevenLabs främst är känt för röstgenerering har vi också ett mycket imponerande ljudeffekts-API. Se det otroliga Soundboard exemplet på potentiella användningsområden.
Jag använde det för att generera fyra variationer av ljudeffekter för varje scen – upplyftande, energisk, lugn och dramatisk. Användare kan förhandsgranska varje alternativ och välja det som passar deras vision.
Med fyra videoklipp och fyra ljudeffektspår behövde jag kombinera dem. Detta innebar att dyka djupt in i FFmpeg, videobearbetningens schweiziska armékniv. Backend kör FFmpeg-kommandon för att:
Blanda ljudeffekter med varje videoklipp
Kombinera alla klipp till en video
Lägga till voice-over spåret till den slutliga videon
Att få FFmpeg-kommandon rätt krävde betydande felsökning. Ljudmixning, i synnerhet, kräver noggrann uppmärksamhet på nivåer och timing. Jag lärde mig att bakgrundsljud bör reduceras till cirka 30% volym när det blandas med voice-over – högre och det konkurrerar om uppmärksamhet, lägre och det kan lika gärna inte vara där.
Voice-over: Där ElevenLabs verkligen glänser
För voice-over integrerade jag ElevenLabs' text-to-speech API för att erbjuda användare ett urval av röster. Systemet genererar ett sammanhängande voice-over manus från alla scenmanus och skickar det sedan till ElevenLabs med optimerade röstinställningar:
1
const voiceSettings ={
2
stability:0.75,
3
similarity_boost:0.75,
4
style:0.0,
5
use_speaker_boost:true
6
};
7
Dessa inställningar ger en klar, professionell berättarröst som fungerar bra för reklam. Efter att ha experimenterat med olika konfigurationer fann jag att denna balans ger konsekvens utan att låta robotaktig.
Robust felhantering och användarupplevelse
Att bygga med flera AI API:er innebär att hantera olika feltyper. Gränser för användning, timeout-fel, felaktiga svar – de händer alla. Speciellt när du felsöker klockan 2 på morgonen och VEO 2 bestämmer sig för att returnera något oväntat.
Jag implementerade omfattande felhantering med reservalternativ:
Om Gemini misslyckas, ger systemet intelligenta reservmanus
Om videoproduktion misslyckas, finns platshållarvideor tillgängliga
Om ljudgenerering misslyckas, används grundläggande ljudspår
Målet var att säkerställa att användare alltid kunde slutföra sin reklam, även om vissa AI-tjänster hade en dålig dag.
Prestandaöverväganden
A commercial for "Globetrotter Grocer"
Att generera en reklam innebär flera AI API-anrop som kan ta flera minuter. För att förbättra upplevelsen:
Bearbeta videor parallellt där det är möjligt
Visa realtidsindikatorer för framsteg
Spara dyrt genererat innehåll lokalt
Låt användare återskapa individuella komponenter
Jag implementerade också ett system för tillståndsbevarande. Om någon stänger sin webbläsare mitt i genereringen kan de återvända och fortsätta där de slutade. Detta var inte i min ursprungliga plan, men efter att ha förlorat min egen framsteg några gånger under testning blev det en prioritet.
Viktiga lärdomar och vad som kommer härnäst
Att bygga detta verktyg gav tre viktiga lärdomar.
Först är promptdesign avgörande. Kvaliteten på utdata från vilken AI-modell som helst beror starkt på hur du formulerar indata. Jag ägnade lika mycket tid åt att förfina prompts som att skriva kod.
För det andra, användarupplevelse slår teknisk komplexitet. Användare bryr sig inte om hur många AI-tjänster som är inblandade – de bryr sig om att verktyget fungerar. Framstegsindikatorer, felhantering och snabba feedbackloopar gör all skillnad.
För det tredje, AI-assistenter som Claude påskyndar utvecklingen. Jag fokuserade på produktlogik medan jag överlät standardkod och syntax till modellen. Det handlar inte om att hoppa över steg – det handlar om att bygga smartare.
Det som började som ett helgprojekt blev ett verkligt, utbyggbart verktyg. Marknadsföringsteam kan använda det för prototyper, startups för pitchvideor och kreatörer för sponsrat innehåll.
Systemet är flexibelt av design. Du kan ändra videostilar genom att justera VEO 2-prompts, ändra scenlängder för olika format eller lägga till musik via FFmpeg.
Den verkliga möjligheten ligger i att orkestrera flera AI-system. Ingen enskild modell kan generera en fullständig reklam – men tillsammans kan Gemini, VEO 2 och ElevenLabs producera något mycket kraftfullare än någon av dem ensam.
Det handlar inte om att AI ersätter kreatörer. Det handlar om att ge kreatörer bättre verktyg. Efter 20 år i innehållsbranschen har jag sett mycket förändring – men denna förändring känns grundläggande.
Om du vill utforska hur ElevenLabs teknik kan hjälpa till att leverera nya tillvägagångssätt för innehåll och media kontakta vårt säljteam.
Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.
BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.
ElevenLabs
Skapa ljud och röster som imponerar med de bästa AI-verktygen