Hur jag byggde en text-till-reklam-generator med ElevenLabs, Gemini och VEO 2

Senast uppdaterad 6 mars 2026 • 11 minuter lästid

A man with glasses and a beard looking to the side in a room with bookshelves.

Hur jag skapade ett AI-drivet verktyg som förvandlar enkla uppmaningar till färdiga videoreklamer.

Jag har ägnat två decennier åt att skapa innehåll – från journalistik till produktvideor. AI gör det möjligt att låsa upp helt nya kreativa arbetsflöden. Med kombinationen av vibe-kodning och alltmer realistisk videoproduktion undrade jag om jag kunde skapa ett verktyg som tar en enkel prompt och gör en 20 sekunders reklamfilm.

Konceptet var enkelt: skriv in en grov produktidé och få tillbaka en fullt producerad 30-sekunders reklam med AI-genererade bilder, voice-over och ljudeffekter. Så här byggde jag det med ElevenLabs Text to Speech och SFX API:er, Googles Gemini och VEO 2 från Google för videoproduktion. Vid skapandet hade VEO 3 inte släppts.

Den slutliga versionen skapades nästan helt med Anthropics imponerande Claude 4 Opus, även om det tog några dagar eftersom jag ständigt nådde gränsen för användning.

Stackval: Node.js, Express, React och Claude 4 Opus

A commercial for "finding places to eat lunch in a park"

Jag valde Node.js med Express för backend och React för frontend. Node hanterar realtidsuppdateringar när videor genereras, medan Reacts komponentbaserade arkitektur gör det enkelt att hantera och utöka gränssnittet med flera steg.

Jag har skrivit kod av och till sedan barndomen – började med en robotpenna i grundskolan. Men jag har alltid varit mer av en produktutvecklare än en heltidsingenjör. Verktyg som Claude 4 Opus ändrade det. Med rätt prompts kunde jag arbeta snabbt, implementera funktioner korrekt och fokusera på produktlogik snarare än standardkod.

Det handlar inte om att outsourca kreativitet till AI – det handlar om att bygga smartare med rätt verktyg.

Åtta-stegs guide: Från prompt till färdig reklam

Att skapa en reklam för en ny produkt eller tjänst, även om den bara är 20 sekunder lång, innebär flera komplexa steg, så jag delade upp det i åtta distinkta faser:

Produktinformation
Manusgenerering
Videoproduktion
Sound Effects
Videoassemblage
Voice-over
Slutlig video
Sociala inlägg

Varje steg bygger på det föregående och skapar en pipeline som förvandlar en enkel idé till en komplett reklam. Vid varje steg har användaren full kontroll att ändra vilket element som helst eller återskapa text, video eller ljud.

A commercial for "Epoch" matching

Förfina idéer med Gemini Flash

Den första utmaningen var att de flesta inte börjar med fullt utvecklade produktidéer. De kanske skriver något vagt som "något för produktivitet." Det är där Gemini kommer in.

Jag använde Googles Gemini 2.0 Flash-modell för att förbättra grova idéer till konkreta produktkoncept. Promptdesignen här var avgörande – jag behövde att Gemini skulle vara specifik och konkret, inte vag och generell. Istället för att acceptera "något för fitness" förvandlar systemet det till något som "FitPulse AI: Ett smart armband som använder avancerad biometrik för att skapa personliga mikroträningar under dagen."

1"""Enhance a product idea using Gemini"""
      
      prompt = f"""
      Enhance this product idea to make it more compelling:
      
      Original idea: {idea}
      Target mood: {mood}
      Target audience: {audience}
      
      Make it:
      1. Clear and specific about the value proposition
      2. Appeal to {audience}
      3. Match the {mood.lower()} tone
      4. Be memorable and marketable
      
      Keep it to 2-3 sentences.
      """

Generera icke-generiska manus med Gemini

Nästa steg var manusgenerering. Återigen med Gemini strukturerade jag utdata som fyra 5-sekunders scener, var och en med tre komponenter:

Voice-over manus
En videoproduktionsprompt
En beskrivning av ljudeffekter

Nyckeln var att få Gemini att förstå stämning och publik. En "quirky" reklam för millennials behöver ett annat språk än en "professionell" för företagskunder.

Jag ägnade mycket tid åt att förfina prompts för att undvika generiskt AI-språk och skapa manus som kändes skräddarsydda för varje produkt.

   """Generate a 4-scene commercial script"""
      
      prompt = f"""
      Create a 30-second commercial script with exactly 4 scenes.
      
      Product: {product_name}
      Audience: {target_audience}
      Key Message: {key_message}
      Mood: {mood}
      
      Return a JSON array with 4 scenes, each with:
      - number: 1-4
      - duration: 5
      - script: What the voiceover says
      - videoPrompt: Visual description for video generation
      - sfxPrompt: Sound effects description
      
      Example format:
      [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
      """
21

Skapa 5s scener med VEO 2

Jag använde FAL.ai:s hostade API för Googles VEO 2-modell. Varje scenens videoprompt skickas till FAL.ai, som returnerar ett 5-sekunders videoklipp. Detta var en av de knepigare integrationerna – hantera långa genereringstider, hantera API-gränser och ge feedback till användare medan de väntar.

Jag hade ursprungligen planerat att använda Google AI Studio eller Vertex AI för Veo 2 API, eftersom detta skulle ha inneburit att jag använde samma API-nyckel som Gemini, men jag kunde inte få Veo 2 att fungera på mitt konto.

Jag implementerade ett tillståndshanteringssystem som sparar genererade videor lokalt, så användare inte behöver återskapa dyrt innehåll om de navigerar bort och kommer tillbaka. När du når gränser på Claude är det sista du vill att förlora dina genererade videor för att du uppdaterade sidan.

Videoinnehållet för ett 20 sekunders klipp, förutsatt inga omtagningar eller återskapningar, kostade cirka $10.

Använda ElevenLabs för ljudeffekter och voice-over

Här blev jag kreativ med ElevenLabs' API:er. Medan ElevenLabs främst är känt för röstgenerering har vi också ett mycket imponerande ljudeffekts-API. Se det otroliga Ljudpanel exemplet på potentiella användningsområden.

Jag använde det för att generera fyra variationer av ljudeffekter för varje scen – upplyftande, energisk, lugn och dramatisk. Användare kan förhandsgranska varje alternativ och välja det som passar deras vision.

1const response = await elevenLabs.soundGeneration({
2  text: modifiedPrompt,
3  duration_seconds: duration,
4  prompt_influence: 0.3
5});
6

Sammanställa slutliga videor med FFmpeg

Med fyra videoklipp och fyra ljudeffektspår behövde jag kombinera dem. Detta innebar att dyka djupt in i FFmpeg, videobearbetningens schweiziska armékniv. Backend kör FFmpeg-kommandon för att:

Blanda ljudeffekter med varje videoklipp
Kombinera alla klipp till en video
Lägga till voice-over spåret till den slutliga videon

Att få FFmpeg-kommandon rätt krävde betydande felsökning. Ljudmixning, i synnerhet, kräver noggrann uppmärksamhet på nivåer och timing. Jag lärde mig att bakgrundsljud bör reduceras till cirka 30% volym när det blandas med voice-over – högre och det konkurrerar om uppmärksamhet, lägre och det kan lika gärna inte vara där.

Voice-over: Där ElevenLabs verkligen glänser

För voice-over använde jag ElevenLabs

1const voiceSettings = {
2  stability: 0.75,
3  similarity_boost: 0.75,
4  style: 0.0,
5  use_speaker_boost: true
6};
7

Dessa inställningar ger en klar, professionell berättarröst som fungerar bra för reklam. Efter att ha experimenterat med olika konfigurationer fann jag att denna balans ger konsekvens utan att låta robotaktig.

Robust felhantering och användarupplevelse

Att bygga med flera AI API:er innebär att hantera olika feltyper. Gränser för användning, timeout-fel, felaktiga svar – de händer alla. Speciellt när du felsöker klockan 2 på morgonen och VEO 2 bestämmer sig för att returnera något oväntat.

Jag implementerade omfattande felhantering med reservalternativ:

Om Gemini misslyckas, ger systemet intelligenta reservmanus
Om videoproduktion misslyckas, finns platshållarvideor tillgängliga
Om ljudgenerering misslyckas, används grundläggande ljudspår

Målet var att säkerställa att användare alltid kunde slutföra sin reklam, även om vissa AI-tjänster hade en dålig dag.

Prestandaöverväganden

A commercial for "Globetrotter Grocer"

Att generera en reklam innebär flera AI API-anrop som kan ta flera minuter. För att förbättra upplevelsen:

Bearbeta videor parallellt där det är möjligt
Visa realtidsindikatorer för framsteg
Spara dyrt genererat innehåll lokalt
Låt användare återskapa individuella komponenter

Jag implementerade också ett system för tillståndsbevarande. Om någon stänger sin webbläsare mitt i genereringen kan de återvända och fortsätta där de slutade. Detta var inte i min ursprungliga plan, men efter att ha förlorat min egen framsteg några gånger under testning blev det en prioritet.

Viktiga lärdomar och vad som kommer härnäst

Att bygga detta verktyg gav tre viktiga lärdomar.

Först är promptdesign avgörande. Kvaliteten på utdata från vilken AI-modell som helst beror starkt på hur du formulerar indata. Jag ägnade lika mycket tid åt att förfina prompts som att skriva kod.

För det andra, användarupplevelse slår teknisk komplexitet. Användare bryr sig inte om hur många AI-tjänster som är inblandade – de bryr sig om att verktyget fungerar. Framstegsindikatorer, felhantering och snabba feedbackloopar gör all skillnad.

För det tredje, AI-assistenter som Claude påskyndar utvecklingen. Jag fokuserade på produktlogik medan jag överlät standardkod och syntax till modellen. Det handlar inte om att hoppa över steg – det handlar om att bygga smartare.

Det som började som ett helgprojekt blev ett verkligt, utbyggbart verktyg. Marknadsföringsteam kan använda det för prototyper, startups för pitchvideor och kreatörer för sponsrat innehåll.

Systemet är flexibelt av design. Du kan ändra videostilar genom att justera VEO 2-prompts, ändra scenlängder för olika format eller lägga till musik via FFmpeg.

Den verkliga möjligheten ligger i att orkestrera flera AI-system. Ingen enskild modell kan generera en fullständig reklam – men tillsammans kan Gemini, VEO 2 och ElevenLabs producera något mycket kraftfullare än någon av dem ensam.

Det handlar inte om att AI ersätter kreatörer. Det handlar om att ge kreatörer bättre verktyg. Efter 20 år i innehållsbranschen har jag sett mycket förändring – men denna förändring känns grundläggande.

Om du vill utforska hur ElevenLabs teknik kan hjälpa till att leverera nya tillvägagångssätt för innehåll och media kontakta vårt säljteam.

Utforska artiklar av ElevenLabs-teamet

Customer Stories

Tutore deploys conversational agents for corporate language training using ElevenLabs

90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs

Product

Product

Introducing Music Finetunes in ElevenCreative

Generate individual vocals, instruments or full tracks with stylistic consistency using a fine-tuned version of our Music model.

Skapa med AI-ljud av högsta kvalitet

Kontakta försäljning Registrera dig

1	"""Enhance a product idea using Gemini"""
2
3	prompt = f"""
4	Enhance this product idea to make it more compelling:
5
6	Original idea: {idea}
7	Target mood: {mood}
8	Target audience: {audience}
9
10	Make it:
11	1. Clear and specific about the value proposition
12	2. Appeal to {audience}
13	3. Match the {mood.lower()} tone
14	4. Be memorable and marketable
15
16	Keep it to 2-3 sentences.
17	"""

1	"""Generate a 4-scene commercial script"""
2
3	prompt = f"""
4	Create a 30-second commercial script with exactly 4 scenes.
5
6	Product: {product_name}
7	Audience: {target_audience}
8	Key Message: {key_message}
9	Mood: {mood}
10
11	Return a JSON array with 4 scenes, each with:
12	- number: 1-4
13	- duration: 5
14	- script: What the voiceover says
15	- videoPrompt: Visual description for video generation
16	- sfxPrompt: Sound effects description
17
18	Example format:
19	[{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}]
20	"""
21

1	const response = await elevenLabs.soundGeneration({
2	text: modifiedPrompt,
3	duration_seconds: duration,
4	prompt_influence: 0.3
5	});
6

1	const voiceSettings = {
2	stability: 0.75,
3	similarity_boost: 0.75,
4	style: 0.0,
5	use_speaker_boost: true
6	};
7