
Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
Einführung von Eleven v3 Alpha
v3 ausprobierenWie ich ein vollständiges KI-gestütztes Tool entwickelt habe, das aus groben Eingaben fertige Videoanzeigen erstellt.
Ich habe zwei Jahrzehnte damit verbracht, Inhalte zu erstellen – von Journalismus bis hin zu Produktvideos. KI ermöglicht völlig neue kreative Arbeitsabläufe. Mit der Verbindung von Vibe-Coding und immer realistischeren Videogenerationen fragte ich mich, ob ich ein Tool entwickeln könnte, das aus einem einfachen Prompt einen 20-sekündigen Werbespot erstellt.
Das Konzept war einfach: Geben Sie eine grobe Produktidee ein und erhalten Sie einen vollständig produzierten 30-sekündigen Werbespot mit KI-generierten Visuals, Voiceover und Soundeffekten. So habe ich es mit ElevenLabs TTS und SFX APIs, Googles Gemini und VEO 2 von Google für die Videogenerierung gebaut. Zum Zeitpunkt der Erstellung war VEO 3 noch nicht veröffentlicht.
Die endgültige Version wurde fast vollständig mit Anthropic’s beeindruckendem Claude 4 Opus erstellt, wenn auch über mehrere Tage, da ich ständig auf das Ratenlimit stieß.unknown node
Ich habe Node.js mit Express für das Backend und React für das Frontend gewählt. Node verarbeitet Echtzeit-Updates während der Videogenerierung, während Reacts komponentenbasierte Architektur die Verwaltung und Erweiterung der mehrstufigen Oberfläche erleichtert.
Ich habe seit meiner Kindheit immer wieder programmiert – angefangen mit einem Roboterstift in der Grundschule. Aber ich war immer mehr ein Produktdenker als ein Vollzeit-Ingenieur. Tools wie Claude 4 Opus haben das geändert. Mit den richtigen Prompts konnte ich schnell vorankommen, Funktionen korrekt implementieren und mich auf die Produktlogik statt auf Boilerplate konzentrieren.
Es geht nicht darum, Kreativität an KI auszulagern – es geht darum, mit den richtigen Tools intelligenter zu bauen.
Die Erstellung eines Werbespots für ein neues Produkt oder eine Dienstleistung, selbst wenn er nur 20 Sekunden lang ist, umfasst mehrere komplexe Schritte. Daher habe ich ihn in acht verschiedene Phasen unterteilt:
Jeder Schritt baut auf dem vorherigen auf und schafft eine Pipeline, die eine einfache Idee in einen vollständigen Werbespot verwandelt. In jeder Phase hat der Mensch die volle Kontrolle, um jedes Element zu ändern oder Text, Video oder Audio neu zu generieren.
Die erste Herausforderung war, dass die meisten Menschen nicht mit vollständig ausgearbeiteten Produktideen beginnen. Sie könnten etwas Vages wie "etwas für Produktivität" eingeben. Hier kommt Gemini ins Spiel.
Ich habe das Gemini 2.0 Flash-Modell von Google verwendet, um grobe Ideen in konkrete Produktkonzepte zu verwandeln. Das Prompt-Engineering war hier entscheidend – ich brauchte, dass Gemini spezifisch und konkret ist, nicht vage und generisch. Anstatt "etwas für Fitness" zu akzeptieren, verwandelt das System es in etwas wie "FitPulse AI: Ein intelligentes Armband, das fortschrittliche Biometrie nutzt, um personalisierte Mikro-Workouts im Laufe des Tages zu erstellen."
1 | """Enhance a product idea using Gemini""" |
2 | |
3 | prompt = f""" |
4 | Enhance this product idea to make it more compelling: |
5 | |
6 | Original idea: {idea} |
7 | Target mood: {mood} |
8 | Target audience: {audience} |
9 | |
10 | Make it: |
11 | 1. Clear and specific about the value proposition |
12 | 2. Appeal to {audience} |
13 | 3. Match the {mood.lower()} tone |
14 | 4. Be memorable and marketable |
15 | |
16 | Keep it to 2-3 sentences. |
17 | """ |
Als nächstes kam die Skripterstellung. Wieder mit Gemini habe ich den Output als vier 5-Sekunden-Szenen strukturiert, jede mit drei Komponenten:
Der Schlüssel war, Gemini Stimmung und Publikum verstehen zu lassen. Ein "quirliger" Werbespot für Millennials benötigt eine andere Sprache als ein "professioneller" für Unternehmenskunden.
Ich habe viel Zeit damit verbracht, die Prompts zu verfeinern, um generische KI-Sprache zu vermeiden und Skripte zu erstellen, die sich auf jedes Produkt zugeschnitten anfühlen.
1 | """Generate a 4-scene commercial script""" |
2 | |
3 | prompt = f""" |
4 | Create a 30-second commercial script with exactly 4 scenes. |
5 | |
6 | Product: {product_name} |
7 | Audience: {target_audience} |
8 | Key Message: {key_message} |
9 | Mood: {mood} |
10 | |
11 | Return a JSON array with 4 scenes, each with: |
12 | - number: 1-4 |
13 | - duration: 5 |
14 | - script: What the voiceover says |
15 | - videoPrompt: Visual description for video generation |
16 | - sfxPrompt: Sound effects description |
17 | |
18 | Example format: |
19 | [{{"number": 1, "duration": 5, "script": "...", "videoPrompt": "...", "sfxPrompt": "..."}}] |
20 | """ |
21 |
Ich habe die gehostete API von FAL.ai für das VEO 2 Modell von Google verwendet. Der Video-Prompt jeder Szene wird an FAL.ai gesendet, das einen 5-Sekunden-Videoclip zurückgibt. Dies war eine der kniffligeren Integrationen – lange Generierungszeiten zu handhaben, API-Limits zu verwalten und den Nutzern Feedback zu geben, während sie warten.
Ursprünglich hatte ich geplant, Google AI Studio oder Vertex AI für die Veo 2 API zu verwenden, da dies bedeutet hätte, dass ich denselben API-Schlüssel wie Gemini verwende, aber ich konnte Veo 2 nicht auf meinem Konto zum Laufen bringen.
Ich habe ein Zustandsverwaltungssystem implementiert, das generierte Videos lokal speichert, damit Nutzer teure Inhalte nicht erneut generieren müssen, wenn sie die Seite verlassen und zurückkehren. Wenn Sie auf Ratenlimits bei Claude stoßen, ist das Letzte, was Sie wollen, Ihre generierten Videos zu verlieren, weil Sie die Seite aktualisiert haben.
Der Videoinhalt für einen 20-Sekunden-Clip, vorausgesetzt, es gibt keine Neuschnitte oder Neugenerierungen, kostete etwa 10 US-Dollar.
Hier wurde ich kreativ mit den APIs von ElevenLabs. Während ElevenLabs hauptsächlich für die Sprachgenerierung bekannt ist, haben wir auch eine beeindruckende Soundeffekte-API. Sehen Sie sich das unglaubliche Soundboard Beispiel für potenzielle Anwendungsfälle an.
Ich habe es verwendet, um vier Variationen von Soundeffekten für jede Szene zu generieren – lebhaft, energetisch, ruhig und dramatisch. Nutzer können jede Option vorhören und auswählen, was zu ihrer Vision passt.
1 | const response = await elevenLabs.soundGeneration({ |
2 | text: modifiedPrompt, |
3 | duration_seconds: duration, |
4 | prompt_influence: 0.3 |
5 | }); |
6 |
Mit vier Videoclips und vier Soundeffekt-Tracks musste ich sie kombinieren. Das bedeutete, tief in FFmpeg einzutauchen, das Schweizer Taschenmesser der Videobearbeitung. Das Backend führt FFmpeg-Befehle aus, um:
Die richtigen FFmpeg-Befehle zu finden, erforderte erhebliches Debugging. Besonders das Audiomixing erfordert sorgfältige Aufmerksamkeit auf Pegel und Timing. Ich habe gelernt, dass Hintergrundaudio auf etwa 30 % Lautstärke reduziert werden sollte, wenn es mit Voiceover gemischt wird – höher konkurriert es um Aufmerksamkeit, niedriger könnte es genauso gut nicht da sein.
Für das Voiceover habe ich die Text-to-Speech-API von ElevenLabs integriert, um Nutzern eine Auswahl an Stimmen zu bieten. Das System generiert ein einziges kohärentes Voiceover-Skript aus allen Szenenskripten und sendet es dann an ElevenLabs mit optimierten Stimmeinstellungen:
1 | const voiceSettings = { |
2 | stability: 0.75, |
3 | similarity_boost: 0.75, |
4 | style: 0.0, |
5 | use_speaker_boost: true |
6 | }; |
7 |
Diese Einstellungen bieten eine klare, professionelle Erzählung, die gut für Werbespots funktioniert. Nach Experimenten mit verschiedenen Konfigurationen habe ich festgestellt, dass dieses Gleichgewicht Konsistenz liefert, ohne robotisch zu klingen.
Der Aufbau mit mehreren KI-APIs bedeutet, mit verschiedenen Fehlermodi umzugehen. Ratenlimits, Timeout-Fehler, fehlerhafte Antworten – all das passiert. Besonders wenn Sie um 2 Uhr morgens debuggen und VEO 2 etwas Unerwartetes zurückgibt.
Ich habe eine umfassende Fehlerbehandlung mit Fallback-Optionen implementiert:
Das Ziel war, sicherzustellen, dass Nutzer ihren Werbespot immer abschließen können, selbst wenn einige KI-Dienste einen schlechten Tag haben.
Die Erstellung eines Werbespots erfordert mehrere KI-API-Aufrufe, die mehrere Minuten dauern können. Um die Erfahrung zu verbessern, habe ich:
Ich habe auch ein System zur Zustandspersistenz implementiert. Wenn jemand seinen Browser während der Generierung schließt, kann er zurückkehren und dort weitermachen, wo er aufgehört hat. Das war nicht in meinem ursprünglichen Plan, aber nachdem ich während der Tests ein paar Mal meinen Fortschritt verloren hatte, wurde es zur Priorität.
Der Aufbau dieses Tools hat drei wichtige Lektionen hervorgebracht.
Erstens ist das Design von Prompts entscheidend. Die Qualität des Outputs eines KI-Modells hängt stark davon ab, wie Sie den Input gestalten. Ich habe genauso viel Zeit mit der Verfeinerung von Prompts verbracht wie mit dem Schreiben von Code.
Zweitens übertrifft die Benutzererfahrung die technische Komplexität. Nutzern ist es egal, wie viele KI-Dienste beteiligt sind – sie wollen, dass das Tool funktioniert. Fortschrittsanzeigen, Fehlerbehandlung und schnelle Feedback-Schleifen machen den Unterschied.
Drittens beschleunigen KI-Assistenten wie Claude die Entwicklung. Ich konzentrierte mich auf die Produktlogik, während ich Boilerplate und Syntax an das Modell auslagerte. Es geht nicht darum, Schritte zu überspringen – es geht darum, intelligenter zu bauen.
Was als Wochenendprojekt begann, entwickelte sich zu einem echten, erweiterbaren Tool. Marketingteams könnten es für Prototypen verwenden, Startups für Pitch-Videos und Kreative für gesponserte Inhalte.
Das System ist flexibel gestaltet. Sie können Videostile ändern, indem Sie VEO 2 Prompts anpassen, Szenenlängen für verschiedene Formate modifizieren oder Musik über FFmpeg hinzufügen.
Die echte Chance liegt in der Orchestrierung mehrerer KI-Systeme. Kein einzelnes Modell kann einen vollständigen Werbespot generieren – aber kombiniert können Gemini, VEO 2 und ElevenLabs etwas weit Mächtigeres produzieren als jedes von ihnen allein.
Es geht nicht darum, dass KI Kreative ersetzt. Es geht darum, Kreativen bessere Werkzeuge zu geben. Nach 20 Jahren im Bereich Content habe ich viel Veränderung gesehen – aber dieser Wandel fühlt sich grundlegend an.
Wenn Sie erkunden möchten, wie die Technologie von ElevenLabs neue Ansätze für Inhalte und Medien ermöglichen kann, nehmen Sie Kontakt mit unserem Vertriebsteam auf.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.