21 Bildmotive, ein 25-Sekunden-Werbespot, zwei Bildwelten, ein konsistenter Charakter. Alles mit KI. Aus dem Home Office. Ohne Reise, ohne Model, ohne Fotograf. Einen Praxisguide findest du am ende des Beitrages.
In den letzten Wochen habe ich eine komplette Werbekampagne für eine fiktive Vintage-Taucheruhr produziert. 21 Bildmotive, ein 25-Sekunden-Werbespot mit Sound-Design, zwei narrativ unterschiedliche Bildwelten in einem konsistenten Charakter. Alles mit KI. Aus dem Home Office. Ohne nach Italien zu fahren, ohne Model, ohne Fotograf.
Das Ganze ist als Praxis-Test entstanden: für meine Schulungen, für meine eigene Werkzeugkenntnis, und ehrlich gesagt auch, um mit ein paar Mythen aufzuräumen, die aktuell durchs Netz geistern. „Mit KI ist eine Kampagne in einem Nachmittag fertig“ gehört dazu.
Hier kommt die ehrliche Bilanz: Was 2026 mit den aktuellen Tools wirklich machbar ist, wo es noch hakt, und welche Fallstricke ich auf dem Weg gefunden habe.
„KI ist kein einzelnes Modell. KI ist Workflow. Wer denkt, ein guter Prompt löst sein Problem, scheitert an genau dieser Stelle."
Georg Neumann
DER AUSGANGSPUNKT
Warum überhaupt eine Kampagne für eine fiktive Marke?
Eigentlich bin ich kein großer Fan von Demo-Kampagnen für nicht existierende Produkte. Das Problem: Wenn man die echten Anforderungen einer Marke nicht hat (Brandbook, Stakeholder, Korrekturrunden), kann man sich technisch in eine Komfortzone manövrieren, die mit dem realen Marketingalltag wenig zu tun hat.
Aber für einen sauberen Tool-Test ist genau das hilfreich. Ich konnte die Tools an ihre tatsächlichen Grenzen treiben, ohne mich an Compliance-Themen aufzuhalten. Und das Ergebnis ist konkret genug, um in Schulungen Antworten auf reale Fragen zu geben: Wie konsistent kriegt man heute einen Charakter über mehrere Szenen? Wie gut werden feine Produktdetails dargestellt, wenn das Produkt klein im Bild ist? Wie aufwendig ist der Übergang von Foto-Kampagne zu Bewegtbild? Wo blockt die Content-Moderation der Video-Modelle?
DAS KONZEPT
Produkt, Setting, Charakter und drei Akte.
Produkt: eine Vintage-inspirierte Taucheruhr mit blauem Zifferblatt, schwarzer Lünette mit französischen Markierungen (HEURES, MINUTES) und Milanese-Mesh-Armband.
Setting: Cinque Terre, Italienische Mittelmeerküste.
Charakter: Massimo, Anfang vierzig, Bart, athletisch, Freediver und Liebhaber des dolce far niente.
Die Kampagne ist in drei Akten konzipiert: Akt I (Ocean Diver) in Schwarzweiß-Reportage mit Salgado-Look und Tri-X 35mm-Ästhetik. Felsküste, Sprung ins Wasser, Unterwasser-Sequenzen, Rückkehr an Land. Akt II (Dolce Vita) in warmem Color, wo Saul-Leiter-Pastell auf Slim-Aarons-Komposition trifft: Café-Tisch, Markt, Vespa-Lenker, Steinsims mit Meerblick. Akt III (Close-Ups und Crossover) mit Macro-Stillleben, Hybridmotiven zwischen den Welten und dem Hero-Layer für die Uhr selbst. Insgesamt 21 Motive plus ein 25-Sekunden-Werbespot als finale Ableitung.
DER TECH-STACK
Tools und Modelle.
Eine Kampagne mit KI ist kein einzelnes Tool. Mein Stack für diese Produktion:
| TOOL / MODELL | VERWENDUNG |
|---|---|
| Claude Cowork (Claude Opus) | Konzeption, Storyboarding, Master-Tabelle; image-prompt-json-Skill für einheitliche Prompt-Struktur über alle 21 Motive |
| FLAIC | Zentrales Bildgenerierungs-Tool für alle Kampagnenbilder; Refinement-Feature für Produktdetails |
| gpt-image-2 / Nano Banana 2 | Character Sheets und Detail-Iterationen (in Magnific Spaces) |
| Magnific Spaces | Detailrefinement bei feinen Produktansichten; Storyboard-Generierung für den Videoclip |
| Adobe Photoshop | Composite beim Produktdetail-Einsetzen; letzter Feinschliff |
| Adobe Lightroom | Finaler Color-Pass über die gesamte Serie |
| Seedance 2 | Frame-für-Frame-Videogenerierung aus Keyframes mit Motion-Direktiven (JSON Prompting) |
| ElevenLabs | Voice-Over: acht kurze Linien auf Englisch |
| Suno | minimalistischer Ambient-Pad, ca. 70 BPM, F-Moll, kein Drum-Kit |
Kostenschätzung: Für dieses Projekt (21 Motive, ein kurzer Videoclip, Voice-over und Musikspur) liegen die Kosten ungefähr bei 20–75 €. Der größte Posten sind die Generierungs-Credits (ca. 150.000), dazu kommen die genutzten Tools und Abos. Es handelt sich um eine grobe Schätzung, die tatsächlichen Kosten hängen davon ab, welche Abos man jeweils nutzt.
SCHRITT 1 · CHARAKTERKONSISTENZ
Sagt Hallo zu Massimo.
Das zentrale Problem bei KI-Bildkampagnen mit einem menschlichen Hauptdarsteller ist Konsistenz. Das Gesicht aus Bild 1 muss in Bild 14 dasselbe sein. Im Wetsuit dieselben Augen wie im Leinenhemd. Aus zwei Metern Entfernung dasselbe wie aus zehn. Wenn das nicht stimmt, ist alle Kompositions-Arbeit umsonst.
Bevor ich auch nur ein Kampagnenbild generiert habe, gab es Massimo in fünf Panels: Front, Profil, Rücken, Headshot, Profil-Headshot. Komplett in der Tauch-Welt (Wetsuit) und parallel in der Dolce-Vita-Welt (Leinen). Ohne diese zwei Sheets wäre die Konsistenz zwischen Akt I und Akt II nicht stabil geblieben. Mit den Sheets ist Massimo in jedem der 21 Motive erkennbar derselbe Mann.
- Aus dem ersten Referenzbild (generiert mit FLAIC) ein Character Sheet mit gpt-image- entwickeln: fünf Panels komplett im Wetsuit für die Diver-Welt.
- Im gleichen Format direkt das zweite Sheet generieren: diesmal im Leinenoutfit für die Dolce-Vita-Welt.
- Diese zwei Sheets als Anker für alle nachfolgenden Generierungen verwenden.

Wichtig dabei: Das erste Referenzbild des Charakters muss markant sein. Kein Hochglanz-Standardgesicht, sondern ein Charakter mit Ecken. Jede Schwäche im Initial-Bild vererbt sich in alle folgenden Generierungen. Das Character-Sheet-Prinzip empfehle ich außerdem ausdrücklich nur für fiktive Charaktere. Bei echten Personen lieber mit mehreren Einzelbildern arbeiten wegen des Detailgrads.
SCHRITT 2 · PLANUNG UND SYSTEM
Mein wichtigstes Werkzeug ist eine Tabelle.
Wer eine KI-Kampagne ohne System baut, navigiert blind. Ein Bild hier, ein Prompt da, und irgendwann sieht das ganze Set nach 15 verschiedenen Kampagnen aus. Die Tabelle ist nicht nur Organisation. Sie ist das wichtigste Instrument gegen Stil-Drift über die gesamte Serie.
- In Claude Cowork mit den fertigen Character Sheets starten. Welche Akte braucht die Kampagne? Welche Motive pro Akt? Welche Stimmung? Das Ergebnis: drei Akte, 21 Motive gesamt.
- Alle weiteren Referenzbilder einladen: Wrist-Shot, Top-Down der Uhr, Dial-Macro, Side-Macro, 3/4-Profil. Dann schreibt Claude für jedes konzipierte Motiv den vollständigen Prompt, inklusive Angabe welche Referenzbilder im jeweiligen Generierungsschritt geladen werden müssen.
- Alles landet in der Master-Tabelle. Pro Motiv: Akt-Zuordnung, Stilreferenz, benötigte Charakter-Referenz, benötigte Watch-Referenz, der vollständige JSON-Prompt und der Generierungs-Status (offen / iteriert / final).
Pro-Tipp: Skills nutzen. Ich habe meinen image-prompt-json-Skill in Claude verwendet. Der Skill erzwingt die gleiche Prompt-Struktur über alle 21 Motive. Konsistenz im Prompt-Aufbau bedeutet Konsistenz im Output. Claude, ChatGPT und Langdock haben mittlerweile alle ladbare Skills.
SCHRITT 3 · GENERIERUNGEN
Lieber 16 mal generieren als ein Bild retten wollen.
Welches Bild-KI-Modell man nutzt, ist erstmal zweitrangig. Ich habe für diese Kampagne mit FLAIC gearbeitet. Wer ein bestehendes Abo bei Magnific, Higgsfield, Weavy oder anderen Tools hat: alles gut. Die Modelle sind 2026 alle leistungsfähig genug, dass die Wahl Geschmackssache ist. Entscheidend ist, wie man damit arbeitet.
Referenzbilder in hoher Auflösung. Was in 1024px ins Modell geht, kommt in 1024px heraus. Das Modell so hoch laden wie es akzeptiert wird. In der Qualität macht es einen sichtbaren Unterschied, in den Generierungskosten kaum.
Quality-Settings ausreizen. Bei FLAIC ist 4K das Minimum. Bei gpt-image-2 zusätzlich Quality: High. Die paar Cent mehr pro Bild sind weniger als die Zeit, die man mit schlechten Outputs verliert.
Best of N. Pro Motiv habe ich locker 20 bis 40 Bilder generiert, bevor eines wirklich saß. Man generiert keine einzelnen Bilder, man generiert Auswahlmengen. Und es ist immer effizienter, nochmal auf Generieren zu klicken, als zu versuchen, ein Bild mit Retusche zu retten. Photoshop ist für den letzten Feinschliff, nicht zur Bildreparatur.
SCHRITT 4 · TECHNISCHES PROBLEM 1
Produktdetails im Wide-Shot
Eines der häufigsten Probleme bei KI-Werbung sind feine Produktdetails an einem kleinen Bildanteil. Sobald die Uhr nicht mehr das halbe Bild füllt, kommen aus dem Modell: verwaschene Zifferblätter, falsche Lünettenmarkierungen, falsch herum laufende Schrift, verzerrte Logos. Ein Markenkunde akzeptiert das nicht.
Mein Hauptweg: das Refinement-Feature in FLAIC. Ich markiere den Uhrenbereich und lasse nur diesen mit hoher Detailtreue neu generieren. Der Rest des Bildes bleibt unverändert. Charakter, Komposition, Licht stehen. Erst bei besonders schwierigen Fällen (sehr kleine Uhr in der Tiefe des Bildes, komplexe Reflexionen) ging es zusätzlich zu Magnific Spaces für die Detailebene und dann Photoshop für den Composite.
- Den Wide-Shot wie geplant generieren. Komposition, Charakter, Setting passen, nur das Produktdetail ist schwach.
- Den Bereich der Uhr hochskalieren und anhand von Referenzbildern neu generieren.
- Den korrekten Uhren-Ausschnitt mit sauberer Maskierung ins Originalbild einsetzen.

SCHRITT 5 · DIE BILDWELTEN
Zwei Welten, ein Charakter.
Akt I (Ocean Diver): Massimo im Wetsuit, Schwarzweiß, Felsenküste und Mittelmeer. Akt II (Dolce Vita): dasselbe Gesicht, anderes Leben. Leinenhemd, Espresso, Zitronenmarkt, Vespa. Beide Akte funktionieren nur zusammen. Eine Kampagne, die nur Action zeigt, verkauft das Produkt als Werkzeug. Eine, die nur Lifestyle zeigt, verkauft es als Schmuck. Eine echte Markenwelt braucht beide Seiten.


Dolce-Vita-Akt: Massimo am Zitronenmarkt und beim Espresso. Generiert mit FLAIC, bearbeitet in Lightroom.

Massimo an der Vespa. Wrist-Shot der 5303 in der Dolce-Vita-Welt.


Ocean-Diver-Akt: Massimo an der Felsenküste. Generiert mit FLAIC, bearbeitet in Lightroom.

Unterwasser-Wrist-Shot. Das Links-Rechts-Problem der Uhr (dazu mehr im nächsten Abschnitt) wurde durch kombinierte Prompt-Anweisungen gelöst.

Hero-Bild: Massimo als Freediver im Mittelmeer.
SCHRITT 6 · TECHNISCHES PROBLEM 2
KI versteht „links" nicht
Eines der häufigsten Konsistenz-Probleme: Produkte auf der falschen Seite. Zwölfmal „linkes Handgelenk“ im Prompt, und die Uhr sitzt trotzdem rechts. Der Grund: KI-Modelle haben Schwierigkeiten mit Spiegelungslogik. Wenn ein Charakter in die Kamera schaut, ist sein anatomisch linkes Handgelenk auf der rechten Bildseite. Diese Mirror-Logik kollidiert mit der Standard-Komposition, die das Modell gelernt hat.
Was bei mir funktioniert und die Trefferquote von ca. 50% auf über 90% gehoben hat:
- Anatomisch und visuell zusammen beschreiben: nicht nur „watch on left wrist“, sondern „watch on the anatomically left wrist, the same wrist as in the uploaded reference image, the wrist on the heart side.“
- Bildkoordinaten festlegen: bei Rückenansicht „the watch appears in the LEFT THIRD of the image“, bei Frontalansicht „the watch appears in the RIGHT THIRD, because his left wrist is on the viewer’s right.“
- Negativ-Anweisung dazu: „The watch is NEVER on the right wrist. The right wrist is ALWAYS bare.“ Klingt redundant, macht aber bei den meisten Modellen den Unterschied.
- Reference-Image als Anker: Das hochgeladene Watch-Bild zeigt die Uhr auf der korrekten Seite. „Match the exact wrist shown in the uploaded watch reference.“
SCHRITT 7 · VOM FOTO ZUM VIDEO
Frame für Frame statt Magic Prompt.
Die populärste Empfehlung für KI-Video lautet: Storyboard als Bildreferenz hochladen, Prompt schreiben, fertig ist der 15-Sekünder mit mehreren Cuts. Klingt nach Magie. Funktioniert auch. Nur nicht zuverlässig. Das Ergebnis ist meistens: inkonsistenter Charakter zwischen Cuts, kippende Kompositionen, beliebige Bewegungen, drei Treffer pro zehn Generierungen. Für Reels-Stories reicht das vielleicht. Für eine Markenkampagne nicht.
- Aus der Foto-Kampagne und den Character Sheets in gpt-image-2 (Magnific Spaces)ein vollständiges Storyboard generieren.
- Aus dem Storyboard die Keyframes als Einzelbilder generieren.
- Jedes Keyframe einzeln in Seedance 2 laden mit einer Motion-Direktive (JSON Prompting), die nur diesen einen Clip beschreibt. Aus zehn Keyframes werden zehn Clips à 2 bis 3 Sekunden.
- Klassischer Videoschnitt: Clips hart aneinanderhängen.
Vorteil: Charakter, Komposition und Stil bleiben über alle Cuts konsistent. Wenn ein Clip nicht passt, wird nur der eine neu generiert. Nachteil: deutlich mehr Generierungen pro Spot. Aber günstiger als zehn fehlgeschlagene 15-Sekünder hintereinander.
SCHRITT 8 · AUDIO
Audio ist kein Post-Production-Schritt. Audio ist Pflicht.
Bei vielen KI-Werbespots fällt einem die Bildebene auf, weil sie technisch beeindruckend ist. Aber sobald man auf den Ton hört, ist es Slop. Mein Audio-Setup:
- Voice-Over über ElevenLabs: acht kurze Linien auf Englisch. Konkrete Zahlen aus der Tauchwelt statt abstrakter Parfüm-Werbungs-Phrasen.
- Musik mit Suno: minimalistischer Ambient-Pad, ca. 70 BPM, F-Moll. Kein Beat, kein Drum-Kit. Der Spot soll atmen, nicht treiben.
- Sound-Design-Layer: Wind, Wellen, Atem, gedämpftes Wasser. Alles auf den Cut-Rhythmus mitgeplant, nicht erst hinterher draufgelegt.
Audio macht das Video. Wer das nicht parallel zum Bild plant, produziert PowerPoint mit Bewegung.
Finaler Werbespot der 5303-Kampagne mit Voice-Over und Musik.
DIE FALLSTRICKE
Was schiefgelaufen ist und warum.
Content-Moderation bei Video-AI. Seedance hat meine Video-Prompts mehrfach geblockt. Trigger-Wörter wie „hooded“, „wetsuit“, „underwater“ oder „dive“ können bei Videomodellen Safety-Filter aktivieren, eine Mischung aus Self-Harm-Logik (Tauchen wird teilweise als gefährliche Aktivität klassifiziert) und Brand-Compliance. Mein Workaround: Sport-Kontext explizit setzen, Bekleidung neutral umschreiben („long-sleeve neoprene suit“), problematische Begriffe paraphrasieren („recreational freediving practice in clear Mediterranean water“) und kommerziellen Kontext klar machen („editorial sports advertising for a watch brand campaign“).
Links und Rechts sind bereits im Abschnitt oben behandelt. Das ist kein Einzelfall, sondern ein strukturelles Problem aller aktuellen Bildmodelle.
Der peinlichste Fehler der gesamten Kampagne. Mir ist er erst nach allen 21 Bildern aufgefallen. Massimos Neoprenanzug ergibt schlicht keinen Sinn: einteilig, mit fest angenähter Kapuze, ohne Front-Reißverschluss. Wer schon mal einen hooded Wetsuit übergezogen hat, weiß, dass das physikalisch nicht geht. Die KI hat einen Anzug produziert, der visuell glaubhaft ist, aber funktional Quatsch. Genau die Sorte Detail, die jedem Praktiker in fünf Sekunden auffallen würde. Mir ist es durch alle 21 Motive durchgerutscht. Lehre: Bei allem KI-Können ersetzt nichts das Domänenwissen über die Welt, die man verkauft. Das muss vor dem ersten Prompt rein, nicht hinterher.
DEMO-SZENARIO (MEINE KAMPAGNE)
Fiktive Marke, kein Feedback-Loop, keine Markenrichtlinien, keine Stakeholder-Runden, keine Legal-Freigaben, keine Sprachvarianten. Ich entscheide alles allein. Ergebnis: ca. 4 Stunden für 8 Hero-Bilder.
REALES KUNDENPROJEKT
Korrekturrunden von Marketing, Produktteam und Geschäftsführung; Adaptionen für Reels, Print, Web, Out-of-Home; Varianten in mehreren Sprachen; Brand-Compliance-Check. Der Aufwand vervielfacht sich auf das Drei- bis Vierfache. Das ist ganz normal, denn echte Markenarbeit hat schlicht mehr Anspruch.
DIE EHRLICHE BILANZ
Was 2026 wirklich machbar ist (und was nicht)
WAS GEHT
- Charakterkonsistenz über mehrere Outfits und Settings mit Sheets stabil lösbar
- Detailtreue bei Produkten mit Refinement-Tools, auch bei kleinen Bildanteilen
- Stilkohärenz über große Bildmengen mit strukturierten Prompts und Lightroom-Pass
- Bewegtbild mit konsistentem Charakter über den Storyboard-Umweg
- Vollständiges Audio-Design (VO, Musik, Sound-Design) ohne klassisches Studio
- Eine ganze Kampagnenwelt aus dem Home Office: Setting, Charakter, Produktansichten, Werbespot
WAS (NOCH) NICHT KLAPPT
- Domänenakkurater Output ohne Expertise im Input
- Komplexe Multi-Cut-Videos in einem einzigen Generierungsschritt mit verlässlicher Konsistenz
- Perfekte Wasserphysik, Reflexionen und komplexe Lichtsituationen ohne erhebliche manuelle Nachbearbeitung
- Echte Schnelligkeit, wenn der Anspruch über „Tech-Demo im Feed“ hinausgeht
FÜNF LEHREN FÜR DIE PRAXIS
Was ich beim nächsten Mal anders mache (und was ihr direkt übernehmen könnt)
- Plane, bevor du promptst. Konzept, Master-Tabelle und Skills strukturieren den Prozess. Wer im Prompt-Feld kreativ wird, verliert Konsistenz über die Serie.
- Hol Domänenwissen rein, bevor du anfängst. KI rendert glaubhaft, was funktional nicht funktioniert. Der Wetsuit-Fail in meinem Spot ist der Beweis.
- Investiere in Character Sheets. Fünf Panels pro Outfit. Das ist die Versicherung gegen Stil-Drift. Nur bei fiktiven Charakteren.
- Kombiniere Tools. Kein einzelnes Tool macht alles. Mein Stack hat neun Komponenten. Das ist normal, nicht ein Zeichen, dass etwas falsch läuft.
- Kommuniziere realistische Aufwände. Demo-Tempo ist nicht Brand-Tempo. Wer Demo-Werte als Standard verkauft, schadet der Branche und sich selbst. Die ca. 200.000 Magnific Credits für diese Kampagne sind ein ehrlicherer Datenpunkt als „vier Stunden für acht Bilder“.
FAZIT
Handwerk, nicht Magie
Eine komplette KI-Werbekampagne mit Anspruch ist 2026 machbar. Aber sie ist Handwerk, nicht Magie. Sie braucht Workflows, Domänenwissen und einen klaren Plan, genau wie klassische Markenarbeit. Was sie liefert: Bilder und Bewegtbild in einer Setting-Vielfalt, die ohne KI für die meisten Unternehmen unbezahlbar wäre.
Der Hebel von KI ist nicht Geschwindigkeit. Der Hebel ist Machbarkeit. Eine Werbekampagne in Cinque Terre, ohne nach Cinque Terre zu fahren: das hätte vor drei Jahren ein fünfstelliges Budget verschlungen. Heute geht das von einem Schreibtisch aus, mit den richtigen Tools und genug Geduld für die Details.
„Wer Konsistenz will, muss Kontrolle behalten. Das geht nicht, wenn du Bild und Bewegung in einem Schritt outsourcen lässt."
Georg Neumann
WEITERBILDUNG
KI-Kampagnen sind Handwerk.
Erlernbares Handwerk.
Der AI Content Manager zeigt dir Schritt für Schritt, wie du KI-Tools in deinen Marketingalltag integrierst. Workflows, Prompting-Methoden und der echte Produktionsprozess aus der Praxis.






