Personalisiertes Kinderbuch mit KI: Ein Praxisguide für Flux und Claude

Von der Idee zum eigenen KI-Kinderbuch

Kinderbücher selbst erstellen – das war lange Zeit Profis mit jahrelanger Erfahrung im Illustrieren und Geschichtenschreiben vorbehalten. Doch generative KI macht es möglich: Heute können auch Menschen ohne künstlerische Vorbildung eigene Kinderbücher gestalten. Und das sogar individualisiert aufs eigene Kind.

2023 habe ich mit ChatGPT und Stable Diffusion mein erstes KI-generiertes Kinderbuch „Mathilda auf dem Mond“ produziert. Die Geschichte meiner Tochter Mathilda und ihr Traum von einer Mondreise wurde nicht nur für sie zum Lieblingsbuch.

2024 folgte mein zweites personalisiertes Kinderbuch – diesmal mit fortgeschrittenen KI-Tools: Flux für konstante Charaktere, Claude für packende Geschichten und ComfyUI für präzise Bildgenerierung.

In diesem Blogbeitrag zeige ich dir konkret, wie du dein eigenes KI-Kinderbuch entwickelst – von der ersten Idee bis zum Druck. Du lernst die technischen Möglichkeiten kennen und erfährst, worauf es bei Datensicherheit und konsistenten Illustrationen ankommt.

Inhaltsverzeichnis

Der Weg zum eigenen KI-Kinderbuch

Bevor wir in die technischen Details einsteigen, schauen wir uns an, welche Schritte nötig sind, um ein personalisiertes Kinderbuch mit KI zu erstellen. Der Prozess gliedert sich in fünf Hauptphasen:

 

  1. Charakterentwicklung
    Zunächst bringen wir der KI bei, wie unsere Hauptfigur aussieht. Dafür nutzen wir Fotos als Trainingsmaterial – in meinem Fall Bilder meiner Tochter Mathilda und trainieren damit ein LoRa-Model für Flux.
  2. Geschichte und Text
    Im zweiten Schritt entwickeln wir die Geschichte. Mit modernen Sprachmodellen können wir heute kindgerechte Texte erstellen, die sowohl unterhaltsam als auch altersgerecht sind.
  3. Illustrationen
    Nachdem Geschichte und Charakter stehen, geht es an die Bildgenerierung. Hier kombinieren wir verschiedene KI-Tools, um konsistente und ansprechende Illustrationen zu schaffen.
  4. Layout und Design
    Die fertigen Texte und Bilder werden nun in ein ansprechendes Buchdesign gebracht. Dabei achten wir besonders auf Lesbarkeit und eine harmonische Gestaltung.
  5. Produktion
    Der letzte Schritt führt uns zur fertigen Druckdatei und schließlich zum gebundenen Buch.In den folgenden Kapiteln gehen wir detailliert auf jeden dieser Schritte ein. Dabei zeige ich dir nicht nur die technischen Möglichkeiten, sondern auch wichtige Aspekte wie Datensicherheit beim Training eigener Modelle und kreative Tricks für konsistente Illustrationen.

LoRa-Training: Die Hauptfigur mit Flux zum Leben erwecken

Optimale Trainingsdaten für Flux

Die Qualität deiner Trainingsdaten entscheidet maßgeblich über den Erfolg deines KI-Kinderbuchs. Für ein gelungenes Training benötigst du etwa 15-30 hochwertige Fotos deines Kindes. Dabei kommt es weniger auf professionelles Equipment an, sondern vielmehr auf die richtige Herangehensweise beim Fotografieren.

 

Technische Anforderungen

Eine hohe Bildschärfe und minimales Bildrauschen sind essentiell. Beim Fotografieren mit dem Smartphone solltest du den Porträtmodus deaktivieren, da die künstliche Unschärfe sonst mittrainiert wird. Nutze mindestens Zoom-Stufe 1, besser noch 2 oder höher, um verzerrte Proportionen durch Weitwinkelaufnahmen zu vermeiden.

 

Bildkomposition und Varianz

Dein Trainingsdatensatz sollte folgende Aufnahmetypen umfassen:

  • 50% Nahaufnahmen des Gesichts
  • 30% Medium Shots ab der Hüfte
  • 20% Ganzkörperaufnahmen


Besonders wichtig ist die Variation in deinem Datensatz. Plane mindestens:

  • 3 verschiedene Outfits
  • 3 unterschiedliche Hintergründe
  • Verschiedene Perspektiven (Frontal und Profil)


Häufige Fallstricke

Ein klassischer Fehler ist die Verwendung zu ähnlicher Bilder. Zwanzig Aufnahmen mit identischem Outfit vor der gleichen Wand führen zu einem sehr eingeschränkten Modell. Auch bei der Tiefenunschärfe solltest du variieren – sonst wird dein trainiertes Modell später keine scharfen Hintergründe erzeugen können.

 

Datenschutz und Sicherheit

Beim Training mit Kinderfotos ist besondere Vorsicht geboten. Achte auf deine Datenhohheit und gehe sorgsam mit den Trainingsdaten um. Verwende für das fertige Buch nur die generierten Bilder, nie die Original-Trainingsfotos.

Trainingsdatensatz von Mathilda für Flux Training (ok, aber nicht optimal)

Captions für das Training

Die Frage nach der Notwendigkeit von Bildunterschriften (Captions) beim Training ist nicht pauschal zu beantworten. Für einfache Personenmodelle mit Flux kannst du auch ohne Captions gute Ergebnisse erzielen. Allerdings können präzise Beschreibungen die Qualität deines Modells deutlich steigern.

 

Wann sind Captions wichtig?

  • Bei komplexen Personenmerkmalen
  • Beim Training von Produkten
  • Für spezifische Stile
  • Bei schwierigen Lichtsituationen oder Posen

Tools für die Caption-Erstellung

Für kleine Datensätze von 15-30 Bildern eignet sich ein simpler Workflow mit ChatGPT. Nutze dafür folgenden Prompt:

„Erstelle mir ein detailliertes Caption für dieses Bild für das Training eines Flux LoRas auf Englisch – optimiert für T5 XXL Text Encoder“

Bei größeren Bildmengen empfiehlt sich der Einsatz spezialisierter Software wie JoyCaption oder Captain Caption.

 

Wichtige Caption-Regeln

  • Trigger-Wort (z.B. „TOK“) direkt in die Beschreibung einbauen
  • Automatisch generierte Captions immer manuell prüfen
  • Relevante Merkmale präzise beschreiben
  • Englische Sprache verwenden
  • Auf konsistente Formulierungen achten

 

Ein typisches Caption könnte so aussehen:

„A portrait of TOK, a young girl with red hair and blue eyes, wearing a colorful striped sweater, natural lighting, sharp focus, neutral background“

Die Detailtiefe der Captions kannst du je nach Bedarf anpassen – wichtiger als die Länge ist die Präzision der Beschreibung.

Das Training des KI-Modells

Setup und Installation von kohya_ss

Für das Training unseres Flux LoRAs setzen wir auf kohya_ss, ein leistungsstarkes Open-Source-Tool. Es überzeugt nicht nur durch seine Fähigkeiten im Dreambooth Full Finetuning, sondern eignet sich auch hervorragend für Flux LoRA Training. Lokal könnt ihr es z.B. easy über Stability Matrix installieren oder über Cloud Computing Services wie rundiffusion.com laufen lassen. 

 

Trainingsparameter optimieren

Die wichtigsten Parameter für ein erfolgreiches Training:

  • Bildanzahl: 33 Trainingsbilder
  • Epochs: 200 (experimentell ermittelbar)
  • Training Steps: 6600 (Bildanzahl × Epochs)
  • Rank: 128
  • Learning Rate: 0,00005

Qualitätskontrolle während des Trainings

Ein entscheidender Faktor ist das Monitoring verschiedener Epochen. Nicht immer liefert die letzte Epoche die besten Ergebnisse. Teste systematisch verschiedene Checkpoints:

  • Frühe Epochen (25-50)
  • Mittlere Epochen (75-125)
  • Späte Epochen (150-200)

Best Practices

  • Starte mit einer moderaten Epoch-Anzahl
  • Behalte die Loss-Werte im Auge
  • Speichere mehrere Checkpoints
  • Teste das Modell mit verschiedenen Prompts
  • Dokumentiere die besten Parameter für künftige Trainings


Die optimale Epoch-Anzahl findest du durch systematisches Testen – was bei einem Projekt optimal funktioniert, muss beim nächsten nicht zwangsläufig die beste Wahl sein.

Die Geschichte entwickelt sich

Storytelling mit Claude

Die kreative Arbeit an der Geschichte erfolgt mit Claude 3.5 Sonnet – ein Sprachmodell, das sich durch besonders natürliche und kreative Texte auszeichnet. Die Entwicklung der Geschichte basiert auf einem ausführlichen Briefing, bei dem wir den Context, die Zielgruppe und vor allem den besonderen Schreibstil des ersten Buchs vermitteln.

Aufbau der Textelemente

Jede Szene besteht aus zwei sich ergänzenden Textbausteinen:

  • Reimpassagen: Spielerische, rhythmische Verse, die Kinder besonders ansprechen
  • Begleitende Prosa: Atmosphärische Beschreibungen, die die Geschichte vertiefen und Übergänge schaffen

Beispiel für den Textaufbau:

Reimpassage: Tripp und trapp und tripp und trapp, die Zebras traben auf und ab. „Steig auf, steig auf!“, so rufen sie, „wir bringen dich zum Löwen, sieh! Mit unsren Streifen schwarz und weiß, wird es uns auch gar nicht heiß!“
Begleitende Prosa: So begann Mathildas Reise durch die Savanne. Die Morgensonne wärmte ihren Rücken, während die Zebras sie geschmeidig durch das hohe Gras trugen. Toko flog über ihnen und zeigte den Weg.

Entwicklungsprozess

Der kreative Prozess läuft in mehreren Iterationen:

  • Erste Textversion mit groben Reimideen
  • Feinschliff der Reime auf Rhythmus und Sprachmelodie
  • Integration der verbindenden Prosatexte
  • Finale Abstimmung aller neun Kapitel zu einer runden Geschichte

Die Kombination aus rhythmischen Reimen und beschreibender Prosa schafft einen dynamischen Lesefluss, der sowohl zum Vorlesen als auch zum selbstständigen Entdecken einlädt.

Bildgenerierung mit ComfyUI als Basis

Die Bildgenerierung für das Kinderbuch habe ich mit ComfyUI realisiert. Das Tool überzeugte mich vor allem durch seine hervorragende Integration von Custom-LoRAs, wobei auch Alternativen wie Forge WebUI mit LoRA-Support in Frage kommen.

 

Der iterative Weg zum perfekten Bild

Der Weg zum perfekten Bild war intensiv: Für die 16 Buchseiten entstanden insgesamt 289 Bilder. Aus diesen wählte ich systematisch die besten Varianten aus, wobei ich besonderen Wert auf eine durchgängige Bildsprache und die kindgerechte, liebevolle Darstellung der Charaktere legte. Die Prompts dafür habe ich mit meinem Bild-KI Promptbot erstellt.

 

Beispielprompt: A 3D illustration in the Pixar style featuring TOK girl, a 3-year-old with long red hair tied in a ponytail, standing confidently. She wears brown hiking boots, beige trousers, a fitted beige shirt with short sleeves, brown suspenders, and a small brown utility belt. She holds a vintage-style doctor’s bag in one hand and gazes thoughtfully into the distance, her posture calm yet determined. The atmosphere captures a sense of curiosity and adventure. Highly detailed, cinematic composition, intricate textures, soft lighting, and vibrant tones.

 

Die Herausforderung der Charakterkonsistenz

Eine besondere Herausforderung stellte die Charakterkonsistenz dar. Dafür habe ich eine sehr detailierte Beschreibung von Frisur und Kleidung fest in alle Prompts integriert. Ich habe die verschiedenen Mathilda-Darstellungen genau analysiert und den Vogel Toko gezielt gegen einen immer gleichen ausgetauscht, um eine einheitliche Darstellung über alle Seiten zu gewährleisten.

 

Nachbearbeitung und Upscaling

In der Nachbearbeitung habe ich auf einen mehrstufigen Prozess gesetzt: Zunächst kam Topaz Gigapixel AI für die grundlegende Vergrößerung zum Einsatz. Dabei entwickelte ich einen speziellen Workflow für die Schärfesteuerung: Ich legte das Originalbild über die hochskalierte Version und maskierte gezielt die Bereiche, die besonders scharf erscheinen sollten. So vermied ich eine übermäßige Schärfe in den Hintergründen.

 

Finale Optimierung in Photoshop

Die finale Retusche erfolgte in Photoshop. Hier nutzte ich die generative Füllung für kleinere Optimierungen und korrigierte unlogische Elemente – wie etwa ein versehentlich generiertes Geweih bei einem Löwenbaby. Dieser aufwändige Prozess aus Generierung und präziser Nachbearbeitung resultierte in einer durchgängig hochwertigen und stimmigen Bildsprache, die das Kinderbuch auszeichnet.

Layout und Druckvorbereitung

Die finale Phase der Buchproduktion erfolgte in Adobe InDesign – dem Industriestandard für professionelles Publishing. Das Tool überzeugt durch seine ausgereiften Textwerkzeuge und präzise Layoutmöglichkeiten.

Alternativen für das Layout sind:

  • Affinity Designer als kostengünstige Professional-Lösung
  • Canva für einen einfachen, browserbasieren Workflow
  • Fotobuch-Editor vom Anbieter

Die Wahl des Layout-Tools hängt letztlich von deinen persönlichen Vorlieben und dem Budget ab. Wichtig ist vor allem, dass das finale Layout den Druckanforderungen entspricht und Text wie Bilder optimal zur Geltung kommen.

Wichtig: Achtet auf Kontraste bei den Texten! Im Zweifelsfall müssen Eltern die Bücher in dämmrigen Licht vorlesen – sorgt also für optimale Lesbarkeit (siehe Screenshot rechts: zusätzliche Schattierungen hinten den Texten sorgen für mehr Kontrast).

Druck und Produktion

Für die finale Produktion fiel die Wahl auf fotofabrik.de und deren „Pappbuch Deluxe“. Der Online-Editor des Anbieters ermöglicht es, PDFs oder Einzelbilder hochzuladen und im Layout zu platzieren. Den Buchumschlag haben wir separat gestaltet und als eigenständige Datei bereitgestellt. Diese Lösung bietet eine hochwertige Verarbeitung und professionelle Anmutung des fertigen Kinderbuchs.

Jedes Kind verdient sein eigenes magisches Abenteuer. Mit KI können wir heute Geschichten erschaffen, die so einzigartig sind wie die kleinen Menschen, für die wir sie schreiben

Das finale Ergebnis: Mathilda und der kranke Löwe

Fazit: Potenziale und Grenzen der KI-Kinderbuchproduktion

Die KI-gestützte Erstellung personalisierter Kinderbücher öffnet spannende neue Möglichkeiten für technisch versierte Menschen. Doch der Prozess ist komplex: Mit rund 24 Stunden Gesamtaufwand für Charakterentwicklung, Bildgenerierung und Layout erfordert jeder Schritt Zeit, Sorgfalt und technisches Verständnis.

Technische und kreative Limitierungen

Die aktuellen Tools zeigen deutliche Grenzen. Flux etwa meistert realistische Charakterdarstellungen, tut sich aber schwer mit dem malerischen, künstlerischen Stil traditioneller Kinderbücher. KI-generierten Bildern fehlt oft die emotionale Tiefe und die feinen Nuancen, die menschliche Illustratoren in ihre Werke einbringen – Details, die gerade für die emotionale Entwicklung junger Leser wichtig sind.

Verantwortung und Qualitätsanspruch

Mit den technischen Möglichkeiten wächst die Verantwortung. Professionelle Kinderbuchproduktion berücksichtigt pädagogische Werte, moralische Botschaften, altersgerechte Lerneffekte und Vorlesequalität. Diese Aspekte müssen nun auch KI-Nutzer beachten, wobei eigene Erfahrungen als Eltern besonders wertvoll sind – sie ermöglichen es, die Perspektive der Vorlesenden und Zuhörenden zu verstehen.

Ethische und rechtliche Herausforderungen

Die Nutzung von KI in der Kinderbuchillustration ist umstritten. Kritisch diskutiert werden vor allem das Training der KI-Modelle mit urheberrechtlich geschützten Werken ohne Einwilligung der Künstler sowie die fehlenden Schutzmöglichkeiten für KI-generierte Bilder. Viele Buchhandlungen zeigen sich entsprechend zurückhaltend beim Verkauf KI-illustrierter Kinderbücher.

Ausblick und Einordnung

KI-gestützte Kinderbuchproduktion eignet sich aktuell besonders für individuelle, persönliche Projekte im kleinen Rahmen. Sie ersetzt nicht die Arbeit professioneller Autoren und Illustratoren, sondern eröffnet neue Wege für personalisierte Geschichten. Die Technologie wird sich weiterentwickeln – idealerweise als unterstützendes Werkzeug für Kreative, nicht als deren Ersatz. Bis zur Etablierung klarer rechtlicher Regelungen und ethischer Standards bleibt ein sensibler Umgang wichtig. Denn letztlich geht es um mehr als Technologie: Es geht um die Wertschätzung kreativer Arbeit und die Qualität der Bücher, mit denen unsere Kinder aufwachsen.

KI-gestützte Kinderbuchproduktion ist kein Ersatz für professionelle Illustration, sondern ein Werkzeug für persönliche Geschichten. Sie verbindet technische Möglichkeiten mit elterlicher Kreativität – und braucht dabei genauso viel Herz wie Expertise.

Willst du mehr über KI-gestützte Kreativprojekte lernen?

Die Erstellung eines KI-Kinderbuchs nutzt viele Techniken, die wir auch in anderen kreativen Projekten einsetzen. In unserem Deep Dive „Klon dich selbst“ zeigen wir dir die wichtigsten Grundlagen: Von der Erstellung eigener Flux LoRAs über die Bildgenerierung mit ComfyUI bis hin zur Entwicklung von Custom GPTs für deinen persönlichen Schreibstil.Diese Skills sind nicht nur für Kinderbücher wertvoll – sie bilden das Fundament für viele kreative KI-Projekte. Lerne, wie du:

  • Charaktere mit Flux LoRAs zum Leben erweckst

  • Konsistente Bildserien mit ComfyUI generierst

  • Deinen eigenen Schreibstil in Custom GPTs überträgst

 

Interesse geweckt? In unserem Deep Dive „Klon dich selbst“ lernst du diese Techniken von Grund auf. Schau vorbei auf marketing-ki.de und starte deine Reise in die kreative KI-Nutzung.

Vroni forscht zu Sprachmodellen, Georg trainiert seit 2022 Bild-KI Modelle
Das könnte Dich auch interessieren:
Aktuelles
Mehr als nur Text: So nutzt du den ChatGPT 4o Image Generator fürs Marketing

Wir kennen ChatGPT längst als zuverlässigen Texter, der uns bei allem von Headlines bis Blogartikeln unterstützt. Doch mittlerweile kann er noch mehr – und zwar Bilder erstellen. Nicht wirklich neu für alle, die sich mit KI beschäftigen, aber spannend bleibt’s trotzdem: Aus dem reinen Schreibassistenten wird ein visueller Kreativpartner. Und das Beste? Alles läuft direkt im gewohnten Chatfenster ab – ganz ohne Toolswitch. Für uns im Marketing eröffnet das neue Möglichkeiten: Content-Ideen lassen sich schneller

Weiterlesen »
Aktuelles
OpenAI-Modelle im Vergleich: GPT-4o, GPT-4.5, o3 & Co für Marketing-Teams

Gefühlt gibt es plötzlich ein halbes Dutzend verschiedene ChatGPT-Modelle – und ständig kommt ein neues dazu. GPT-4, GPT-4o, GPT-4.5, o1, o3 Mini, Mini High, Turbo… Moment mal – was soll das alles eigentlich heißen?   Für viele fühlt sich das ein bisschen an wie ein Upgrade-Dschungel: Man will einfach nur wissen, was das richtige Modell für den eigenen Use Case ist – und wird stattdessen mit Abkürzungen, Preisen und Features bombardiert. Aber keine Sorge: Genau

Weiterlesen »
Aktuelles
Midjourney V7 ist da – Was das neue Modell fürs Marketing bedeutet

Mit Midjourney V7 ist das neue Bildgenerierungsmodell offiziell da – und bringt einige spannende Veränderungen mit. Die Bildqualität hat sich deutlich weiterentwickelt, neue Modi wie der Draft Mode versprechen schnellere Ergebnisse, und auch die Detailtiefe bei Gesichtern, Lichtstimmungen und Texturen wurde spürbar verbessert.   Doch was bedeutet das konkret für den Einsatz im Marketing?Welche neuen Möglichkeiten ergeben sich für Kreative, Marken und Kampagnen – und wo stößt V7 (noch) an seine Grenzen?   In diesem

Weiterlesen »
Aktuelles
KI & HR: Was der EU AI Act für Personalabteilungen bedeutet – Ein Interview mit Kirstin Elisabeth Koubé 2.0

Die Verabschiedung des EU AI Acts markiert einen Meilenstein in der Regulierung künstlicher Intelligenz (KI) innerhalb der Europäischen Union. Diese neue Verordnung legt nicht nur technische Standards für KI-Systeme fest, sondern hebt auch die Bedeutung der Weiterentwicklung von KI-Kompetenzen in Unternehmen hervor. Insbesondere Artikel 4 betont, dass Unternehmen geeignete Schulungs- und Weiterbildungsmaßnahmen fördern sollten, um den verantwortungsvollen Umgang mit KI zu gewährleisten.   In einem früheren Blogbeitrag: „EU AI Act: werden KI-Schulungen zur Pflicht?“ haben wir

Weiterlesen »
Aktuelles
Vibe Marketing mit KI: Effizienz-Booster oder Einheitsbrei in Hochgeschwindigkeit?

„Vibe Marketing“ – das klingt erstmal nach TikTok, After-Work-Gin und einem schicken Buzzword für Agenturpräsentationen. Tatsächlich beschreibt der Begriff aber eine Entwicklung, die gerade viele Marketingteams (und Solo-Marketer) massiv beeinflusst – und zwar nicht nur im positiven Sinne. Denn im Kern geht es bei Vibe Marketing um eines: Möglichst schnell und flexibel auf Stimmungen, Trends und Zielgruppenbedürfnisse zu reagieren. Möglich wird das durch KI-gestützte Tools, die Texte, Bilder, Videos und Ideen in Rekordzeit produzieren –

Weiterlesen »
Aktuelles
Ist Freepik die eierlegende Wollmilchsau unter den Bildgeneratoren?

KI Tools im Marketing gibt es viele – aber welche bringen wirklich Ergebnisse? Und vor allem: Wie kannst du sie praxisnah anwenden?   Genau diese Frage stellen wir uns regelmäßig im KI Marketing Bootcamp. Denn Theorie ist gut, Praxis ist besser. Deshalb setzen wir auf Hands-on-Training mit den besten KI Tools. Eines davon – oder besser gesagt, unser neuer Favorit: Freepik. Warum? Weil es die perfekte Brücke zwischen Idee und Umsetzung ist – und zeigt,

Weiterlesen »

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳