Personalisiertes Kinderbuch mit KI: Ein Praxisguide für Flux und Claude

Von der Idee zum eigenen KI-Kinderbuch

Kinderbücher selbst erstellen – das war lange Zeit Profis mit jahrelanger Erfahrung im Illustrieren und Geschichtenschreiben vorbehalten. Doch generative KI macht es möglich: Heute können auch Menschen ohne künstlerische Vorbildung eigene Kinderbücher gestalten. Und das sogar individualisiert aufs eigene Kind.

2023 habe ich mit ChatGPT und Stable Diffusion mein erstes KI-generiertes Kinderbuch „Mathilda auf dem Mond“ produziert. Die Geschichte meiner Tochter Mathilda und ihr Traum von einer Mondreise wurde nicht nur für sie zum Lieblingsbuch.

2024 folgte mein zweites personalisiertes Kinderbuch – diesmal mit fortgeschrittenen KI-Tools: Flux für konstante Charaktere, Claude für packende Geschichten und ComfyUI für präzise Bildgenerierung.

In diesem Blogbeitrag zeige ich dir konkret, wie du dein eigenes KI-Kinderbuch entwickelst – von der ersten Idee bis zum Druck. Du lernst die technischen Möglichkeiten kennen und erfährst, worauf es bei Datensicherheit und konsistenten Illustrationen ankommt.

Inhaltsverzeichnis

Der Weg zum eigenen KI-Kinderbuch

Bevor wir in die technischen Details einsteigen, schauen wir uns an, welche Schritte nötig sind, um ein personalisiertes Kinderbuch mit KI zu erstellen. Der Prozess gliedert sich in fünf Hauptphasen:

 

  1. Charakterentwicklung
    Zunächst bringen wir der KI bei, wie unsere Hauptfigur aussieht. Dafür nutzen wir Fotos als Trainingsmaterial – in meinem Fall Bilder meiner Tochter Mathilda und trainieren damit ein LoRa-Model für Flux.
  2. Geschichte und Text
    Im zweiten Schritt entwickeln wir die Geschichte. Mit modernen Sprachmodellen können wir heute kindgerechte Texte erstellen, die sowohl unterhaltsam als auch altersgerecht sind.
  3. Illustrationen
    Nachdem Geschichte und Charakter stehen, geht es an die Bildgenerierung. Hier kombinieren wir verschiedene KI-Tools, um konsistente und ansprechende Illustrationen zu schaffen.
  4. Layout und Design
    Die fertigen Texte und Bilder werden nun in ein ansprechendes Buchdesign gebracht. Dabei achten wir besonders auf Lesbarkeit und eine harmonische Gestaltung.
  5. Produktion
    Der letzte Schritt führt uns zur fertigen Druckdatei und schließlich zum gebundenen Buch.In den folgenden Kapiteln gehen wir detailliert auf jeden dieser Schritte ein. Dabei zeige ich dir nicht nur die technischen Möglichkeiten, sondern auch wichtige Aspekte wie Datensicherheit beim Training eigener Modelle und kreative Tricks für konsistente Illustrationen.

LoRa-Training: Die Hauptfigur mit Flux zum Leben erwecken

Optimale Trainingsdaten für Flux

Die Qualität deiner Trainingsdaten entscheidet maßgeblich über den Erfolg deines KI-Kinderbuchs. Für ein gelungenes Training benötigst du etwa 15-30 hochwertige Fotos deines Kindes. Dabei kommt es weniger auf professionelles Equipment an, sondern vielmehr auf die richtige Herangehensweise beim Fotografieren.

 

Technische Anforderungen

Eine hohe Bildschärfe und minimales Bildrauschen sind essentiell. Beim Fotografieren mit dem Smartphone solltest du den Porträtmodus deaktivieren, da die künstliche Unschärfe sonst mittrainiert wird. Nutze mindestens Zoom-Stufe 1, besser noch 2 oder höher, um verzerrte Proportionen durch Weitwinkelaufnahmen zu vermeiden.

 

Bildkomposition und Varianz

Dein Trainingsdatensatz sollte folgende Aufnahmetypen umfassen:

  • 50% Nahaufnahmen des Gesichts
  • 30% Medium Shots ab der Hüfte
  • 20% Ganzkörperaufnahmen


Besonders wichtig ist die Variation in deinem Datensatz. Plane mindestens:

  • 3 verschiedene Outfits
  • 3 unterschiedliche Hintergründe
  • Verschiedene Perspektiven (Frontal und Profil)


Häufige Fallstricke

Ein klassischer Fehler ist die Verwendung zu ähnlicher Bilder. Zwanzig Aufnahmen mit identischem Outfit vor der gleichen Wand führen zu einem sehr eingeschränkten Modell. Auch bei der Tiefenunschärfe solltest du variieren – sonst wird dein trainiertes Modell später keine scharfen Hintergründe erzeugen können.

 

Datenschutz und Sicherheit

Beim Training mit Kinderfotos ist besondere Vorsicht geboten. Achte auf deine Datenhohheit und gehe sorgsam mit den Trainingsdaten um. Verwende für das fertige Buch nur die generierten Bilder, nie die Original-Trainingsfotos.

Trainingsdatensatz von Mathilda für Flux Training (ok, aber nicht optimal)

Captions für das Training

Die Frage nach der Notwendigkeit von Bildunterschriften (Captions) beim Training ist nicht pauschal zu beantworten. Für einfache Personenmodelle mit Flux kannst du auch ohne Captions gute Ergebnisse erzielen. Allerdings können präzise Beschreibungen die Qualität deines Modells deutlich steigern.

 

Wann sind Captions wichtig?

  • Bei komplexen Personenmerkmalen
  • Beim Training von Produkten
  • Für spezifische Stile
  • Bei schwierigen Lichtsituationen oder Posen

Tools für die Caption-Erstellung

Für kleine Datensätze von 15-30 Bildern eignet sich ein simpler Workflow mit ChatGPT. Nutze dafür folgenden Prompt:

„Erstelle mir ein detailliertes Caption für dieses Bild für das Training eines Flux LoRas auf Englisch – optimiert für T5 XXL Text Encoder“

Bei größeren Bildmengen empfiehlt sich der Einsatz spezialisierter Software wie JoyCaption oder Captain Caption.

 

Wichtige Caption-Regeln

  • Trigger-Wort (z.B. „TOK“) direkt in die Beschreibung einbauen
  • Automatisch generierte Captions immer manuell prüfen
  • Relevante Merkmale präzise beschreiben
  • Englische Sprache verwenden
  • Auf konsistente Formulierungen achten

 

Ein typisches Caption könnte so aussehen:

„A portrait of TOK, a young girl with red hair and blue eyes, wearing a colorful striped sweater, natural lighting, sharp focus, neutral background“

Die Detailtiefe der Captions kannst du je nach Bedarf anpassen – wichtiger als die Länge ist die Präzision der Beschreibung.

Das Training des KI-Modells

Setup und Installation von kohya_ss

Für das Training unseres Flux LoRAs setzen wir auf kohya_ss, ein leistungsstarkes Open-Source-Tool. Es überzeugt nicht nur durch seine Fähigkeiten im Dreambooth Full Finetuning, sondern eignet sich auch hervorragend für Flux LoRA Training. Lokal könnt ihr es z.B. easy über Stability Matrix installieren oder über Cloud Computing Services wie rundiffusion.com laufen lassen. 

 

Trainingsparameter optimieren

Die wichtigsten Parameter für ein erfolgreiches Training:

  • Bildanzahl: 33 Trainingsbilder
  • Epochs: 200 (experimentell ermittelbar)
  • Training Steps: 6600 (Bildanzahl × Epochs)
  • Rank: 128
  • Learning Rate: 0,00005

Qualitätskontrolle während des Trainings

Ein entscheidender Faktor ist das Monitoring verschiedener Epochen. Nicht immer liefert die letzte Epoche die besten Ergebnisse. Teste systematisch verschiedene Checkpoints:

  • Frühe Epochen (25-50)
  • Mittlere Epochen (75-125)
  • Späte Epochen (150-200)

Best Practices

  • Starte mit einer moderaten Epoch-Anzahl
  • Behalte die Loss-Werte im Auge
  • Speichere mehrere Checkpoints
  • Teste das Modell mit verschiedenen Prompts
  • Dokumentiere die besten Parameter für künftige Trainings


Die optimale Epoch-Anzahl findest du durch systematisches Testen – was bei einem Projekt optimal funktioniert, muss beim nächsten nicht zwangsläufig die beste Wahl sein.

Die Geschichte entwickelt sich

Storytelling mit Claude

Die kreative Arbeit an der Geschichte erfolgt mit Claude 3.5 Sonnet – ein Sprachmodell, das sich durch besonders natürliche und kreative Texte auszeichnet. Die Entwicklung der Geschichte basiert auf einem ausführlichen Briefing, bei dem wir den Context, die Zielgruppe und vor allem den besonderen Schreibstil des ersten Buchs vermitteln.

Aufbau der Textelemente

Jede Szene besteht aus zwei sich ergänzenden Textbausteinen:

  • Reimpassagen: Spielerische, rhythmische Verse, die Kinder besonders ansprechen
  • Begleitende Prosa: Atmosphärische Beschreibungen, die die Geschichte vertiefen und Übergänge schaffen

Beispiel für den Textaufbau:

Reimpassage: Tripp und trapp und tripp und trapp, die Zebras traben auf und ab. „Steig auf, steig auf!“, so rufen sie, „wir bringen dich zum Löwen, sieh! Mit unsren Streifen schwarz und weiß, wird es uns auch gar nicht heiß!“
Begleitende Prosa: So begann Mathildas Reise durch die Savanne. Die Morgensonne wärmte ihren Rücken, während die Zebras sie geschmeidig durch das hohe Gras trugen. Toko flog über ihnen und zeigte den Weg.

Entwicklungsprozess

Der kreative Prozess läuft in mehreren Iterationen:

  • Erste Textversion mit groben Reimideen
  • Feinschliff der Reime auf Rhythmus und Sprachmelodie
  • Integration der verbindenden Prosatexte
  • Finale Abstimmung aller neun Kapitel zu einer runden Geschichte

Die Kombination aus rhythmischen Reimen und beschreibender Prosa schafft einen dynamischen Lesefluss, der sowohl zum Vorlesen als auch zum selbstständigen Entdecken einlädt.

Bildgenerierung mit ComfyUI als Basis

Die Bildgenerierung für das Kinderbuch habe ich mit ComfyUI realisiert. Das Tool überzeugte mich vor allem durch seine hervorragende Integration von Custom-LoRAs, wobei auch Alternativen wie Forge WebUI mit LoRA-Support in Frage kommen.

 

Der iterative Weg zum perfekten Bild

Der Weg zum perfekten Bild war intensiv: Für die 16 Buchseiten entstanden insgesamt 289 Bilder. Aus diesen wählte ich systematisch die besten Varianten aus, wobei ich besonderen Wert auf eine durchgängige Bildsprache und die kindgerechte, liebevolle Darstellung der Charaktere legte. Die Prompts dafür habe ich mit meinem Bild-KI Promptbot erstellt.

 

Beispielprompt: A 3D illustration in the Pixar style featuring TOK girl, a 3-year-old with long red hair tied in a ponytail, standing confidently. She wears brown hiking boots, beige trousers, a fitted beige shirt with short sleeves, brown suspenders, and a small brown utility belt. She holds a vintage-style doctor’s bag in one hand and gazes thoughtfully into the distance, her posture calm yet determined. The atmosphere captures a sense of curiosity and adventure. Highly detailed, cinematic composition, intricate textures, soft lighting, and vibrant tones.

 

Die Herausforderung der Charakterkonsistenz

Eine besondere Herausforderung stellte die Charakterkonsistenz dar. Dafür habe ich eine sehr detailierte Beschreibung von Frisur und Kleidung fest in alle Prompts integriert. Ich habe die verschiedenen Mathilda-Darstellungen genau analysiert und den Vogel Toko gezielt gegen einen immer gleichen ausgetauscht, um eine einheitliche Darstellung über alle Seiten zu gewährleisten.

 

Nachbearbeitung und Upscaling

In der Nachbearbeitung habe ich auf einen mehrstufigen Prozess gesetzt: Zunächst kam Topaz Gigapixel AI für die grundlegende Vergrößerung zum Einsatz. Dabei entwickelte ich einen speziellen Workflow für die Schärfesteuerung: Ich legte das Originalbild über die hochskalierte Version und maskierte gezielt die Bereiche, die besonders scharf erscheinen sollten. So vermied ich eine übermäßige Schärfe in den Hintergründen.

 

Finale Optimierung in Photoshop

Die finale Retusche erfolgte in Photoshop. Hier nutzte ich die generative Füllung für kleinere Optimierungen und korrigierte unlogische Elemente – wie etwa ein versehentlich generiertes Geweih bei einem Löwenbaby. Dieser aufwändige Prozess aus Generierung und präziser Nachbearbeitung resultierte in einer durchgängig hochwertigen und stimmigen Bildsprache, die das Kinderbuch auszeichnet.

Layout und Druckvorbereitung

Die finale Phase der Buchproduktion erfolgte in Adobe InDesign – dem Industriestandard für professionelles Publishing. Das Tool überzeugt durch seine ausgereiften Textwerkzeuge und präzise Layoutmöglichkeiten.

Alternativen für das Layout sind:

  • Affinity Designer als kostengünstige Professional-Lösung
  • Canva für einen einfachen, browserbasieren Workflow
  • Fotobuch-Editor vom Anbieter

Die Wahl des Layout-Tools hängt letztlich von deinen persönlichen Vorlieben und dem Budget ab. Wichtig ist vor allem, dass das finale Layout den Druckanforderungen entspricht und Text wie Bilder optimal zur Geltung kommen.

Wichtig: Achtet auf Kontraste bei den Texten! Im Zweifelsfall müssen Eltern die Bücher in dämmrigen Licht vorlesen – sorgt also für optimale Lesbarkeit (siehe Screenshot rechts: zusätzliche Schattierungen hinten den Texten sorgen für mehr Kontrast).

Druck und Produktion

Für die finale Produktion fiel die Wahl auf fotofabrik.de und deren „Pappbuch Deluxe“. Der Online-Editor des Anbieters ermöglicht es, PDFs oder Einzelbilder hochzuladen und im Layout zu platzieren. Den Buchumschlag haben wir separat gestaltet und als eigenständige Datei bereitgestellt. Diese Lösung bietet eine hochwertige Verarbeitung und professionelle Anmutung des fertigen Kinderbuchs.

Jedes Kind verdient sein eigenes magisches Abenteuer. Mit KI können wir heute Geschichten erschaffen, die so einzigartig sind wie die kleinen Menschen, für die wir sie schreiben

Das finale Ergebnis: Mathilda und der kranke Löwe

Fazit: Potenziale und Grenzen der KI-Kinderbuchproduktion

Die KI-gestützte Erstellung personalisierter Kinderbücher öffnet spannende neue Möglichkeiten für technisch versierte Menschen. Doch der Prozess ist komplex: Mit rund 24 Stunden Gesamtaufwand für Charakterentwicklung, Bildgenerierung und Layout erfordert jeder Schritt Zeit, Sorgfalt und technisches Verständnis.

Technische und kreative Limitierungen

Die aktuellen Tools zeigen deutliche Grenzen. Flux etwa meistert realistische Charakterdarstellungen, tut sich aber schwer mit dem malerischen, künstlerischen Stil traditioneller Kinderbücher. KI-generierten Bildern fehlt oft die emotionale Tiefe und die feinen Nuancen, die menschliche Illustratoren in ihre Werke einbringen – Details, die gerade für die emotionale Entwicklung junger Leser wichtig sind.

Verantwortung und Qualitätsanspruch

Mit den technischen Möglichkeiten wächst die Verantwortung. Professionelle Kinderbuchproduktion berücksichtigt pädagogische Werte, moralische Botschaften, altersgerechte Lerneffekte und Vorlesequalität. Diese Aspekte müssen nun auch KI-Nutzer beachten, wobei eigene Erfahrungen als Eltern besonders wertvoll sind – sie ermöglichen es, die Perspektive der Vorlesenden und Zuhörenden zu verstehen.

Ethische und rechtliche Herausforderungen

Die Nutzung von KI in der Kinderbuchillustration ist umstritten. Kritisch diskutiert werden vor allem das Training der KI-Modelle mit urheberrechtlich geschützten Werken ohne Einwilligung der Künstler sowie die fehlenden Schutzmöglichkeiten für KI-generierte Bilder. Viele Buchhandlungen zeigen sich entsprechend zurückhaltend beim Verkauf KI-illustrierter Kinderbücher.

Ausblick und Einordnung

KI-gestützte Kinderbuchproduktion eignet sich aktuell besonders für individuelle, persönliche Projekte im kleinen Rahmen. Sie ersetzt nicht die Arbeit professioneller Autoren und Illustratoren, sondern eröffnet neue Wege für personalisierte Geschichten. Die Technologie wird sich weiterentwickeln – idealerweise als unterstützendes Werkzeug für Kreative, nicht als deren Ersatz. Bis zur Etablierung klarer rechtlicher Regelungen und ethischer Standards bleibt ein sensibler Umgang wichtig. Denn letztlich geht es um mehr als Technologie: Es geht um die Wertschätzung kreativer Arbeit und die Qualität der Bücher, mit denen unsere Kinder aufwachsen.

KI-gestützte Kinderbuchproduktion ist kein Ersatz für professionelle Illustration, sondern ein Werkzeug für persönliche Geschichten. Sie verbindet technische Möglichkeiten mit elterlicher Kreativität – und braucht dabei genauso viel Herz wie Expertise.

Willst du mehr über KI-gestützte Kreativprojekte lernen?

Die Erstellung eines KI-Kinderbuchs nutzt viele Techniken, die wir auch in anderen kreativen Projekten einsetzen. In unserem Deep Dive „Klon dich selbst“ zeigen wir dir die wichtigsten Grundlagen: Von der Erstellung eigener Flux LoRAs über die Bildgenerierung mit ComfyUI bis hin zur Entwicklung von Custom GPTs für deinen persönlichen Schreibstil.Diese Skills sind nicht nur für Kinderbücher wertvoll – sie bilden das Fundament für viele kreative KI-Projekte. Lerne, wie du:

  • Charaktere mit Flux LoRAs zum Leben erweckst

  • Konsistente Bildserien mit ComfyUI generierst

  • Deinen eigenen Schreibstil in Custom GPTs überträgst

 

Interesse geweckt? In unserem Deep Dive „Klon dich selbst“ lernst du diese Techniken von Grund auf. Schau vorbei auf marketing-ki.de und starte deine Reise in die kreative KI-Nutzung.

Vroni forscht zu Sprachmodellen, Georg trainiert seit 2022 Bild-KI Modelle
Das könnte Dich auch interessieren:
KI im Einsatz
WAN 2.2 schlägt Flux bei LoRAs klar

Georg war schon beim ersten Test von WAN 2.2 fasziniert. Wir hatten das Modell im KI Marketing Bootcamp bereits für Bild- und Videogenerierung ausprobiert – und die Resultate waren beeindruckend. Die Highlights dieser Tests haben wir bereits in zwei separaten Blogbeiträgen festgehalten:   Unser Video-Blogbeitrag zu WAN 2.2 → Unser Bild-Blogbeitrag zu WAN 2.2 →   Doch diesmal hat Georg den nächsten Schritt gewagt: Er hat mit WAN 2.2 sein ganz eigenes LoRA trainiert. Das

Weiterlesen »
KI im Einsatz
Bildgenerierung mit WAN 2.2: Was das Open Source Modell drauf hat

Wenn du gerade von unserem WAN 2.2 Video‑Blogbeitrag kommst, weißt du schon, was dich erwartet.Wenn nicht – kein Problem. Hier bekommst du den zweiten Teil unseres Tests. Diesmal geht’s um die Bildgenerierung mit WAN 2.2, und die ist – kein Witz – richtig stark. Warum? Weil WAN 2.2 nicht nur in der Videogenerierung überzeugt, sondern auch bei Standbildern extrem abliefert: realistische Hauttöne, fotorealistisches Licht, klar definierte Materialien. Falls du erstmal das Video sehen willst: Hier

Weiterlesen »
KI im Einsatz
WAN 2.2: Wenn KI-Videos plötzlich wie echte Werbespots aussehen

Videos mit KI generieren – und das mit Open Source? WAN 2.2 von Alibaba hat da etwas vorgelegt, was überrascht. Das Modell beeindruckt nicht nur mit der Videoqualität, sondern auch bei der Bildgenerierung. Wir haben uns in diesem Beitrag die Videogenerierung mal genauer angeschaut und zeigen dir ein paar Beispiele, wie das Ganze aussehen kann – inklusive der passenden Prompts. Inhaltsverzeichnis Die wichtigsten Fakten zu WAN 2.2   Entwickler: Alibaba DAMO AcademyLizenz: Apache 2.0 (kommerzielle

Weiterlesen »
Aktuelles
ChatGPT 5 ist da: Das sind die coolsten neuen Features

Stell dir vor, jeder ChatGPT-Chat wäre ein kleiner persönlicher Assistent, der automatisch weiß, wann er schnell antworten soll und wann er tief nachdenken muss. Genau das ist ChatGPT 5!   Am 7. August 2025 hat OpenAI sein neuestes KI-Modell veröffentlicht – und diesmal ist alles anders. ChatGPT 5 wechselt automatisch zwischen „schnellem Chat“ und „tiefem Nachdenken“, je nachdem was du brauchst. Das heißt: Du musst nicht mehr zwischen verschiedenen Modellen hin- und herwechseln. Die KI

Weiterlesen »
Aktuelles
Nie wieder wichtige E-Mails vergessen: Mein n8n-Workflow für automatische E-Mail-Erinnerungen

Inhaltsverzeichnis Das Problem mit den E-mails   „Bei dem ganzen E-Mail-Verkehr geht mir manchmal einiges durch die Lappen. Ich hab die E-Mail noch im Kopf, dann kommen 10.000 andere Sachen rein und dann geht eine simple Aufgabe unter: auf die E-Mail antworten.“   So ging es Georg und Vroni vom KI Marketing Bootcamp – und ehrlich gesagt, wer kennt das nicht?   Bei einem Newsletter ist das vielleicht noch verschmerzbar. Aber wenn das bei Kunden

Weiterlesen »
KI im Einsatz
Ein Radieschen für 400 Token – Warum KI-Schulungen bei ChatGPT, Mistral & Co. Energie und Wasser sparen

Stell dir vor, jede KI-Anfrage wäre ein kleines Radieschen plus 10 Sekunden Netflix.   Mistral AI  hat vor kurzem eine faszinierende Rechnung aufgemacht: 400 Token Text generieren entspricht dem Wasserverbrauch eines winzigen Radieschens UND 10 Sekunden Video-Streaming auf Netflix. Klingt vernachlässigbar, oder?   Einzeln betrachtet ist es das auch. Problematisch wird es erst bei Millionen täglicher Anfragen weltweit. Dann wird aus einem Radieschen und 10 Netflix-Sekunden schnell ein ganzer Gemüsegarten plus Netflix-Marathons.   Die gute

Weiterlesen »

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳