Personalisiertes Kinderbuch mit KI: Ein Praxisguide für Flux und Claude

Georg Neumann
Dezember 30, 2024

Von der Idee zum eigenen KI-Kinderbuch

Kinderbücher selbst erstellen – das war lange Zeit Profis mit jahrelanger Erfahrung im Illustrieren und Geschichtenschreiben vorbehalten. Doch generative KI macht es möglich: Heute können auch Menschen ohne künstlerische Vorbildung eigene Kinderbücher gestalten. Und das sogar individualisiert aufs eigene Kind.

2023 habe ich mit ChatGPT und Stable Diffusion mein erstes KI-generiertes Kinderbuch „Mathilda auf dem Mond“ produziert. Die Geschichte meiner Tochter Mathilda und ihr Traum von einer Mondreise wurde nicht nur für sie zum Lieblingsbuch.

2024 folgte mein zweites personalisiertes Kinderbuch – diesmal mit fortgeschrittenen KI-Tools: Flux für konstante Charaktere, Claude für packende Geschichten und ComfyUI für präzise Bildgenerierung.

In diesem Blogbeitrag zeige ich dir konkret, wie du dein eigenes KI-Kinderbuch entwickelst – von der ersten Idee bis zum Druck. Du lernst die technischen Möglichkeiten kennen und erfährst, worauf es bei Datensicherheit und konsistenten Illustrationen ankommt.

Der Weg zum eigenen KI-Kinderbuch

Bevor wir in die technischen Details einsteigen, schauen wir uns an, welche Schritte nötig sind, um ein personalisiertes Kinderbuch mit KI zu erstellen. Der Prozess gliedert sich in fünf Hauptphasen:

Charakterentwicklung
Zunächst bringen wir der KI bei, wie unsere Hauptfigur aussieht. Dafür nutzen wir Fotos als Trainingsmaterial – in meinem Fall Bilder meiner Tochter Mathilda und trainieren damit ein LoRa-Model für Flux.
Geschichte und Text
Im zweiten Schritt entwickeln wir die Geschichte. Mit modernen Sprachmodellen können wir heute kindgerechte Texte erstellen, die sowohl unterhaltsam als auch altersgerecht sind.
Illustrationen
Nachdem Geschichte und Charakter stehen, geht es an die Bildgenerierung. Hier kombinieren wir verschiedene KI-Tools, um konsistente und ansprechende Illustrationen zu schaffen.
Layout und Design
Die fertigen Texte und Bilder werden nun in ein ansprechendes Buchdesign gebracht. Dabei achten wir besonders auf Lesbarkeit und eine harmonische Gestaltung.
Produktion
Der letzte Schritt führt uns zur fertigen Druckdatei und schließlich zum gebundenen Buch.In den folgenden Kapiteln gehen wir detailliert auf jeden dieser Schritte ein. Dabei zeige ich dir nicht nur die technischen Möglichkeiten, sondern auch wichtige Aspekte wie Datensicherheit beim Training eigener Modelle und kreative Tricks für konsistente Illustrationen.

LoRa-Training: Die Hauptfigur mit Flux zum Leben erwecken

Optimale Trainingsdaten für Flux

Die Qualität deiner Trainingsdaten entscheidet maßgeblich über den Erfolg deines KI-Kinderbuchs. Für ein gelungenes Training benötigst du etwa 15-30 hochwertige Fotos deines Kindes. Dabei kommt es weniger auf professionelles Equipment an, sondern vielmehr auf die richtige Herangehensweise beim Fotografieren.

Technische Anforderungen

Eine hohe Bildschärfe und minimales Bildrauschen sind essentiell. Beim Fotografieren mit dem Smartphone solltest du den Porträtmodus deaktivieren, da die künstliche Unschärfe sonst mittrainiert wird. Nutze mindestens Zoom-Stufe 1, besser noch 2 oder höher, um verzerrte Proportionen durch Weitwinkelaufnahmen zu vermeiden.

Bildkomposition und Varianz

Dein Trainingsdatensatz sollte folgende Aufnahmetypen umfassen:

50% Nahaufnahmen des Gesichts
30% Medium Shots ab der Hüfte
20% Ganzkörperaufnahmen

Besonders wichtig ist die Variation in deinem Datensatz. Plane mindestens:

3 verschiedene Outfits
3 unterschiedliche Hintergründe
Verschiedene Perspektiven (Frontal und Profil)

Häufige Fallstricke

Ein klassischer Fehler ist die Verwendung zu ähnlicher Bilder. Zwanzig Aufnahmen mit identischem Outfit vor der gleichen Wand führen zu einem sehr eingeschränkten Modell. Auch bei der Tiefenunschärfe solltest du variieren – sonst wird dein trainiertes Modell später keine scharfen Hintergründe erzeugen können.

Datenschutz und Sicherheit

Beim Training mit Kinderfotos ist besondere Vorsicht geboten. Achte auf deine Datenhohheit und gehe sorgsam mit den Trainingsdaten um. Verwende für das fertige Buch nur die generierten Bilder, nie die Original-Trainingsfotos.

Captions für das Training

Die Frage nach der Notwendigkeit von Bildunterschriften (Captions) beim Training ist nicht pauschal zu beantworten. Für einfache Personenmodelle mit Flux kannst du auch ohne Captions gute Ergebnisse erzielen. Allerdings können präzise Beschreibungen die Qualität deines Modells deutlich steigern.

Wann sind Captions wichtig?

Bei komplexen Personenmerkmalen
Beim Training von Produkten
Für spezifische Stile
Bei schwierigen Lichtsituationen oder Posen

Tools für die Caption-Erstellung

Für kleine Datensätze von 15-30 Bildern eignet sich ein simpler Workflow mit ChatGPT. Nutze dafür folgenden Prompt:

„Erstelle mir ein detailliertes Caption für dieses Bild für das Training eines Flux LoRas auf Englisch – optimiert für T5 XXL Text Encoder“

Bei größeren Bildmengen empfiehlt sich der Einsatz spezialisierter Software wie JoyCaption oder Captain Caption.

Wichtige Caption-Regeln

Trigger-Wort (z.B. „TOK“) direkt in die Beschreibung einbauen
Automatisch generierte Captions immer manuell prüfen
Relevante Merkmale präzise beschreiben
Englische Sprache verwenden
Auf konsistente Formulierungen achten

Ein typisches Caption könnte so aussehen:

„A portrait of TOK, a young girl with red hair and blue eyes, wearing a colorful striped sweater, natural lighting, sharp focus, neutral background“

Die Detailtiefe der Captions kannst du je nach Bedarf anpassen – wichtiger als die Länge ist die Präzision der Beschreibung.

Das Training des KI-Modells

Setup und Installation von kohya_ss

Für das Training unseres Flux LoRAs setzen wir auf kohya_ss, ein leistungsstarkes Open-Source-Tool. Es überzeugt nicht nur durch seine Fähigkeiten im Dreambooth Full Finetuning, sondern eignet sich auch hervorragend für Flux LoRA Training. Lokal könnt ihr es z.B. easy über Stability Matrix installieren oder über Cloud Computing Services wie rundiffusion.com laufen lassen.

Trainingsparameter optimieren

Die wichtigsten Parameter für ein erfolgreiches Training:

Bildanzahl: 33 Trainingsbilder
Epochs: 200 (experimentell ermittelbar)
Training Steps: 6600 (Bildanzahl × Epochs)
Rank: 128
Learning Rate: 0,00005

Qualitätskontrolle während des Trainings

Ein entscheidender Faktor ist das Monitoring verschiedener Epochen. Nicht immer liefert die letzte Epoche die besten Ergebnisse. Teste systematisch verschiedene Checkpoints:

Frühe Epochen (25-50)
Mittlere Epochen (75-125)
Späte Epochen (150-200)

Best Practices

Starte mit einer moderaten Epoch-Anzahl
Behalte die Loss-Werte im Auge
Speichere mehrere Checkpoints
Teste das Modell mit verschiedenen Prompts
Dokumentiere die besten Parameter für künftige Trainings

Die optimale Epoch-Anzahl findest du durch systematisches Testen – was bei einem Projekt optimal funktioniert, muss beim nächsten nicht zwangsläufig die beste Wahl sein.

Die Geschichte entwickelt sich

Storytelling mit Claude

Die kreative Arbeit an der Geschichte erfolgt mit Claude 3.5 Sonnet – ein Sprachmodell, das sich durch besonders natürliche und kreative Texte auszeichnet. Die Entwicklung der Geschichte basiert auf einem ausführlichen Briefing, bei dem wir den Context, die Zielgruppe und vor allem den besonderen Schreibstil des ersten Buchs vermitteln.

Aufbau der Textelemente

Jede Szene besteht aus zwei sich ergänzenden Textbausteinen:

Reimpassagen: Spielerische, rhythmische Verse, die Kinder besonders ansprechen
Begleitende Prosa: Atmosphärische Beschreibungen, die die Geschichte vertiefen und Übergänge schaffen

Beispiel für den Textaufbau:

Reimpassage: Tripp und trapp und tripp und trapp, die Zebras traben auf und ab. „Steig auf, steig auf!“, so rufen sie, „wir bringen dich zum Löwen, sieh! Mit unsren Streifen schwarz und weiß, wird es uns auch gar nicht heiß!“

Begleitende Prosa: So begann Mathildas Reise durch die Savanne. Die Morgensonne wärmte ihren Rücken, während die Zebras sie geschmeidig durch das hohe Gras trugen. Toko flog über ihnen und zeigte den Weg.

Entwicklungsprozess

Der kreative Prozess läuft in mehreren Iterationen:

Erste Textversion mit groben Reimideen
Feinschliff der Reime auf Rhythmus und Sprachmelodie
Integration der verbindenden Prosatexte
Finale Abstimmung aller neun Kapitel zu einer runden Geschichte

Die Kombination aus rhythmischen Reimen und beschreibender Prosa schafft einen dynamischen Lesefluss, der sowohl zum Vorlesen als auch zum selbstständigen Entdecken einlädt.

Bildgenerierung mit ComfyUI als Basis

Die Bildgenerierung für das Kinderbuch habe ich mit ComfyUI realisiert. Das Tool überzeugte mich vor allem durch seine hervorragende Integration von Custom-LoRAs, wobei auch Alternativen wie Forge WebUI mit LoRA-Support in Frage kommen.

Der iterative Weg zum perfekten Bild

Der Weg zum perfekten Bild war intensiv: Für die 16 Buchseiten entstanden insgesamt 289 Bilder. Aus diesen wählte ich systematisch die besten Varianten aus, wobei ich besonderen Wert auf eine durchgängige Bildsprache und die kindgerechte, liebevolle Darstellung der Charaktere legte. Die Prompts dafür habe ich mit meinem Bild-KI Promptbot erstellt.

Beispielprompt: A 3D illustration in the Pixar style featuring TOK girl, a 3-year-old with long red hair tied in a ponytail, standing confidently. She wears brown hiking boots, beige trousers, a fitted beige shirt with short sleeves, brown suspenders, and a small brown utility belt. She holds a vintage-style doctor’s bag in one hand and gazes thoughtfully into the distance, her posture calm yet determined. The atmosphere captures a sense of curiosity and adventure. Highly detailed, cinematic composition, intricate textures, soft lighting, and vibrant tones.

Die Herausforderung der Charakterkonsistenz

Eine besondere Herausforderung stellte die Charakterkonsistenz dar. Dafür habe ich eine sehr detailierte Beschreibung von Frisur und Kleidung fest in alle Prompts integriert. Ich habe die verschiedenen Mathilda-Darstellungen genau analysiert und den Vogel Toko gezielt gegen einen immer gleichen ausgetauscht, um eine einheitliche Darstellung über alle Seiten zu gewährleisten.

Nachbearbeitung und Upscaling

In der Nachbearbeitung habe ich auf einen mehrstufigen Prozess gesetzt: Zunächst kam Topaz Gigapixel AI für die grundlegende Vergrößerung zum Einsatz. Dabei entwickelte ich einen speziellen Workflow für die Schärfesteuerung: Ich legte das Originalbild über die hochskalierte Version und maskierte gezielt die Bereiche, die besonders scharf erscheinen sollten. So vermied ich eine übermäßige Schärfe in den Hintergründen.

Finale Optimierung in Photoshop

Die finale Retusche erfolgte in Photoshop. Hier nutzte ich die generative Füllung für kleinere Optimierungen und korrigierte unlogische Elemente – wie etwa ein versehentlich generiertes Geweih bei einem Löwenbaby. Dieser aufwändige Prozess aus Generierung und präziser Nachbearbeitung resultierte in einer durchgängig hochwertigen und stimmigen Bildsprache, die das Kinderbuch auszeichnet.

Layout und Druckvorbereitung

Die finale Phase der Buchproduktion erfolgte in Adobe InDesign – dem Industriestandard für professionelles Publishing. Das Tool überzeugt durch seine ausgereiften Textwerkzeuge und präzise Layoutmöglichkeiten.

Alternativen für das Layout sind:

Affinity Designer als kostengünstige Professional-Lösung
Canva für einen einfachen, browserbasieren Workflow
Fotobuch-Editor vom Anbieter

Die Wahl des Layout-Tools hängt letztlich von deinen persönlichen Vorlieben und dem Budget ab. Wichtig ist vor allem, dass das finale Layout den Druckanforderungen entspricht und Text wie Bilder optimal zur Geltung kommen.

Wichtig: Achtet auf Kontraste bei den Texten! Im Zweifelsfall müssen Eltern die Bücher in dämmrigen Licht vorlesen – sorgt also für optimale Lesbarkeit (siehe Screenshot rechts: zusätzliche Schattierungen hinten den Texten sorgen für mehr Kontrast).

Druck und Produktion

Für die finale Produktion fiel die Wahl auf fotofabrik.de und deren „Pappbuch Deluxe“. Der Online-Editor des Anbieters ermöglicht es, PDFs oder Einzelbilder hochzuladen und im Layout zu platzieren. Den Buchumschlag haben wir separat gestaltet und als eigenständige Datei bereitgestellt. Diese Lösung bietet eine hochwertige Verarbeitung und professionelle Anmutung des fertigen Kinderbuchs.

Jedes Kind verdient sein eigenes magisches Abenteuer. Mit KI können wir heute Geschichten erschaffen, die so einzigartig sind wie die kleinen Menschen, für die wir sie schreiben
Georg Neumann

Das finale Ergebnis: Mathilda und der kranke Löwe

Fazit: Potenziale und Grenzen der KI-Kinderbuchproduktion

Die KI-gestützte Erstellung personalisierter Kinderbücher öffnet spannende neue Möglichkeiten für technisch versierte Menschen. Doch der Prozess ist komplex: Mit rund 24 Stunden Gesamtaufwand für Charakterentwicklung, Bildgenerierung und Layout erfordert jeder Schritt Zeit, Sorgfalt und technisches Verständnis.

Technische und kreative Limitierungen

Die aktuellen Tools zeigen deutliche Grenzen. Flux etwa meistert realistische Charakterdarstellungen, tut sich aber schwer mit dem malerischen, künstlerischen Stil traditioneller Kinderbücher. KI-generierten Bildern fehlt oft die emotionale Tiefe und die feinen Nuancen, die menschliche Illustratoren in ihre Werke einbringen – Details, die gerade für die emotionale Entwicklung junger Leser wichtig sind.

Verantwortung und Qualitätsanspruch

Mit den technischen Möglichkeiten wächst die Verantwortung. Professionelle Kinderbuchproduktion berücksichtigt pädagogische Werte, moralische Botschaften, altersgerechte Lerneffekte und Vorlesequalität. Diese Aspekte müssen nun auch KI-Nutzer beachten, wobei eigene Erfahrungen als Eltern besonders wertvoll sind – sie ermöglichen es, die Perspektive der Vorlesenden und Zuhörenden zu verstehen.

Ethische und rechtliche Herausforderungen

Die Nutzung von KI in der Kinderbuchillustration ist umstritten. Kritisch diskutiert werden vor allem das Training der KI-Modelle mit urheberrechtlich geschützten Werken ohne Einwilligung der Künstler sowie die fehlenden Schutzmöglichkeiten für KI-generierte Bilder. Viele Buchhandlungen zeigen sich entsprechend zurückhaltend beim Verkauf KI-illustrierter Kinderbücher.

Ausblick und Einordnung

KI-gestützte Kinderbuchproduktion eignet sich aktuell besonders für individuelle, persönliche Projekte im kleinen Rahmen. Sie ersetzt nicht die Arbeit professioneller Autoren und Illustratoren, sondern eröffnet neue Wege für personalisierte Geschichten. Die Technologie wird sich weiterentwickeln – idealerweise als unterstützendes Werkzeug für Kreative, nicht als deren Ersatz. Bis zur Etablierung klarer rechtlicher Regelungen und ethischer Standards bleibt ein sensibler Umgang wichtig. Denn letztlich geht es um mehr als Technologie: Es geht um die Wertschätzung kreativer Arbeit und die Qualität der Bücher, mit denen unsere Kinder aufwachsen.

KI-gestützte Kinderbuchproduktion ist kein Ersatz für professionelle Illustration, sondern ein Werkzeug für persönliche Geschichten. Sie verbindet technische Möglichkeiten mit elterlicher Kreativität – und braucht dabei genauso viel Herz wie Expertise.
Georg Neumann

Willst du mehr über KI-gestützte Kreativprojekte lernen?

Die Erstellung eines KI-Kinderbuchs nutzt viele Techniken, die wir auch in anderen kreativen Projekten einsetzen. In unserem Deep Dive „Klon dich selbst“ zeigen wir dir die wichtigsten Grundlagen: Von der Erstellung eigener Flux LoRAs über die Bildgenerierung mit ComfyUI bis hin zur Entwicklung von Custom GPTs für deinen persönlichen Schreibstil.Diese Skills sind nicht nur für Kinderbücher wertvoll – sie bilden das Fundament für viele kreative KI-Projekte. Lerne, wie du:

Charaktere mit Flux LoRAs zum Leben erweckst
Konsistente Bildserien mit ComfyUI generierst
Deinen eigenen Schreibstil in Custom GPTs überträgst

Interesse geweckt? In unserem Deep Dive „Klon dich selbst“ lernst du diese Techniken von Grund auf. Schau vorbei auf marketing-ki.de und starte deine Reise in die kreative KI-Nutzung.

Vroni forscht zu Sprachmodellen, Georg trainiert seit 2022 Bild-KI Modelle