Inhaltsverzeichnis
Das ultimative Bild-KI Battle
Wenn man das erste mal seine Fühler in die Bereiche Text- und Bild-KI ausstreckt, kann die Fülle an verschiedenen Anbietern und Tools überwältigend sein. Um euch bei der Qual der Wahl etwas zu unterstützen, haben wir die wichtigsten Bildgeneratoren gegeneinander antreten lassen. So könnt ihr selbst sehen, welches Tool für euren Einsatzzweck besser geeignet sein könnte.
Tools & Anbieter
Dall-E 3
Der Bildgenerator von OpenAI, der in ChatGPT Plus, sowie dem Bing Chat enthalten ist.
Adobe Firefly
Die txt2img Antwort hinter Adobe Sensei und nur einer von vielen KI-Bausteinen auf dem Adobe-Vormarsch. Zur Nutzung braucht man einen Adobe Account.
Midjourney
Bisher nur auf Discord nutzbar, aber die eigene Webapp ist zum Greifen nahe! Die neueste Version v6 ist ein neuer guter Sprung nach vorne.
Stable Diffusion
Hier wirds komplizierter. Stable Diffusion ist eine Open Source Technik zur Bildgenerierung – da diese Technik frei zugänglich ist, gibt es unzählige Anbieter und Tools, mit denen man Bilder generieren kann. Für diesen Test haben wir eine lokale Fooocus Installation und das Modell Juggernaut XL v6 genutzt.
So haben wir getestet
Für einen fairen Kampf haben wir allen Bildgeneratoren die gleichen Prompts gefüttert, ohne sie auf das jeweilige System hin zu optimieren. Wir haben also auf spezielle Prompttechniken und Einsatz von Extensions & Co. verzichtet. Wir haben mit jedem Tool vier Bilder erzeugt und diese direkt verwendet – eine selektierte Auswahl hat also auch nicht stattgefunden, so dass ihr euch hier ein reales Bild vom Output der verschiedenen Bild-KI Tools und Anbieter machen könnt.
Alle Bilder wurden am 01.01.-02.01.2024 generiert.
Illustration
Abstrakt & künstlerisch
Prompt: fantasy 3d illustration of a colorful cat, centered, looking at viewer, psychedelic art, abstract, ehemeral, elusive and unstable, psychedelic background, oil painting texture
Fazit
Prompt: Wird akurat bei allen Tools & Anbietern wiedergegeben
Ästhethik:
- Dall-E neigt eher zu soften und gefälligen Ergebenissen
- Firefly erlaubt sich künstlerische Freiheiten und Varianz in den Ergebnissen
- Midjourney ist sehr bold und kontrastreich, gefällt
- Stable Diffusion: Weißt am meisten Details auf
Hier hängt die Entscheidung also an der gewünschten Ästhethik
Vektor Illustration
Prompt: flat vector illustration of a man sitting at a desk with his laptop, puppy, isolated on a white background, simple, minimalistic, closeup
Fazit
Prompt: Dieser simple Prompt führt durchweg zu brauchbaren Ergebnissen. Keine Totalausfälle.
Ästhethik:
- Dall-E 3 ist sehr detailliert unterwegs und setzt auf eher kalte Töne, da es das Motiv eher mit der Techbranche in Verbindung bringt.
- Firefly liefert solide Ergebnisse in unterschiedlichen Stilen ab.
- Midjourney wieder mal sehr ansprechend und zumindest in 50% der Fälle nahe am Prompt. Neutrale Farbgebung und keine starke Tendenz in eine spezielle Richtung. Sehr solide und gute Ausgangslage.
- Stable Diffusion: Schlicht, auf den Punkt. Passt.
Fazit: Hier können fast alle punkten. Umso simpler der Stil, umso besser werden die Ergebnisse bei allen Tools und Anbietern.
Fotografie
Illustrative Fotografie
Prompt: photo of a frail old man with clenched fist yelling wearing glasses and an old faded pinkish shirt with a tie around his neck and looking at a threatening storm cloud, cinematic, detailed, atmospheric, dramatic light
Fazit
Prompt: Wird akurat bei allen Tools & Anbietern wiedergegeben
Ästhethik:
- Dall-E neigt zu sehr ähnlichen Ausführungen, die alle leicht wachsig und künstlich daherkommen
- Firefly schafft einen natürlichen look, setzt dabei aber auf starke frontale Ausleuchtung, obwohl das keine Vorgabe war. Größter Dämpfer hier ist aber die Qualität – beim Darstellung in Originalgröße zeigen sich starke Artefakte und Komprimierungen, die die Ergebnisse relativ unbrauchbar machen.
- Midjourney zeigt wieder seine typischen starken Kontraste, was diesem Motiv zu Gute kommt. Hier kommt die Szenerie und Emotion am besten rüber.
- Stable Diffusion: Neutrale und gute Ergebnisse
Hier hängt die Entscheidung also an der gewünschten Ästhethik, nur Adobe Firefly ist qualitativ ein Totalausfall. Ein Trend der sich fortsetzen wird?
Portraitfotografie
Prompt: portrait photo of a 40 year old business woman, streets of munich
Fazit
Prompt: Wird akurat bei allen Tools & Anbietern wiedergegeben
Ästhethik:
- Dall-E neigt auch hier wieder zu sehr ähnlichen Ausführungen, die alle leicht wachsig und künstlich daherkommen – eher wie ein überzeichneter Pixar Charakter, als ein Foto einer echten Frau
- Firefly schafft zwar ein realitätsnahen Output mit „echten“ Menschen, weicht dabei aber leider qualitativ deutlich von der Konkurrenz ab. Beim Thema Foto zeigen sich hier große Schwächen.
- Midjourney liefert ordentlich ab, auch wenn die Frauen teils zu jung wirken.
- Stable Diffusion: Neutrale und gute Ergebnisse
Hier kann man zwischen Midjourney und Stable Diffusion wählen. Wer ein stylisches Ergebnis haben möchte, sollte MJ nutzen. Für neutralere und lebensnahere Bilder ist SD die bessere Wahl.
Fotografie fantasievoll
Prompt: photo of a sea monster drinking a soda with a drinking straw, underwater, deep sea, fantasy, abstract
Fazit
Prompt: Der Prompt wird von fast allen Tools gut wiedergegeben – nur Midjourney liegt hier teils spektakulär daneben.
Ästhethik:
- Dall-E scheint bei fantasievollen Fotos oder „Fotorealismus“ gut seine Stärken ausspielen zu können. Das gepaart mit guter Promptinterpretation sorgt für solide Ergebnisse
- Firefly zeigt hier, dass die Entwicklung auf dem richtigen Weg ist. Die Ergebnisse sind schon ganz ok, aber sind leider noch zu fehlerbehaftet.
- Midjourney schafft es mal wieder die schönste Ästhethik und Detailverliebtheit mit schlechter Promptwiedergabe zu paaren. Schön, aber leider Themaverfehlung.
- Stable Diffusion: Solide! Nur mehr Varianz bei den Mäulern hätte dem ganzen gut getan.
Fazit: Dall-E 3 legt hier gut vor und ist aus meiner Sicht gleich auf mit Stable Diffusion. Adobe Firefly hingegen hat hier noch etwas aufzuholen. Midjourney schafft die visuell ansprechendsten Ergebnisse, verfehlt aber leider inhaltlich den Sieg.
Interiordesign
Prompt: photo of a dining room with large doors and modern swedish furniture, decorated in a bright warm and earthy color scheme, hygge style
Fazit
Prompt: Hier können wieder alle Tools und Anbieter punkten. Inhaltlich wird der Prompt größtenteils korrekt wiedergegeben.
Ästhethik:
- Dall-E 3 weiß zu gefallen. Viele Details, korrekte Darstellung der Möbel, sehr ansprechend!
- Firefly sieht oberflächlich betrachtet ganz gut aus, aber hier zeigt sich wieder die große Schwäche bei Fotografie: Die Qualität ist unterirdisch.
- Midjourney liefert wieder sehr ansprechende Ergebnisse ab (auch wenn wieder leicht am Prompt vorbei). Ich würde da einziehen.
- Stable Diffusion zeigt wiedermal sehr solide Ergebnisse, auch wenn man manche Möbel nicht zu genau ansehen darf.
Fazit: Bis auf Adobe Firefly sind alle Tools und Anbieter hier stark unterwegs. Chapeau!
Grafik
Logodesign illustrativ
Prompt: Coffee logo, featuring a mushroom cloud coming out of a cup, the cloud looks like brains, full colour print, vintage colours, 1960s
Fazit
Prompt: Ein recht komplexer Prompt und mit „mushroom cloud“ auch noch eine gefährliche Verwechslungsgefahr für so manches Modell.
Ästhethik:
- Dall-E zeigt hier seine größte Stärke: Verständnis für komplexe Prompts. Hier ist nicht nur die Wiedergabe aller Elemente aus dem Prompt getroffen, sondern auch noch das Wort „Coffee“ mit integriert.
- Firefly ist hier auch sehr stark, lässt aber erahnen, dass mushroom clooud ein gefährlicher Begriff ist.
- Midjourney liefert schöne Ergebnisse, aber leider weit fernab des Prompts.
- Stable Diffusion: Pilz-Kaffee anyone?
Fazit: Bei diesem Prompt liegen Dall-E 3 und Firefly gut vorne. Midjourney zeigt zwar inhaltlich falsche Ergebnisse, aber ist dabei immerhin eine gute Quelle der Inspiration. Stable Diffusion liegt gut im Mittelfeld, aber taugt auch hier eher nur zur Inspiration.
Webdesign – UI/UX Design
Prompt: a beautiful website landing page for a tech company, modern, minimalistic, blue and orange color scheme, ui, ux, ui/ux
Fazit
Prompt: Hier merkt man den Mangel an Trainingsdaten bei allen Tools & Modellen. Firefly versucht sich eher an Illustrierten Hero-Sektionen, Dall-E produziert eher Apps im Look der ersten iPhone Generationen. Einzig Midjourney und Stable Diffusion sind näher dran.
Ästhethik:
- Dall-E liefert hier Designs in einem überzeichneten 3D Look ab, die eher an alte überladene App-Designs erinnern.
- Firefly will lieber detaillierte Illustrationen und Kompositionen abliefern. Als Inspiration ganz gut, aber Landingpages sind das keine.
- Midjourney bringt den Look & Feel von Tech Landingpages schon ganz gut auf den Punkt und kann gut als Inspiration dienen.
- Stable Diffusion: Wiedermal solide und eine gute Inspirationsquelle
Fazit: Webdesigner sollten sich besser mit Midjourney und Stable Diffusion auseinandersetzen um Inspiration für die nächsten Projekte zu generieren.
Packagingdesign
Prompt: a realistic standup pouch product photo mockup decorated with coffee beans and Coffee-leaves with the words „SCHWARZER KAFFEE JUNGE“ featured prominently, scifi, on the moon, space, stars, night
Fazit
Prompt: Wir waren aber auch fies. Nicht nur ist der Prompt an sich schon voller konträrer Anforderungen, nein, wir haben auch noch Schrift mit integriert. Beim Thema Typografie ist derzeit noch kein Tool wirklich nutzbar, aber man sieht klar wer die Nase vorn hat: Dall-E 3 und Stable Diffusion versuchen es wenigstens.
Ästhethik:
- Dall-E 3 sorgt dafür, dass ich sofort eine Packung kaufen will. Absolut überzeugende Darbietung sowohl inhahltlich als auch bei Ästhethik.
- Firefly : Setzen, 6.
- Midjourney mal wieder schön, aber halt weit am Prompt vorbei.
- Stable Diffusion: Inhaltlich on par mit Dall-E 3 aber neutralere Darstellung. Gefällt!
Fazit: Dall-E 3 und Stable Diffusion können hier eine starke Inspirationsquelle für Grafikdesigner und Packagingdesigner sein.
PS: Wer die Referenz versteht, bekommt einen Kaffee von mir! Schreibt mir ☕
Fazit
Wir hatten eine Menge Spaß alle wichtigen Bild-KI Anbieter und Tools gegeneinander antreten zu lassen. In den letzten 1,5 Jahren ist extrem viel passiert und der Markt ist und bleibt nach wie vor spannend und im ständigen Fluss.
Hier unsere Einschätzung vom 02.01.2024:
Dall-E 3
Gut geeignet für Illustrationen, komplexe Szenen und hohen Detailgrad. Die größten Schwächen zeigen sich beim Thema Fotografie und Realismus. Wer mal schnell und unkompliziert ein Bild generieren will, ist hier richtig. Innerhalb von ChatGPT könnt ihr die Bildgenerierung nur in der Bezahlvariante testen. Hier gehts lang.
Adobe Firefly
Puh. Auch wenn Adobe beim Thema generative Füllung schon gut vorgelegt hat und sich damit bei vielen Kreativen weltweit sehr beliebt gemacht hat, fehlt es beim Thema txt2img teils noch massiv. Fotografie ist generell noch ein Totalausfall und auch in anderen Bereichen zeigen sich noch starke Schwächen. Aktuell würde ich größtenteils zur Konkurrenz greifen. Hier könnt ihr es selnst testen.
Midjourney
Midjourney war schon immer bekannt dafür schöne Ergebnisse zu liefern und daran hat sich bis heute nichts geändert. Durch die Pipeline im Hintergrund erhält man fast immer visuell ansprechende und spannende Ergebnisse mit starken Kontrasten – nur leider hapert es häufig noch an der korrekten Wiedergabe von Prompts. Bei wem die Ästhetik über dem Inhalt steht, ist hier genau richtig. Auch der Makel von Discord als Plattform ist bald Geschichte, denn die eigene Webapp ist bereits in der Testphase und bald hier zugänglich.
Stable Diffusion
Stable Diffusion gilt als das Schweizer Taschenmesser der Bild-KIs. Mit seiner Flexibilität und den unzähligen Modellen bietet es eine unglaubliche Bandbreite an Möglichkeiten, besonders im kommerziellen Kontext. Für diejenigen, die Kontrolle und individuelle Anpassungsmöglichkeiten suchen und bereit sind, sich technisch etwas mehr zu engagieren, bietet Stable Diffusion den größten Spielraum und die vielfältigsten Optionen.
Schlussendlich sollte das gewünschte Ergebnis über die Wahl des Tools entscheiden. Jedes hat seine Stärken und Schwächen und setzt unterschiedliche Skilllevel und die Bereitschaft zur Einarbeitung voraus. In unserem KI Marketing Bootcamp erklären wir euch die technischen Hintergründe dazu und zeigen dir im Workshop-Teil die Chancen und Limitierungen von generative Bild-KI.