Stable Diffusion 3 Medium: Ernüchterung statt Begeisterung

Hohe Erwartungen an Stable Diffusion 3

Die Veröffentlichung von Stable Diffusion 3 (SD3) wurde von der KI-Community sehnsüchtig erwartet. Nach den beeindruckenden Ergebnissen, die SD3 Large bereits seit April über die API von Stability AI lieferte, waren die Erwartungen an einen offenen Release für die lokale Nutzung entsprechend hoch. Umso größer war die Enttäuschung, als vergangene Woche statt der erhofften Large-Variante lediglich SD3 Medium mit 2 Milliarden Parametern freigegeben wurde.

Inhaltsverzeichnis

SD3 Medium: Unbrauchbar durch übermäßige Zensur

Leider hat sich schnell herausgestellt, dass SD3 Medium in seiner jetzigen Form praktisch unbrauchbar ist. Der Versuch, das Modell durch strengere Zensur und das Blockieren von Teilen der menschlichen Anatomie „sicherer“ zu machen, hat zu gravierenden Einschränkungen geführt. Insbesondere die Darstellung weiblicher Körper scheint stark beeinträchtigt zu sein, wie zahlreiche Tests und Memes in der Community belegen.

Überblick und persönliche Erfahrungen

In diesem Blogbeitrag möchte ich näher auf die Probleme von SD3 Medium eingehen, die Hintergründe beleuchten und einen Ausblick auf die mögliche Zukunft von Stable Diffusion geben. Dabei werde ich auch meine eigenen Erfahrungen mit SD3 Large über die API teilen und erklären, warum die aktuelle Situation für Nutzer und Entwickler gleichermaßen frustrierend ist.

Das Potential von SD3 Large

Beeindruckende Ergebnisse über die Stability AI API

Seit April haben Nutzer die Möglichkeit, SD3 Large über die API von Stability AI zu testen. Die dabei erzielten Ergebnisse sind durchweg beeindruckend und zeigen das enorme Potenzial des Modells. Die generierten Bilder zeichnen sich durch eine hohe Detailgenauigkeit, Kohärenz und Vielseitigkeit aus. Selbst komplexe Szenen und abstrakte Konzepte werden überzeugend umgesetzt, ohne dass störende Artefakte oder Verzerrungen auftreten.

Vergleich mit anderen populären Modellen

Im direkten Vergleich mit anderen beliebten Modellen wie SDXL und Tools wie Midjourney, Adobe Firefly und Dall-E  schneidet SD3 Large in vielen Bereichen besser ab. Die Verbesserungen sind insbesondere bei der Generierung von Gesichtern, Körpern und Texturen sichtbar. Auch die Farbwiedergabe und die Gesamtkomposition der Bilder wirken oft stimmiger und ästhetisch ansprechender. 

Persönliche Erfahrungen und Blogbeitrag

Ich selbst habe SD3 Large ausgiebig über die API getestet und war von den Ergebnissen absolut begeistert. In meinem separaten Blogbeitrag  gehe ich näher auf meine Erfahrungen ein und zeige anhand vieler Beispiele, wozu das Modell in der Lage ist. Es ist wirklich beeindruckend zu sehen, wie weit die Text-to-Image-Technologie inzwischen fortgeschritten ist und welche kreativen Möglichkeiten sich dadurch eröffnen.

 

Insgesamt lässt sich sagen, dass SD3 Large einen bedeutenden Meilenstein in der Entwicklung von KI-gestützter Bildgenerierung darstellt. Das Modell setzt neue Maßstäbe in Bezug auf Qualität, Flexibilität und Benutzerfreundlichkeit. Umso bedauerlicher ist es, dass bisher nur die eingeschränkte Medium-Variante für die breite Öffentlichkeit zugänglich ist, die das volle Potenzial von SD3 nicht annähernd widerspiegelt.

Die Probleme mit SD3 Medium

Unbrauchbarkeit durch übermäßige Zensur

Die Veröffentlichung von SD3 Medium hat in der Community für große Enttäuschung und Frust gesorgt. Der Hauptgrund dafür liegt in der übermäßigen Zensur, die Stability AI bei diesem Modell angewendet hat. In dem Bestreben, das Modell „sicherer“ zu machen und potenzielle rechtliche Probleme zu vermeiden, wurden große Teile der menschlichen Anatomie durch die Encoder blockiert oder stark verfremdet.

Probleme bei der Darstellung weiblicher Körper

Besonders auffällig sind die Schwierigkeiten bei der Generierung weiblicher Körper. Das Modell scheint in diesem Bereich massiv eingeschränkt zu sein, was zu bizarren Verzerrungen und anatomisch unmöglichen Darstellungen führt. Der Prompt „photo of a young woman lying down in grass“ ist inzwischen zu einem Meme in der Community geworden, da die Ergebnisse oft unfreiwillig komisch oder sogar verstörend wirken.

Vergleich mit den Fehlern bei SD2

Die Situation erinnert an die Probleme, die es bereits bei der Veröffentlichung von Stable Diffusion 2 gab. Auch damals führte eine zu strenge Zensur dazu, dass das Modell in vielen Bereichen praktisch unbrauchbar war. Die Community reagierte darauf, indem sie das Modell weitgehend ignorierte und stattdessen auf Alternativen wie SDXL setzte, die bessere Ergebnisse lieferten.

 

Einschränkungen auch in anderen Bereichen

Neben der Darstellung von Menschen sind auch andere Bereiche von den Einschränkungen betroffen. Selbst harmlose Alltagsgegenstände oder Landschaften können seltsam verzerrt oder unkenntlich gemacht werden, wenn sie zufällig Ähnlichkeiten mit zensierten Inhalten aufweisen. Dadurch wird die Verwendbarkeit von SD3 Medium für viele kreative Anwendungen stark eingeschränkt.

 

Fazit: SD3 Medium enttäuscht auf ganzer Linie Insgesamt lässt sich sagen, dass SD3 Medium in seiner jetzigen Form die Erwartungen der Community vollkommen enttäuscht hat. Das Modell ist aufgrund der übermäßigen Zensur und der damit einhergehenden Qualitätseinbußen für die meisten Anwendungsfälle ungeeignet. Es bleibt zu hoffen, dass Stability AI schnell nachbessert und eine Version veröffentlicht, die das volle Potenzial von SD3 ausschöpft, ohne dabei die Kreativität der Nutzer unnötig einzuschränken.

 

SD3 Medium Meme-Kollektion

 

Hintergründe und Ursachen

Stabilitys Suche nach Monetarisierungsmöglichkeiten

Ein wesentlicher Grund für die Probleme mit SD3 Medium liegt in der schwierigen finanziellen Situation von Stability AI. Das Unternehmen ist nach wie vor auf der Suche nach tragfähigen Geschäftsmodellen, um die hohen Entwicklungskosten für seine KI-Modelle zu refinanzieren. Ein möglicher Weg, den Stability AI dabei einschlagen möchte, ist die Lizenzierung der Modelle für kommerzielle Anwendungen.

Interne Diskrepanzen bei der Veröffentlichungsstrategie

Wie ein Entwickler hinter ComfyUI, der auch an SD3 mitgearbeitet hat, nun enthüllt hat, gab es innerhalb von Stability AI unterschiedliche Ansichten darüber, welche Version von SD3 veröffentlicht werden sollte (hier gehts zum Reddit-Post). Während das Forschungsteam ursprünglich eine 2B-Variante als experimentellen Zwischenschritt entwickelt hatte, drängte die Unternehmensführung am Ende auf die Veröffentlichung genau dieser Version anstelle der leistungsstärkeren 4B- und 8B-Modelle.

Konflikt zwischen wirtschaftlichen Interessen und Forschung

Diese Entscheidung mag aus kommerzieller Sicht nachvollziehbar sein, da sich Stability AI davon vermutlich bessere Monetarisierungsmöglichkeiten und eine stärkere Kontrolle über die Nutzung des Modells verspricht. Allerdings offenbart sich hier auch eine Diskrepanz zwischen den Interessen des Unternehmens und denen der Forschung und Community. Für die Entwickler, die viel Zeit und Arbeit in die Verbesserung von SD3 gesteckt haben, ist es frustrierend zu sehen, wie am Ende eine Version veröffentlicht wird, die hinter ihren eigentlichen Möglichkeiten zurückbleibt.

Negative Folgen der Zensur und Lizenzpolitik

Erschwerend kommt hinzu, dass Stability AI bei SD3 Medium durch strenge Zensur und restriktive Lizenzbedingungen versucht hat, mögliche Haftungsrisiken zu minimieren. Diese Maßnahmen haben jedoch nicht nur die Qualität und Nutzbarkeit des Modells beeinträchtigt, sondern auch viele potenzielle Anwender und Entwickler abgeschreckt. Die Unzufriedenheit in der Community ist entsprechend groß.

Notwendigkeit von Transparenz und Dialog

Die aktuellen Entwicklungen zeigen, wie wichtig eine offene und transparente Kommunikation zwischen Stability AI, seinen Mitarbeitern und der Community ist. Das Unternehmen sollte die Bedenken und Wünsche aller Beteiligten ernst nehmen und nach Wegen suchen, die unterschiedlichen Interessen bestmöglich in Einklang zu bringen. Nur durch einen konstruktiven Dialog und die Bereitschaft zum Kompromiss kann Stability AI langfristig erfolgreich sein und seine führende Position im Bereich der Text-to-Image-Modelle behaupten.

Temporärer SD3-Bann auf CivitAI

Hintergrund des vorübergehenden Verbots

Die beliebte Plattform CivitAI, die sich als Anlaufstelle für die Stable Diffusion Community etabliert hat, sah sich aufgrund der unklaren Lizenzbestimmungen von SD3 dazu gezwungen, vorübergehend alle Modelle und Ableitungen, die auf SD3 basieren, von der Plattform zu verbannen. Dieser Schritt erfolgte aus Vorsicht, um mögliche rechtliche Konsequenzen zu vermeiden. Hier gehts zum Blogartikel mit den Erläuterungen dazu. 

Unsicherheiten durch restriktive Lizenzbedingungen

Hauptgrund für die Entscheidung von CivitAI sind die potenziell weitreichenden Einschränkungen, die sich aus den Lizenzbedingungen von SD3 ergeben könnten. Es besteht die Befürchtung, dass Stability AI durch die Lizenz nicht nur die Kontrolle über die Nutzung von SD3 selbst, sondern auch über alle davon abgeleiteten Modelle und sogar über Datensätze, die SD3-Outputs enthalten, erlangen könnte.

Risiken für die Community und Entwickler

Sollten sich diese Befürchtungen bewahrheiten, hätte dies gravierende Folgen für die gesamte Stable Diffusion Community. Entwickler, die auf SD3 aufbauen, müssten möglicherweise ihre Modelle von Plattformen wie CivitAI entfernen oder riskieren rechtliche Schritte. Auch Nutzer, die SD3-Outputs in ihre Datensätze integrieren, könnten betroffen sein.

Mögliche Konsequenzen und Zukunftsszenarien

Im schlimmsten Fall könnte sich Stability AI oder ein zukünftiger Eigentümer der Lizenzrechte dazu entschließen, rückwirkend Gebühren oder Mitgliedsbeiträge für die Nutzung von SD3 und davon abgeleiteten Modellen zu verlangen. Ein solches Szenario hätte verheerende Auswirkungen auf die Kreativität und Zusammenarbeit innerhalb der Community und könnte viele vielversprechende Projekte im Keim ersticken.

Aufruf zur Vorsicht und Hoffnung auf Klärung

CivitAI hat mit dem temporären SD3-Bann eine mutige, aber notwendige Entscheidung getroffen, um die Interessen der Community zu schützen. Gleichzeitig ist dies ein Weckruf an alle Entwickler und Nutzer, die Lizenzbestimmungen von SD3 genau zu prüfen und sich der potenziellen Risiken bewusst zu sein. Es bleibt zu hoffen, dass Stability AI schnell für Klarheit sorgt und eine Lösung findet, die den Bedürfnissen aller Beteiligten gerecht wird.

Ausblick und Empfehlungen

Notwendigkeit einer Kurskorrektur bei Stability AI

Die Veröffentlichung von SD3 Medium hat gezeigt, dass Stability AI dringend umdenken muss, wenn das Unternehmen seine führende Position im Bereich der Text-to-Image-Modelle behaupten will. Eine Fortsetzung der bisherigen Strategie, die auf übermäßige Zensur und restriktive Lizenzierung setzt, wird langfristig weder die Community noch potenzielle Geschäftskunden zufriedenstellen.

Zeitnahe Veröffentlichung von SD3 Large

Ein erster wichtiger Schritt wäre die möglichst zeitnahe Veröffentlichung von SD3 in seiner vollen Leistungsfähigkeit, also der 4B- oder 8B-Variante. Nur so kann Stability AI das enorme Potenzial des Modells ausschöpfen und den hohen Erwartungen der Nutzer gerecht werden. Eine solche Veröffentlichung sollte mit einer Anpassung der Lizenzbestimmungen einhergehen, die eine freie und kreative Nutzung des Modells ermöglicht.

Model: SD3 Large über API - Prompt: closeup of a robotic woman holding a crystal ball that shows the (future:1.5), ai, elegant, white color scheme

Empfehlungen für Nutzer und Entwickler

Bis dahin bleibt Nutzern und Entwicklern nur, auf bewährte Alternativen zurückzugreifen. Modelle wie SDXL oder SD3 über die API von Stability AI bieten bereits jetzt hervorragende Ergebnisse und können die meisten Anwendungsfälle abdecken. Auch andere vielversprechende Projekte wie Midjourney oder DALL-E 2 sind einen Blick wert.

Chancen durch Kooperation und Wettbewerb

Die aktuelle Situation rund um SD3 zeigt aber auch, dass die Text-to-Image-Branche in Bewegung ist und sich ständig weiterentwickelt. Neben Stability AI gibt es eine Reihe anderer Akteure, die mit spannenden Ansätzen und Innovationen aufwarten. Dieser Wettbewerb ist letztlich gut für die Community, da er die Entwicklung immer besserer und nutzerfreundlicherer Modelle vorantreibt.

Hoffnung auf eine positive Zukunft

Trotz der aktuellen Enttäuschung über SD3 Medium gibt es also guten Grund, optimistisch in die Zukunft zu blicken. Wenn es Stability AI gelingt, die richtigen Lehren aus der jetzigen Situation zu ziehen und sich stärker an den Bedürfnissen der Community zu orientieren, hat das Unternehmen weiterhin beste Chancen, eine prägende Rolle in der Text-to-Image-Revolution zu spielen.

Du willst den KI-Hype nicht nur verstehen, sondern auch für dein Marketing nutzen? Dann ist das KI Marketing Bootcamp genau das Richtige für dich!

In nur 8 Stunden, verteilt auf drei Wochen, lernst du von den erfahrenen KI-Experten Vroni Hackl und Georg Neumann alles, was du brauchst, um generative KI strategisch und effizient einzusetzen. Egal ob Textgenerierung mit GPT-4, Bildkreation mit Stable Diffusion oder fortgeschrittene Anwendungen – im Bootcamp erhältst du das nötige Hintergrundwissen und praktische Skills für deinen Marketing-Alltag.

 

Keine Luftschlösser, sondern handfeste Strategien und Workflows stehen im Fokus. Sichere dir jetzt deinen Wettbewerbsvorsprung und melde dich noch heute an!

Das könnte Dich auch interessieren:
KI im Einsatz
Tagebuch einer Lernreise: Wie ich mit KI und n8n Prozesse automatisiere

Inhaltsverzeichnis Moin!   Ich bin Kathi, Teil des KI Marketing Bootcamps, und setze mich gerade intensiv damit auseinander, wie man sich mit Automatisierungen das Leben leichter machen kann.   Aktuell tauche ich tief in das Tool n8n ein – ein mächtiges No-Code-Werkzeug, mit dem sich wiederkehrende Abläufe im Marketing-Alltag automatisieren lassen. Unterstützt werde ich dabei von Marcel, der mir als Coach zeigt, wie man Prozesse strukturiert analysiert, visualisiert und schließlich so aufbaut, dass sie uns

Weiterlesen »
Aktuelles
Adobe Firefly Image 4: Qualität besser – aber viele runzeln die Stirn

„Adobe holt auf – aber reicht das?“ Georg hat’s letzte Woche auf LinkedIn treffend formuliert. Das neue Image 4 Modell liefert sichtbar bessere Ergebnisse – Gesichter, Hände, Details: alles deutlich realistischer. Aber dann kommt der Moment, in dem viele unwillkürlich die Stirn runzeln: Nur zehn Bilder pro Monat kostenlos, auch für zahlende Creative-Cloud-Nutzer:innen. Wer mehr will – oder Zugang zu den neuen externen Modellen wie Google Imagen oder OpenAI Image 1 – darf zusätzlich zahlen.

Weiterlesen »
Aktuelles
Mistral Le Chat: Was die kostenlose Beta jetzt wirklich kann

Mistral Le Chat ist kein neues Tool – bereits 2024 als Open-Source-Alternative zu ChatGPT vorgestellt, war es vor allem in Entwicklerkreisen ein Gesprächsthema. Doch während das Unternehmen Mistral durch seine leistungsfähigen Modelle wie „Mixtral“ früh Aufmerksamkeit bekam, blieb der hauseigene Chatbot für viele eher im Hintergrund.   Mit dem Update im Winter und dem aktuellen Beta-Zugang hat sich das verändert. Die Webversion von Le Chat bietet inzwischen eine ganze Reihe praktischer Funktionen – und das

Weiterlesen »
Aktuelles
ChatGPT-Features für Marketer: Deep Research, Canvas, Projects, Custom GPTs & Co

In den letzten beiden Blogbeiträgen haben wir uns bereits intensiv mit den unterschiedlichen OpenAI-Modellen (hier geht’s zum Vergleich der Modelle) und der Nutzung des neuen Bildgenerators (mehr dazu hier) beschäftigt. Heute werfen wir einen genaueren Blick auf die spannenden Funktionen, die OpenAI innerhalb von ChatGPT anbietet – und wie du sie gezielt für dein Marketing nutzen kannst. Inhaltsverzeichnis Zack zack – hier direkt zur Übersicht! Canvas: Interaktives Schreiben mit KI Canvas ist eine Benutzeroberfläche in

Weiterlesen »
Aktuelles
Mehr als nur Text: So nutzt du den ChatGPT 4o Image Generator fürs Marketing

Wir kennen ChatGPT längst als zuverlässigen Texter, der uns bei allem von Headlines bis Blogartikeln unterstützt. Doch mittlerweile kann er noch mehr – und zwar Bilder erstellen. Nicht wirklich neu für alle, die sich mit KI beschäftigen, aber spannend bleibt’s trotzdem: Aus dem reinen Schreibassistenten wird ein visueller Kreativpartner. Und das Beste? Alles läuft direkt im gewohnten Chatfenster ab – ganz ohne Toolswitch. Für uns im Marketing eröffnet das neue Möglichkeiten: Content-Ideen lassen sich schneller

Weiterlesen »
Aktuelles
OpenAI-Modelle im Vergleich: GPT-4o, GPT-4.5, o3 & Co für Marketing-Teams

Gefühlt gibt es plötzlich ein halbes Dutzend verschiedene ChatGPT-Modelle – und ständig kommt ein neues dazu. GPT-4, GPT-4o, GPT-4.5, o1, o3 Mini, Mini High, Turbo… Moment mal – was soll das alles eigentlich heißen? Für viele fühlt sich das ein bisschen an wie ein Upgrade-Dschungel: Man will einfach nur wissen, was das richtige Modell für den eigenen Use Case ist – und wird stattdessen mit Abkürzungen, Preisen und Features bombardiert. Aber keine Sorge: Genau darum

Weiterlesen »

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳