Stable Diffusion 3 Medium: Ernüchterung statt Begeisterung

Hohe Erwartungen an Stable Diffusion 3

Die Veröffentlichung von Stable Diffusion 3 (SD3) wurde von der KI-Community sehnsüchtig erwartet. Nach den beeindruckenden Ergebnissen, die SD3 Large bereits seit April über die API von Stability AI lieferte, waren die Erwartungen an einen offenen Release für die lokale Nutzung entsprechend hoch. Umso größer war die Enttäuschung, als vergangene Woche statt der erhofften Large-Variante lediglich SD3 Medium mit 2 Milliarden Parametern freigegeben wurde.

Inhaltsverzeichnis

SD3 Medium: Unbrauchbar durch übermäßige Zensur

Leider hat sich schnell herausgestellt, dass SD3 Medium in seiner jetzigen Form praktisch unbrauchbar ist. Der Versuch, das Modell durch strengere Zensur und das Blockieren von Teilen der menschlichen Anatomie „sicherer“ zu machen, hat zu gravierenden Einschränkungen geführt. Insbesondere die Darstellung weiblicher Körper scheint stark beeinträchtigt zu sein, wie zahlreiche Tests und Memes in der Community belegen.

Überblick und persönliche Erfahrungen

In diesem Blogbeitrag möchte ich näher auf die Probleme von SD3 Medium eingehen, die Hintergründe beleuchten und einen Ausblick auf die mögliche Zukunft von Stable Diffusion geben. Dabei werde ich auch meine eigenen Erfahrungen mit SD3 Large über die API teilen und erklären, warum die aktuelle Situation für Nutzer und Entwickler gleichermaßen frustrierend ist.

Das Potential von SD3 Large

Beeindruckende Ergebnisse über die Stability AI API

Seit April haben Nutzer die Möglichkeit, SD3 Large über die API von Stability AI zu testen. Die dabei erzielten Ergebnisse sind durchweg beeindruckend und zeigen das enorme Potenzial des Modells. Die generierten Bilder zeichnen sich durch eine hohe Detailgenauigkeit, Kohärenz und Vielseitigkeit aus. Selbst komplexe Szenen und abstrakte Konzepte werden überzeugend umgesetzt, ohne dass störende Artefakte oder Verzerrungen auftreten.

Vergleich mit anderen populären Modellen

Im direkten Vergleich mit anderen beliebten Modellen wie SDXL und Tools wie Midjourney, Adobe Firefly und Dall-E  schneidet SD3 Large in vielen Bereichen besser ab. Die Verbesserungen sind insbesondere bei der Generierung von Gesichtern, Körpern und Texturen sichtbar. Auch die Farbwiedergabe und die Gesamtkomposition der Bilder wirken oft stimmiger und ästhetisch ansprechender. 

Persönliche Erfahrungen und Blogbeitrag

Ich selbst habe SD3 Large ausgiebig über die API getestet und war von den Ergebnissen absolut begeistert. In meinem separaten Blogbeitrag  gehe ich näher auf meine Erfahrungen ein und zeige anhand vieler Beispiele, wozu das Modell in der Lage ist. Es ist wirklich beeindruckend zu sehen, wie weit die Text-to-Image-Technologie inzwischen fortgeschritten ist und welche kreativen Möglichkeiten sich dadurch eröffnen.

 

Insgesamt lässt sich sagen, dass SD3 Large einen bedeutenden Meilenstein in der Entwicklung von KI-gestützter Bildgenerierung darstellt. Das Modell setzt neue Maßstäbe in Bezug auf Qualität, Flexibilität und Benutzerfreundlichkeit. Umso bedauerlicher ist es, dass bisher nur die eingeschränkte Medium-Variante für die breite Öffentlichkeit zugänglich ist, die das volle Potenzial von SD3 nicht annähernd widerspiegelt.

Die Probleme mit SD3 Medium

Unbrauchbarkeit durch übermäßige Zensur

Die Veröffentlichung von SD3 Medium hat in der Community für große Enttäuschung und Frust gesorgt. Der Hauptgrund dafür liegt in der übermäßigen Zensur, die Stability AI bei diesem Modell angewendet hat. In dem Bestreben, das Modell „sicherer“ zu machen und potenzielle rechtliche Probleme zu vermeiden, wurden große Teile der menschlichen Anatomie durch die Encoder blockiert oder stark verfremdet.

Probleme bei der Darstellung weiblicher Körper

Besonders auffällig sind die Schwierigkeiten bei der Generierung weiblicher Körper. Das Modell scheint in diesem Bereich massiv eingeschränkt zu sein, was zu bizarren Verzerrungen und anatomisch unmöglichen Darstellungen führt. Der Prompt „photo of a young woman lying down in grass“ ist inzwischen zu einem Meme in der Community geworden, da die Ergebnisse oft unfreiwillig komisch oder sogar verstörend wirken.

Vergleich mit den Fehlern bei SD2

Die Situation erinnert an die Probleme, die es bereits bei der Veröffentlichung von Stable Diffusion 2 gab. Auch damals führte eine zu strenge Zensur dazu, dass das Modell in vielen Bereichen praktisch unbrauchbar war. Die Community reagierte darauf, indem sie das Modell weitgehend ignorierte und stattdessen auf Alternativen wie SDXL setzte, die bessere Ergebnisse lieferten.

 

Einschränkungen auch in anderen Bereichen

Neben der Darstellung von Menschen sind auch andere Bereiche von den Einschränkungen betroffen. Selbst harmlose Alltagsgegenstände oder Landschaften können seltsam verzerrt oder unkenntlich gemacht werden, wenn sie zufällig Ähnlichkeiten mit zensierten Inhalten aufweisen. Dadurch wird die Verwendbarkeit von SD3 Medium für viele kreative Anwendungen stark eingeschränkt.

 

Fazit: SD3 Medium enttäuscht auf ganzer Linie Insgesamt lässt sich sagen, dass SD3 Medium in seiner jetzigen Form die Erwartungen der Community vollkommen enttäuscht hat. Das Modell ist aufgrund der übermäßigen Zensur und der damit einhergehenden Qualitätseinbußen für die meisten Anwendungsfälle ungeeignet. Es bleibt zu hoffen, dass Stability AI schnell nachbessert und eine Version veröffentlicht, die das volle Potenzial von SD3 ausschöpft, ohne dabei die Kreativität der Nutzer unnötig einzuschränken.

 

SD3 Medium Meme-Kollektion

 

Hintergründe und Ursachen

Stabilitys Suche nach Monetarisierungsmöglichkeiten

Ein wesentlicher Grund für die Probleme mit SD3 Medium liegt in der schwierigen finanziellen Situation von Stability AI. Das Unternehmen ist nach wie vor auf der Suche nach tragfähigen Geschäftsmodellen, um die hohen Entwicklungskosten für seine KI-Modelle zu refinanzieren. Ein möglicher Weg, den Stability AI dabei einschlagen möchte, ist die Lizenzierung der Modelle für kommerzielle Anwendungen.

Interne Diskrepanzen bei der Veröffentlichungsstrategie

Wie ein Entwickler hinter ComfyUI, der auch an SD3 mitgearbeitet hat, nun enthüllt hat, gab es innerhalb von Stability AI unterschiedliche Ansichten darüber, welche Version von SD3 veröffentlicht werden sollte (hier gehts zum Reddit-Post). Während das Forschungsteam ursprünglich eine 2B-Variante als experimentellen Zwischenschritt entwickelt hatte, drängte die Unternehmensführung am Ende auf die Veröffentlichung genau dieser Version anstelle der leistungsstärkeren 4B- und 8B-Modelle.

Konflikt zwischen wirtschaftlichen Interessen und Forschung

Diese Entscheidung mag aus kommerzieller Sicht nachvollziehbar sein, da sich Stability AI davon vermutlich bessere Monetarisierungsmöglichkeiten und eine stärkere Kontrolle über die Nutzung des Modells verspricht. Allerdings offenbart sich hier auch eine Diskrepanz zwischen den Interessen des Unternehmens und denen der Forschung und Community. Für die Entwickler, die viel Zeit und Arbeit in die Verbesserung von SD3 gesteckt haben, ist es frustrierend zu sehen, wie am Ende eine Version veröffentlicht wird, die hinter ihren eigentlichen Möglichkeiten zurückbleibt.

Negative Folgen der Zensur und Lizenzpolitik

Erschwerend kommt hinzu, dass Stability AI bei SD3 Medium durch strenge Zensur und restriktive Lizenzbedingungen versucht hat, mögliche Haftungsrisiken zu minimieren. Diese Maßnahmen haben jedoch nicht nur die Qualität und Nutzbarkeit des Modells beeinträchtigt, sondern auch viele potenzielle Anwender und Entwickler abgeschreckt. Die Unzufriedenheit in der Community ist entsprechend groß.

Notwendigkeit von Transparenz und Dialog

Die aktuellen Entwicklungen zeigen, wie wichtig eine offene und transparente Kommunikation zwischen Stability AI, seinen Mitarbeitern und der Community ist. Das Unternehmen sollte die Bedenken und Wünsche aller Beteiligten ernst nehmen und nach Wegen suchen, die unterschiedlichen Interessen bestmöglich in Einklang zu bringen. Nur durch einen konstruktiven Dialog und die Bereitschaft zum Kompromiss kann Stability AI langfristig erfolgreich sein und seine führende Position im Bereich der Text-to-Image-Modelle behaupten.

Temporärer SD3-Bann auf CivitAI

Hintergrund des vorübergehenden Verbots

Die beliebte Plattform CivitAI, die sich als Anlaufstelle für die Stable Diffusion Community etabliert hat, sah sich aufgrund der unklaren Lizenzbestimmungen von SD3 dazu gezwungen, vorübergehend alle Modelle und Ableitungen, die auf SD3 basieren, von der Plattform zu verbannen. Dieser Schritt erfolgte aus Vorsicht, um mögliche rechtliche Konsequenzen zu vermeiden. Hier gehts zum Blogartikel mit den Erläuterungen dazu. 

Unsicherheiten durch restriktive Lizenzbedingungen

Hauptgrund für die Entscheidung von CivitAI sind die potenziell weitreichenden Einschränkungen, die sich aus den Lizenzbedingungen von SD3 ergeben könnten. Es besteht die Befürchtung, dass Stability AI durch die Lizenz nicht nur die Kontrolle über die Nutzung von SD3 selbst, sondern auch über alle davon abgeleiteten Modelle und sogar über Datensätze, die SD3-Outputs enthalten, erlangen könnte.

Risiken für die Community und Entwickler

Sollten sich diese Befürchtungen bewahrheiten, hätte dies gravierende Folgen für die gesamte Stable Diffusion Community. Entwickler, die auf SD3 aufbauen, müssten möglicherweise ihre Modelle von Plattformen wie CivitAI entfernen oder riskieren rechtliche Schritte. Auch Nutzer, die SD3-Outputs in ihre Datensätze integrieren, könnten betroffen sein.

Mögliche Konsequenzen und Zukunftsszenarien

Im schlimmsten Fall könnte sich Stability AI oder ein zukünftiger Eigentümer der Lizenzrechte dazu entschließen, rückwirkend Gebühren oder Mitgliedsbeiträge für die Nutzung von SD3 und davon abgeleiteten Modellen zu verlangen. Ein solches Szenario hätte verheerende Auswirkungen auf die Kreativität und Zusammenarbeit innerhalb der Community und könnte viele vielversprechende Projekte im Keim ersticken.

Aufruf zur Vorsicht und Hoffnung auf Klärung

CivitAI hat mit dem temporären SD3-Bann eine mutige, aber notwendige Entscheidung getroffen, um die Interessen der Community zu schützen. Gleichzeitig ist dies ein Weckruf an alle Entwickler und Nutzer, die Lizenzbestimmungen von SD3 genau zu prüfen und sich der potenziellen Risiken bewusst zu sein. Es bleibt zu hoffen, dass Stability AI schnell für Klarheit sorgt und eine Lösung findet, die den Bedürfnissen aller Beteiligten gerecht wird.

Ausblick und Empfehlungen

Notwendigkeit einer Kurskorrektur bei Stability AI

Die Veröffentlichung von SD3 Medium hat gezeigt, dass Stability AI dringend umdenken muss, wenn das Unternehmen seine führende Position im Bereich der Text-to-Image-Modelle behaupten will. Eine Fortsetzung der bisherigen Strategie, die auf übermäßige Zensur und restriktive Lizenzierung setzt, wird langfristig weder die Community noch potenzielle Geschäftskunden zufriedenstellen.

Zeitnahe Veröffentlichung von SD3 Large

Ein erster wichtiger Schritt wäre die möglichst zeitnahe Veröffentlichung von SD3 in seiner vollen Leistungsfähigkeit, also der 4B- oder 8B-Variante. Nur so kann Stability AI das enorme Potenzial des Modells ausschöpfen und den hohen Erwartungen der Nutzer gerecht werden. Eine solche Veröffentlichung sollte mit einer Anpassung der Lizenzbestimmungen einhergehen, die eine freie und kreative Nutzung des Modells ermöglicht.

Model: SD3 Large über API - Prompt: closeup of a robotic woman holding a crystal ball that shows the (future:1.5), ai, elegant, white color scheme

Empfehlungen für Nutzer und Entwickler

Bis dahin bleibt Nutzern und Entwicklern nur, auf bewährte Alternativen zurückzugreifen. Modelle wie SDXL oder SD3 über die API von Stability AI bieten bereits jetzt hervorragende Ergebnisse und können die meisten Anwendungsfälle abdecken. Auch andere vielversprechende Projekte wie Midjourney oder DALL-E 2 sind einen Blick wert.

Chancen durch Kooperation und Wettbewerb

Die aktuelle Situation rund um SD3 zeigt aber auch, dass die Text-to-Image-Branche in Bewegung ist und sich ständig weiterentwickelt. Neben Stability AI gibt es eine Reihe anderer Akteure, die mit spannenden Ansätzen und Innovationen aufwarten. Dieser Wettbewerb ist letztlich gut für die Community, da er die Entwicklung immer besserer und nutzerfreundlicherer Modelle vorantreibt.

Hoffnung auf eine positive Zukunft

Trotz der aktuellen Enttäuschung über SD3 Medium gibt es also guten Grund, optimistisch in die Zukunft zu blicken. Wenn es Stability AI gelingt, die richtigen Lehren aus der jetzigen Situation zu ziehen und sich stärker an den Bedürfnissen der Community zu orientieren, hat das Unternehmen weiterhin beste Chancen, eine prägende Rolle in der Text-to-Image-Revolution zu spielen.

Du willst den KI-Hype nicht nur verstehen, sondern auch für dein Marketing nutzen? Dann ist das KI Marketing Bootcamp genau das Richtige für dich!

In nur 8 Stunden, verteilt auf drei Wochen, lernst du von den erfahrenen KI-Experten Vroni Hackl und Georg Neumann alles, was du brauchst, um generative KI strategisch und effizient einzusetzen. Egal ob Textgenerierung mit GPT-4, Bildkreation mit Stable Diffusion oder fortgeschrittene Anwendungen – im Bootcamp erhältst du das nötige Hintergrundwissen und praktische Skills für deinen Marketing-Alltag.

 

Keine Luftschlösser, sondern handfeste Strategien und Workflows stehen im Fokus. Sichere dir jetzt deinen Wettbewerbsvorsprung und melde dich noch heute an!

Das könnte Dich auch interessieren:

KI im Einsatz

VDMB Jahresmagazin 2024: So haben wir die Bilder generiert

Manchmal entwickeln sich aus einem Workshop ganz besondere Projekte. So geschehen nach einer KI-Schulung in der VDMB Akademie, als die Anfrage kam, für das VDMB Jahresmagazin 2024 die Autorenportraits mittels künstlicher Intelligenz zu erstellen. Eine spannende Aufgabe, die nicht nur die Portraits der Autoren betraf, sondern auch in einem vierseitigen Interview über die Möglichkeiten von KI im Printbereich mündete. In diesem Artikel zeige ich dir, wie wir die KI-generierten Portraits für das Magazin entwickelt haben.

Weiterlesen »
KI im Einsatz

Flux LoRa Training: Freepik und krea.ai haben eure Daten zum Fressen gern

KI-generierte Bilder sind in aller Munde, und immer mehr Menschen möchten ihre eigenen KI-Modelle (LoRAs) trainieren. Sowohl krea.ai als auch Freepik bieten dafür benutzerfreundliche Services an, die das mittels Flux ermöglichen – doch was passiert eigentlich mit den Bildern, die man zum Training hochlädt? Ein genauer Blick in die Nutzungsbedingungen offenbart, dass beide Plattformen sich weitreichende Rechte an den hochgeladenen Inhalten sichern. Während Freepik zumindest die Nutzung für KI-Training ausschließt, behält sich krea.ai praktisch alle

Weiterlesen »
KI im Einsatz

Recraft V3: wie schlägt sich Red Panda gegen Midjourney und Flux?

Recraft V3, vormals als „Red Panda“ bekannt, setzt einen neuen Standard in der Text-zu-Bild-KI. Entwickelt vom Londoner Unternehmen Recraft unter der Leitung von KI-Expertin Anna Veronika Dorogush, kombiniert Recraft V3 beeindruckende Bildqualität mit hoher Funktionalität für professionelle Anwendungen.   Besonders für Marketing- und Designabteilungen bietet das Modell zahlreiche Vorteile: Es ermöglicht die Erstellung hochauflösender Bilder und skalierbarer Vektorgrafiken und bietet eine präzise Steuerung von Text- und Designelementen, wodurch markenkonforme Inhalte schnell und konsistent umgesetzt werden

Weiterlesen »
KI im Einsatz

Perplexity AI im Marketing nutzen: Schneller zu zuverlässigen Quellen

Du kennst das Problem: Die nächste Content-Idee steht, aber wo anfangen mit der Recherche? KI-Tools wie Perplexity AI bringen frischen Wind in den Bereich der Suchmaschinen – und das mit einem entscheidenden Vorteil: verlässliche Quellenangaben. Gerade für Marketer und Content Creator ist das ein echter Zugewinn. Perplexity ermöglicht es, in Echtzeit auf aktuelle Informationen zuzugreifen und die Quellen transparent einzusehen.   Seit letzter Woche gibt es neben Perplexity auch SearchGPT in der Pro-Version von ChatGPT

Weiterlesen »
Bootcamp

Was macht eine gute KI-Fortbildung im Marketing aus?

KI verändert das Marketing grundlegend. Aber zwischen YouTube-Tutorials und theoretischen Workshops ist es schwer, die richtige Fortbildung zu finden. Was unterscheidet also eine wirklich gute KI-Fortbildung von oberflächlichem Wissen? Inhaltsverzeichnis Was Marketer wirklich brauchen   Im modernen Marketing-Alltag sind praxisorientierte, effektive Lösungen wichtiger als theoretische technische Details. Erfolgreiche Marketer setzen heute auf intelligente KI-gestützte Strategien, die ihnen einen klaren Vorsprung verschaffen. Wenn du im Marketing spürbar vorankommen möchtest, gilt es, Zeitfresser zu automatisieren, deine Marketing-Ergebnisse

Weiterlesen »
KI im Einsatz

Black Forest Labs entfesselt FLUX1.1 [pro]: Konkurrenz für Midjourney & Co?

Stell dir vor: Du gibst ein paar Worte ein und zack – ein atemberaubendes Bild erscheint auf deinem Bildschirm. Das ist die Realität von FLUX1.1 [pro], der neuesten Version des KI-Bildgenerators von Black Forest Labs, den Machern von Stable Diffusion. Und was ist so besonders an diesem Update? Es ist sechsmal schneller als sein Vorgänger, liefert noch realistischere Bilder und hält sich präziser an deine Anweisungen. Kein Wunder, dass FLUX1.1 [pro] die Ranglisten stürmt und

Weiterlesen »

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳