Dall-E 3: Brillantes Textverständnis, aber die Bildqualität hinkt nach

Die Einführung von Dall-E 3 durch OpenAI hat eine Welle von Neugier und Begeisterung in der Welt der künstlichen Intelligenz und darüber hinaus ausgelöst. Mit seinem bemerkenswerten Verständnis für natürliche Sprache und seiner Fähigkeit, komplexe Prompt-Engineering-Prozesse zu überwinden, öffnet Dall-E 3 die Türen für eine intuitive Erstellung von Bildinhalten.

 

Textverständnis versus Bildqualität

„Wer sein gewünschtes Motiv nicht beschreiben kann, wird auch hier nicht das gewünschte Ergebnis erzielen.“ 

Georg Neumann, bietet uns dabei eine weise Orientierung. Während Dall-E 3 durch seine beeindruckende Interpretation von Textprompts glänzt, wirft die Inkonstanz in der Bildqualität einen Schatten auf die ansonsten beeindruckende Technologie. In anderen Tools würde so ein Satz „Generiere mir bitte eine Illustration eines süßen rothaarigen Mädchens (2 Jahre alt), das in einer Rakete zum Mond fliegt.“ nicht gut funktionieren. Erst recht nicht auf deutsch. In Dall-E 3 liefert es aber gute Ergebnisse:

 

Im Gegensatz dazu steht aber die Fotoqualität. Hier trifft gutes Textverständnis auf ein schlechtes Datenset (Vermutung). Die generierten Fotos sehen eher nach einem Pixar-Film aus, als nach der Realität. Aber macht euch selbst ein Bild: hier eine Testreihe:

 

 

Das ethische Dilemma der künstlichen Intelligenz

 

In einer Ära, in der Deepfakes und ethische Herausforderungen rund um KI-Bilder ständig präsent sind, unterstreicht OpenAI mit seinem neuen Bildgenerator sein Engagement für Transparenz und Sicherheit, um eine verantwortungsbewusste Nutzung und Erstellung von KI-Inhalten zu gewährleisten. Die Filter mögen manchmal zwar als streng wahrgenommen werden, doch sie dienen dem Schutz gegen möglichen Missbrauch – auch wenn sie noch ein wenig Feintuning benötigen könnten. Häufig läuft man noch mit vermeintlich unbedenklichen Prompts in Fehlermeldungen. 

 

TL;DR

 

Trotz seiner beeindruckenden Textverständnisfähigkeiten und ethischen Sicherheitsnetze befindet sich Dall-E 3 noch in einem Stadium, in dem stetige Entwicklungen und Anpassungen erfolgen. Während es in seiner aktuellen Form vielversprechende Ansätze und beeindruckende Technik zeigt, bleibt die tatsächliche Anwendbarkeit in Bezug auf die Bildqualität hinter einigen Konkurrenten zurück. 

 

Für wen ist Dall-E 3 geeignet?

 

Dall-E 3 ist perfekt für alle, die sich nicht mit Prompt Engineering auseinander setzen wollen. Selbst Tante Erna kann den Bing Chat bedienen und das Motiv für Wilfrieds Geburtstagseinladung zum 70. Geburtstag generieren. Naja, zumindest fast:

 

In Sachen Bildqualität punktet Dall-E 3 (wie auch schon sein Vorgänger) bei Illustrationen. Wer also nur mal schnell eine Illustration für einen Social Media Post oder einen Blogartikel braucht, kann das künftig schmerzfrei über ChatGPT oder den Bing Chat lösen. Wer weiterhin mehr Kontrolle über sein Bild haben möchte, sollte bei Midjourney, Stable Diffusion und Firefly bleiben. Vorerst. 

 

Wie kann ich Dall-E 3 nutzen?

  1. Du kannst es jetzt schon im Bing-Chat ausprobieren. Anforderung: Du musst mit einem Microsoft-Account eingeloggt sein.
  2. Schau in deinem ChatGPT Account nach. Bei immer mehr Usern wird die Funktion in GPT-4 Chats ausgerollt. 

 

Im KI Marketing Bootcamp den Umgang mit Dall-E 3 in anderen Bild-KI Tools lernen

 

Wir haben gerade den Termin für das nächste Bootcamp festgelegt. Am 16. November 2023 gehts los. Hier findet ihr alle Informationen und das Anmeldeformular. Wir freuen uns auf euch!

 

Das könnte Dich auch interessieren:

Abonniere unseren Newsletter 🥳