Neues Charakter-Referenz-Feature cref von Midjourney getestet: Die Lösung für konsistente Charaktere und virtuelle Avatare?

Inhaltsverzeichnis

Die Generierung konsistenter Charaktere war bisher ein komplexes Thema, das sich nur über Stable Diffusion mit dem Training von LoRas, Checkpoints oder der Nutzung von IP Adapter abbilden ließ. Nerdig und schwer zugänglich. Aber jetzt stößt Midjourney zur Party dazu und hat seine eigene Form der Referenzierung über IP Adapter mitgebracht. In diesem Beitrag teste ich das Feature aus einer ganz eigenen Brille: Von jemandem, der damit beauftragt wird, solche künstlichen Avatare zu erschaffen. Challenge accepted!

Wie funktioniert das neue "cref" Feature von Midjourney?

Das Charakter-Referenz-Feature, kurz „cref“, ermöglicht es Nutzer:innen, eigene oder fremde Bilder als Referenz für die Erstellung neuer, einzigartiger Charaktere zu verwenden. Diese Technologie bietet unglaubliche Möglichkeiten, insbesondere in der Welt der virtuellen Avatare und digitalen Kunst.

Um das Feature zu nutzen, fügt ihr den Parameter –cref an euren Prompt an und gebt dahinter eine Bild-URL als Referenz an. Wie das geht zeige ich im folgenden Video:

Hier ein kurzes Tutorial-Video zur Nutzung von cref in Midjourney:

Gewichtung von --cref über --cw nutzen:

Um die Gewichtung der Referenz zu steuern, könnt ihr zusätzlich den Wert „cref weight“ (–cw) nutzen: 

  • –cw 100 (Standardwert): Hierbei wird alles als Referenz genutzt: Gesicht, Haare, Kleidung
  • –cw 50 (Mittelwert): Hier werden Teile aus der Referenz genutzt: z.B. Gesicht und Haare 
  • –cw 0 (Minimalwert): Hier wird nur das Gesicht als Referenz genutzt und der Rest variiert.

Natürlich könnt ihr auch auch alle Werte dazwischen nutzen.

Beispiel-Prompt:

/imagine Photo Type: portrait, 50mm photograph, Canon EOS R3, 4k, highly detailed, Subject Focus: 30 year old woman from Berlin, business clothing, shoulder length wavy pink hair, round glasses, brown eyes, happy, Color Tone: natural, Setting: office space background, Atmosphere: professional, Texture: film grain:2, Mood: happy, Composition: bokeh, Lighting: natural lighting –ar 4:5 –style raw –v 6.0 –cref https://bildurl.com/beispiel.png –cw 100

Was taugt das neue cref Feature von Midjourney?

Um das neue Feature für mich, KundInnen und KursteilnehmerInnen zu testen, habe ich das System auf zwei Arten getestet und schließlich noch gegen Stable Diffusion antreten lassen. 

Fremde Referenzen

Zunächst habe ich mit einem Bild experimentiert, das ich mit Stable Diffusion generiert habe. Durch Anpassen des „cref weight“ (–cw) konnte ich steuern, wie stark das Originalbild als Referenz herangezogen wird. Die Ergebnisse variierten je nach Einstellung erheblich, allerdings war die Ähnlichkeit zum Original nicht so konsistent, wie ich es mir gewünscht hatte.

Referenzbild – generiert mit Stable Diffusion
--cw 100
--cw 50
--cw 0
--cw 50 und in Interaktion gepromptet

Eigene Referenzen

Anschließend habe ich ein Bild verwendet, das von Midjourney selbst generiert wurde. Hier sind die Ergebnisse deutlich konsistenter, obwohl immer noch einige Abweichungen, beispielsweise bei Augenbrauen oder Gesichtsform, zu beobachten sind.

Referenzbild – generiert mit Midjourney
--cw 100
--cw 50
--cw 0
--cw 50 und in Interaktion gepromptet

Vergleich mit Stable Diffusion ohne Finetuning/Training

Ohne jegliches Feintuning oder Training konnte ich mithilfe eines speziell entwickelten Prompts einen relativ konsistenten virtuellen Avatar einer 30-jährigen Frau erschaffen. Dies zeigt ganz gut das Potenzial auch ohne aufwendiges Training.

Stable Diffusion mit IP Adapter

Jetzt simulieren wir die Technik hier Midjourney cref mit Stable Diffusion und nutzen ControlNet mit dem IP Adapter Plus Face SDXL. Das Ergebnis zeigt eine ähnliche Wirkung und ist ohne tiefere Einstellung der Parameter mit –cw 0. Es werden Details übernommen, aber nicht genug um eine 100%ig Ähnlichkeit zum Original zu gewährleisten. 

Referenzbild – generiert mit Stable Diffusion

Fazit

Das neue „cref“-Feature von Midjourney ist eine gute Ergänzung für alle, die im Bereich der digitalen Charaktererstellung tätig sind. Besonders beeindruckend ist die Leistungsfähigkeit des Features, wenn es mit von Midjourney generierten Bildern als Referenz arbeitet. Für Anwendungen, bei denen eine oberflächliche Wiedererkennbarkeit ausreicht, bietet es eine überzeugende Lösung. Dennoch gibt es Raum für Verbesserungen, insbesondere wenn es um die feine Abstimmung und die Konsistenz der generierten Bilder geht.

Wer stark Ähnlichkeit und mehr Flexibilität benötigt, kommt derzeit um ein Finetuning/Training für Stable Diffusion nicht herum. Hier kann man je nach Anforderung über das Training eines LoRas oder eines finegetunten Checkpoints nachdenken. Auf Grund der Flexibilität rate ich zum Checkpoint, da diese erfahrungsgemäß deutlich flexibler sind als LoRas. 

Du willst generative KI für Marketing und Kreation lernen?

In unserem KI Marketing Bootcamp nehmen wir dich an die Hand und erklären dir die Basics und das Hintergrundwissen dazu. Wir schulen Einzelpersonen oder auch ganze Abteilungen in unseren individuellen Unternehmens Bootcamps. Sprich uns einfach an und wir finden die passende Form für Dich.

Das könnte Dich auch interessieren:
KI im Einsatz
WAN 2.2 schlägt Flux bei LoRAs klar

Georg war schon beim ersten Test von WAN 2.2 fasziniert. Wir hatten das Modell im KI Marketing Bootcamp bereits für Bild- und Videogenerierung ausprobiert – und die Resultate waren beeindruckend. Die Highlights dieser Tests haben wir bereits in zwei separaten Blogbeiträgen festgehalten:   Unser Video-Blogbeitrag zu WAN 2.2 → Unser Bild-Blogbeitrag zu WAN 2.2 →   Doch diesmal hat Georg den nächsten Schritt gewagt: Er hat mit WAN 2.2 sein ganz eigenes LoRA trainiert. Das

Weiterlesen »
KI im Einsatz
Bildgenerierung mit WAN 2.2: Was das Open Source Modell drauf hat

Wenn du gerade von unserem WAN 2.2 Video‑Blogbeitrag kommst, weißt du schon, was dich erwartet.Wenn nicht – kein Problem. Hier bekommst du den zweiten Teil unseres Tests. Diesmal geht’s um die Bildgenerierung mit WAN 2.2, und die ist – kein Witz – richtig stark. Warum? Weil WAN 2.2 nicht nur in der Videogenerierung überzeugt, sondern auch bei Standbildern extrem abliefert: realistische Hauttöne, fotorealistisches Licht, klar definierte Materialien. Falls du erstmal das Video sehen willst: Hier

Weiterlesen »
KI im Einsatz
WAN 2.2: Wenn KI-Videos plötzlich wie echte Werbespots aussehen

Videos mit KI generieren – und das mit Open Source? WAN 2.2 von Alibaba hat da etwas vorgelegt, was überrascht. Das Modell beeindruckt nicht nur mit der Videoqualität, sondern auch bei der Bildgenerierung. Wir haben uns in diesem Beitrag die Videogenerierung mal genauer angeschaut und zeigen dir ein paar Beispiele, wie das Ganze aussehen kann – inklusive der passenden Prompts. Inhaltsverzeichnis Die wichtigsten Fakten zu WAN 2.2   Entwickler: Alibaba DAMO AcademyLizenz: Apache 2.0 (kommerzielle

Weiterlesen »
Aktuelles
ChatGPT 5 ist da: Das sind die coolsten neuen Features

Stell dir vor, jeder ChatGPT-Chat wäre ein kleiner persönlicher Assistent, der automatisch weiß, wann er schnell antworten soll und wann er tief nachdenken muss. Genau das ist ChatGPT 5!   Am 7. August 2025 hat OpenAI sein neuestes KI-Modell veröffentlicht – und diesmal ist alles anders. ChatGPT 5 wechselt automatisch zwischen „schnellem Chat“ und „tiefem Nachdenken“, je nachdem was du brauchst. Das heißt: Du musst nicht mehr zwischen verschiedenen Modellen hin- und herwechseln. Die KI

Weiterlesen »
Aktuelles
Nie wieder wichtige E-Mails vergessen: Mein n8n-Workflow für automatische E-Mail-Erinnerungen

Inhaltsverzeichnis Das Problem mit den E-mails   „Bei dem ganzen E-Mail-Verkehr geht mir manchmal einiges durch die Lappen. Ich hab die E-Mail noch im Kopf, dann kommen 10.000 andere Sachen rein und dann geht eine simple Aufgabe unter: auf die E-Mail antworten.“   So ging es Georg und Vroni vom KI Marketing Bootcamp – und ehrlich gesagt, wer kennt das nicht?   Bei einem Newsletter ist das vielleicht noch verschmerzbar. Aber wenn das bei Kunden

Weiterlesen »
KI im Einsatz
Ein Radieschen für 400 Token – Warum KI-Schulungen bei ChatGPT, Mistral & Co. Energie und Wasser sparen

Stell dir vor, jede KI-Anfrage wäre ein kleines Radieschen plus 10 Sekunden Netflix.   Mistral AI  hat vor kurzem eine faszinierende Rechnung aufgemacht: 400 Token Text generieren entspricht dem Wasserverbrauch eines winzigen Radieschens UND 10 Sekunden Video-Streaming auf Netflix. Klingt vernachlässigbar, oder?   Einzeln betrachtet ist es das auch. Problematisch wird es erst bei Millionen täglicher Anfragen weltweit. Dann wird aus einem Radieschen und 10 Netflix-Sekunden schnell ein ganzer Gemüsegarten plus Netflix-Marathons.   Die gute

Weiterlesen »

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳