Google I/O 2025: Imagen 4, Veo 3 & Flow – Die neue Generation der KI-Bild- und Videogenerierung

Google hat auf der I/O-Konferenz 2025 sein neues KI-Bildgeneratormodell Imagen 4 vorgestellt. Die Ankündigung markiert einen bedeutenden Fortschritt im Bereich der KI-gestützten Bildgenerierung und bringt zahlreiche Verbesserungen gegenüber dem Vorgänger Imagen 3. Das Modell wurde am 20. Mai 2025 offiziell enthüllt und ist seitdem in verschiedenen Google-Produkten und -Diensten integriert

Inhaltsverzeichnis

Google, Google, Google… Was gibt’s Neues nach der großen Konferenz?

 

Gerade erst hat Google wieder die Tech-Welt in Atem gehalten: Nach der I/O-Konferenz am 20. Mai ist klar – es gibt jede Menge frische Updates und spannende KI-Features! Von neuen Gemini-Modellen über smarte Agenten bis hin zu Hardware-Gadgets – Google hat ordentlich nachgelegt. Aber mal ehrlich: Uns interessiert natürlich vor allem eines ganz besonders… das neue KI-Bildmodell! Denn nach dem starken Google Imagen 3 kommt jetzt Imagen 4. Was steckt dahinter, was kann es und wo kann man es ausprobieren?

Was ist neu an Imagen 4?

Imagen 4 hebt sich besonders durch die deutlich verbesserte Bildqualität hervor. Das Modell kann feine Details wie Stoffstrukturen, Wassertröpfchen und Tierfell mit bemerkenswerter Klarheit darstellen. Es eignet sich sowohl für fotorealistische als auch für abstrakte Bildstile und unterstützt erstmals Auflösungen bis zu 2K. Damit lassen sich größere und detailreichere Bilder erstellen, die sich auch für den Druck oder hochwertige Präsentationen eignen.

 

Ein weiteres zentrales Feature ist die verbesserte Integration von Text und Typografie. Während frühere Modelle oft Schwierigkeiten mit der korrekten Darstellung von Buchstaben und Wörtern hatten, kann Imagen 4 jetzt Texte sauber und fehlerfrei ins Bild einbetten. Das ist besonders praktisch für Grußkarten, Poster, Comics oder Präsentationsgrafiken.

 

Auch die Geschwindigkeit wurde deutlich erhöht: Imagen 4 generiert Bilder schneller als der Vorgänger, und Google plant eine besonders schnelle „Fast“-Variante, die bis zu zehnmal schneller sein soll als Imagen.

Wo kann man Imagen 4 nutzen?

Du kannst Imagen 4 ab sofort in mehreren Google-Diensten nutzen. Neben der Gemini App ist das Modell auch in Whisk, Vertex AI und zentralen Google-Workspace-Anwendungen wie Slides, Docs und Vids integriert. Dadurch lassen sich Bilder direkt im Arbeits- oder Kreativprozess per Textprompt generieren, ohne die Plattform wechseln zu müssen. Besonders die Integration in Google Workspace macht es einfach, hochwertige Bilder für Präsentationen, Dokumente oder Videos zu erstellen.

 

Laut Google steht Imagen 4 auch in der Gemini App zur Verfügung. Allerdings gibt es aktuell keine Möglichkeit, in der App selbst konkret nachzuvollziehen, ob tatsächlich das neue Modell verwendet wird. Obwohl Google offiziell bestätigt hat, dass Imagen 4 das Standardmodell ist, fehlt eine explizite Anzeige oder Auswahlmöglichkeit in der Nutzeroberfläche. Das macht es schwierig, für Anwender eindeutig zu erkennen, ob sie wirklich mit Imagen 4 arbeiten.

Hier ein paar generierte Bilder – per gemini App 

Mein persönliches Highlight ist die kleine Ameise im Regen, die Schutz unter einem Grashalm sucht. Und die Details sind echt erstaunlich – wenn man sich zum Beispiel mal die Biene anschaut …

Veo 3: Das neue Highlight der KI-Videogenerierung von Google

Neben Imagen 4 hat Google auf der I/O 2025 mit Veo 3 ein weiteres bahnbrechendes KI-Modell vorgestellt – diesmal für die Videogenerierung. Veo 3 hebt sich durch eine Vielzahl spannender Neuerungen ab und setzt neue Maßstäbe für KI-gestützte Bewegtbildproduktion.

 

Was ist Veo 3 und was macht es besonders?

 

  • Text-zu-Video mit Audio: Veo 3 kann aus einfachen Textprompts nicht nur realistische, hochauflösende Videos (bis zu 1080p) generieren, sondern erstmals auch synchronisierten Ton produzieren. Dazu gehören Soundeffekte, Hintergrundgeräusche und sogar Dialoge, die passend zur Szene automatisch erzeugt und mit den Lippenbewegungen der Figuren synchronisiert werden. Damit verlässt KI-Videoerstellung erstmals die „Stummfilm-Ära“.

  • Bild-zu-Video-Funktion: Neben Textprompts lassen sich auch Fotos oder KI-generierte Bilder als Ausgangspunkt nutzen. Veo verwandelt diese in dynamische Videoclips, die Stil und Stimmung des Ausgangsbildes übernehmen.

  • Hohe Konsistenz und Qualität: Das Modell sorgt für konsistente Bewegungen von Menschen, Tieren und Objekten – ein Bereich, in dem viele frühere KI-Modelle noch Schwächen zeigten. Auch komplexe Szenen mit mehreren Figuren oder Spezialeffekten wie Zeitraffer oder Luftaufnahmen werden realistisch umgesetzt.

  • Flexible Kreativkontrolle: Nutzer können einzelne Szenen oder Elemente einfach austauschen, ohne dass die visuelle Konsistenz leidet. Das macht Veo 3 besonders interessant für Kreative und Marketer, die schnell verschiedene Varianten ausprobieren wollen.

Wo kann man Veo 3 nutzen?

Veo 3 ist aktuell für US-Nutzer im Rahmen des neuen Ultra-Abos der Gemini-App verfügbar (249,99 $/Monat) und wird zudem über Vertex AI ausgerollt. Auch in Googles neuem Filmmaker-Tool „Flow“ kommt Veo 3 zum Einsatz, das speziell für die kreative Videoproduktion entwickelt wurde.

Beispielvideos – was kann Veo 3?

Google hat zur Einführung von Veo 3 mehrere beeindruckende Beispielvideos veröffentlicht, die die Bandbreite und Qualität des Modells demonstrieren:

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Hier der Opening Film von Google I/O 2025:

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Und hier ist der Infofilm zum Filmmaker-Tool ‘Flow’:

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Weitere spannende Updates von der Google I/O 2025

Neben Imagen 4 gab es auf der Google I/O 2025 noch einige weitere spannende Highlights. Besonders im Fokus stand Gemini 2.5 Pro mit dem neuen Deep Think Mode – ein KI-Modell, das komplexe Aufgaben noch besser löst, indem es verschiedene Lösungswege intern vergleicht und dadurch präzisere, logischere Antworten liefert.

 

Mit Project Mariner und Agentic AI hat Google smarte Agenten vorgestellt, die Aufgaben selbstständig erledigen können und in Chrome, der Google Suche und der Gemini App zum Einsatz kommen. Diese Agenten übernehmen beispielsweise Buchungen, Recherchen oder das Ausfüllen von Formularen eigenständig im Hintergrund.

 

Ebenfalls vorgestellt wurde Gemini Live, ein neues Multimodal-Interface, das Kamera, Sprache und Text kombiniert, um besonders natürliche und interaktive KI-Erlebnisse zu schaffen. Nutzer können so in Echtzeit mit der KI über verschiedene Kanäle kommunizieren und Aufgaben erledigen lassen.

 

Auch im Hardware-Bereich gab es Neuigkeiten: Google präsentierte eine Mixed-Reality-Brille, die in Zusammenarbeit mit Gentle Monster und Warby Parker entwickelt wurde, sowie Updates für Wear OS, das Betriebssystem für Smartwatches.

 

Diese und weitere Features zeigen, wie konsequent Google auf Künstliche Intelligenz setzt, um Nutzererlebnisse in sämtlichen Bereichen des Alltags und der Arbeit weiter zu verbessern.

Schulungen, Deep Dives & smarter KI-Einsatz – dein nächster Schritt

 

Du willst KI nicht nur ausprobieren, sondern gezielt fürs Marketing nutzen? Im KI Marketing Bootcamp lernst du, wie du die richtigen Tools wählst, Prompts effektiv einsetzt und KI clever in deine Workflows integrierst – praxisnah und strategisch.

Fazit

Mit Imagen 4 und Veo 3 bietet Google jetzt leistungsstarke KI-Modelle für professionelle Bild- und Videoproduktion direkt aus Text- oder Bildprompts. Während Imagen 4 die Bildqualität und Textintegration auf ein neues Level hebt, revolutioniert Veo 3 die Videogenerierung durch native Audio-Unterstützung und hohe Konsistenz. Beide Modelle sind bereits in verschiedene Google-Produkte integriert und eröffnen Kreativen, Marketers und Unternehmen völlig neue Möglichkeiten für Content Creation

Nutze die Möglichkeiten der KI – Entwickle mit uns effektive KI-Marketingstrategien!

 

Bist du bereit, die vielfältigen Möglichkeiten der Künstlichen Intelligenz zu entdecken und innovative Marketingkampagnen zu entwickeln? Dann bist du bei uns genau richtig! In unserem KI Marketing Bootcamp zeigen wir dir, wie du KI trotz der aktuellen Stagnation effektiv nutzt, um deine Marketingziele zu erreichen.

 

Was erwartet dich?

  • Praxisorientierte Anleitungen: Lerne, wie man KI in Marketingstrategien einbindet und das Beste aus ihr herausholt.
  • Kreative Strategie: Entdecke, wie Technologie und Storytelling für effektive Kampagnen zusammenwirken.
  • Individuelle Begleitung: Profitiere von kleinen Gruppen, direkter Unterstützung und persönlicher Betreuung.

 

Deine Vorteile:

  • Learning by Doing: Entwickle eigene Ideen und Kampagnenelemente, die auf deine spezifischen Herausforderungen und Ziele abgestimmt sind.
  • Erfahrungswissen: Nutze echte Praxisbeispiele und Erfolgsgeschichten, um deine eigenen Strategien zu verbessern.
  • Flexibel: 100 % online – bequem und ortsunabhängig.

 

Für Unternehmen:

 

Wir bieten maßgeschneiderte Workshops, um deine Marketingabteilung mit den neuesten KI-Technologien zu stärken.

 

Dein Expertenteam:

 

Vroni Hackl und Georg Neumann – zwei Experten in KI und Marketing, die dir helfen, das Beste aus deinen KI-Marketingstrategien herauszuholen.

Vroni forscht zu Sprachmodellen, Georg trainiert seit 2022 Bild-KI Modelle

Wer hat's geschrieben?

Das könnte Dich auch interessieren:
ixel-Art-Illustration eines Detektivs im Trenchcoat und mit Sonnenbrille. Er hält ein leuchtend grünes Dokument mit der Aufschrift 'skills.md' in der Hand. Rechts daneben ist ein aufsteigender Aktienchart mit der Überschrift 'STONKS' zu sehen, sowie kleine Symbole für ein Gehirn, ein Zahnrad und eine Tastatur. Der Detektiv hat eine Sprechblase: 'SKILLS.MD: MUCH WOW, VERY AGENT.'
KI im Einsatz
Agent Skills schreiben: Anleitung mit Marketing-Beispielen

Im Analyse-Artikel über Skills Engineering habe ich beschrieben, warum strukturiertes Prozesswissen die nächste Stufe der KI-Nutzung ist. Dieser Beitrag ist die praktische Seite: Wie schreibt man einen Agent Skill? Was gehört rein, was nicht? Und wie sieht das für typische Marketing-Aufgaben aus? Was ein Agent Skill technisch ist Ein Agent Skill ist auf seine allereinfachste Weise einfach eine Textdatei namens SKILL.md. Nicht mehr, also nicht verrückt machen lassen, nur weil das fancy klingt. Absolut machbar

Weiterlesen »
a screenshot of a chat interface Claude
Uncategorized
Schau ins Denkprotokoll: Was KI-Modelle verraten, wenn man sie laut denken lässt

Ich habe Claude Schere, Stein, Papier spielen lassen. Drei Runden. Claude hat jede einzelne gewonnen. Beeindruckend? Auf den ersten Blick schon. Bis ich ins Denkprotokoll geschaut habe. Dort stand, sinngemäß: „Ich sehe die Wahl des Nutzers, bevor ich meine eigene treffe. Das ist nicht fair.“ Das Ergebnis (3:0 für Claude) sagt wenig. Das Denkprotokoll sagt alles. Ich zeige dieses Beispiel inzwischen in fast jedem Seminar, weil es in dreißig Sekunden demonstriert, was die meisten KI-Nutzer

Weiterlesen »
KI News
So einfach kannst du ComfyUI nutzen: Comfy Cloud ist offiziell aus der Beta raus

ComfyUI ohne eigene GPU, ohne Terminal, ohne Setup, direkt im Browser. Seit dem 4. März 2026 ist Comfy Cloud offiziell aus der Beta. Das klingt nach dem Moment, auf den viele gewartet haben. Meine These: Comfy Cloud ist das einfachste Einstiegstor in ComfyUI, das es gibt. Aber wer regelmäßig und ernsthaft damit arbeitet, sollte die Kosten genau durchrechnen, und Alternativen kennen. Was sich seit der Beta verändert hat In meinem ursprünglichen Post hatte ich Custom

Weiterlesen »
Minimalistische, quadratische Infografik mit dem Haupttitel "EVOLUTION: PROMPT -> CONTEXT -> SKILLS ENGINEERING". Darunter befinden sich drei farblich kodierte, rechteckige Felder, die durch Pfeile von links nach rechts verbunden sind und einen Entwicklungsprozess darstellen. Das linke, hellblaue Feld ist betitelt mit "PROMPT ENGINEERING". Es enthält eine Ikone einer Gedankenblase mit einem Fragezeichen und einer Lupe über Text. Text darunter: "FOCUS: Single Input", "QUESTION: 'How do I formulate my instruction?'", "GOAL: Perfect the prompt". Ein Pfeil zeigt auf das mittlere, hellorange Feld mit dem Titel "CONTEXT ENGINEERING". Die Ikone zeigt Dokumente, eine Cloud-Datenbank und Zahnräder. Text darunter: "FOCUS: Information", "QUESTION: 'What information does the AI need?'", "GOAL: Provide background data". Ein weiterer Pfeil zeigt auf das rechte, hellgrüne Feld mit dem Titel "SKILLS ENGINEERING". Die Ikone zeigt ein Flussdiagramm mit Entscheidungsknoten und einem abgehakten Kontrollkästchen. Text darunter: "FOCUS: Process Knowledge", "QUESTION: 'What process knowledge does the AI need?'", "GOAL: Optimize action competence". Am unteren Rand der Grafik fasst eine Zeile das Ergebnis der Evolution zusammen: "OPTIMIZES: Single Interactions -> Knowledge State -> Action Competence".
KI im Einsatz
Skills Engineering: Ist das was Neues oder die Weiterentwicklung von Prompt- und Context Engineering?

Nach Prompt Engineering kam Context Engineering. Jetzt zeichnet sich ab, was als Nächstes kommt: Skills Engineering. Ich rechne damit, dass der Begriff in den kommenden Monaten zunehmend auftaucht. Denn die Entwicklung dahin, was damit gemeint ist, ist sinnvoll und konsequent, wenn man bessere Ergebnisse mit KI erzielen will. Was ist Skills Engineering? „Skills Engineering beschreibt die Kompetenz, menschliches Prozesswissen so aufzubereiten, dass KI-Agenten es nutzen können.“ (Vroni) Das klingt abstrakt, meint aber etwas sehr Konkretes.

Weiterlesen »
Aktuelles
Nano Banana 2: Pro-Qualität zum Flash-Preis?

Google hat letzte Woche Nano Banana 2 veröffentlicht, technisch das Modell Gemini 3.1 Flash Image. Es ersetzt Nano Banana Pro als Standard in der Gemini-App und soll Pro-Level-Qualität bei deutlich höherer Geschwindigkeit und rund halbem Preis liefern. Ich hab’s direkt gegen Pro antreten lassen. Mein erster Eindruck: Nano Banana 2 ist verdammt nah dran. Aber vor allem ist es schnell. Geschwindigkeit als echter Hebel Während man bei Pro teilweise Minuten auf ein einzelnes Bild warten

Weiterlesen »
Aktuelles
Die neue Knappheit: Warum mehr Content weniger wert ist

Content kostet fast nichts mehr. Ein Blogpost? Fünf Minuten mit Claude. Zehn Social-Media-Varianten? Noch mal drei Minuten. Ein kompletter Redaktionsplan für sechs Monate? Eine Stunde, wenn man gründlich ist. Die Produktionskosten sind auf nahezu Null gefallen. Und genau deshalb ist die meiste Content-Strategie, die ich sehe, gerade dabei, wertlos zu werden. Das klingt paradox. Aber die Ökonomie ist eindeutig: Wenn etwas im Überfluss existiert, verliert es seinen Wert. Was knapp bleibt, wird kostbar. Content ist

Weiterlesen »

Hey Du. Willst du AI Content Manager werden?

Dann ab ins kostenfreie Info-Webinar am 25.03. um 12:00 Uhr. 

🚀 Exklusive Back-to-School-Aktion 🚀

Spare 880 € beim KI-Marketing-Bootcamp!

Bring eine Kolleg*in mit und erhalte 50% Rabatt für deine Begleitung.

Nur für kurze Zeit und solange Kontingent reicht! Aktion endet am 16. September 2024.

Abonniere unseren Newsletter 🥳