Die mysteriöse „Banana“-KI ist offiziell online! Googles neuer König der Fotobearbeitung explodiert spät in der Nacht So können Sie es ausprobieren

August 27, 2025 Eskere Guru

Erinnern Sie sich an das mysteriöse KI-Bildbearbeitungsmodell „Nano-Banane“, über das alle vorher gesprochen haben?

Vor einigen Tagen haben wir damit mehrere Testrunden in der LMArena-Arena für große Sprachmodelle durchgeführt und die Ergebnisse waren ausgezeichnet.

Jetzt hat Google endlich seine Geheimnisse gelüftet.

▲ Logan Kilpatrick, Leiter von Google AI Studio, twitterte den offiziellen Start des Gemini 2.5 Flash Image-Modells

Google hat Gemini 2.5 Flash Image, sein fortschrittlichstes Modell zur Bildgenerierung und -bearbeitung, offiziell eingeführt.

▲ Platz 1 auf vielen Listen, insbesondere auf der LMArena-Liste, wo es fast weit vorne liegt

In einem aktualisierten technischen Blog erwähnte Google, dass der vorherige Gemini 2.0 Flash von Entwicklern wegen seiner geringen Latenz und hohen Kosteneffizienz bei der Bilderzeugung geliebt wurde, sich die Benutzer jedoch auch auf qualitativ hochwertigere Bilder und leistungsfähigere kreative Steuerungsfunktionen freuten.

Gemini 2.5 Flash Image reagiert auf diese Erwartungen mit einer Reihe wichtiger Updates.

Wie bereits erwähnt, umfassen die Hauptfunktionen von Gemini 2.5 Flash Image Folgendes:

Aufrechterhaltung der vollständigen Rollenkonsistenz
Hinweisbasierte Bildbearbeitung
Nutzung des Praxiswissens von Gemini
Mehrfachbildfusion

Ein Bild erzählt eine Geschichte: Ändern Sie Charaktere und Szenen nach Belieben

Eine der größten Schwachstellen früherer KI-gestützter Rendering-Tools war die Schwierigkeit, eine konsistente Darstellung von Charakteren oder Objekten aufrechtzuerhalten. Wir alle kennen das: Wir versuchen, denselben Charakter in verschiedenen Szenen zu rendern, und stellen fest, dass sich der Stil des Renderings dramatisch ändert und jedes Mal wie eine völlig andere Person aussieht.

Gemini 2.5 Flash Image löst dieses Problem vollständig.

▲ Bildquelle: X@geminiap

Es ist problemlos möglich, dieselbe Figur in verschiedenen Umgebungen zu platzieren oder dasselbe Produkt aus mehreren Blickwinkeln zu zeigen, wobei das Kernthema unverändert bleibt. Google erwähnte, dass dies zweifellos eine revolutionäre Funktion für Szenarien ist, in denen eine fortlaufende Geschichte erzählt, Assets für Markenserien generiert oder Produktkataloge erstellt werden müssen.

Um diese Fähigkeit zu demonstrieren, bietet Google AI Studio auch eine Vorlagenanwendung, sodass Entwickler schnell loslegen und sogar darauf basierende Sekundärentwicklungen durchführen können.

▲ Erlebnisadresse: https://aistudio.google.com/apps/bundled/past_forward

In diesem Erfahrungsprojekt müssen wir keine Eingabeaufforderungen eingeben, sondern nur ein Porträtfoto hochladen. Anschließend wird das neueste Bildmodell aufgerufen, um für uns Fotos aus verschiedenen Jahren, beispielsweise von 1976 bis 1990, zu generieren.

Als Musk sah, wie gutaussehend er war, muss er gedacht haben: „Mein Grok kann das auch.“

Bearbeiten Sie Fotos in einem Satz mit natürlicher Sprache

Neben der Aufrechterhaltung einer äußerst konsistenten Zeichengenerierung ist auch die präzise Bearbeitung ein Highlight. Gemini 2.5 Flash Image ermöglicht es uns, mithilfe einfacher natürlicher Sprachbefehle präzise lokale Änderungen an Bildern vorzunehmen.

Wie das Verwischen des Hintergrunds eines Bildes, das Entfernen von Flecken aus einem T-Shirt, das Entfernen einer Person aus einem Gruppenfoto, das Ändern der Pose einer Person, das Kolorieren eines Schwarzweißfotos …

All dies erfordert keine komplizierten und langwierigen professionellen Softwareoperationen mehr. Wir müssen der KI nur in einem Satz sagen, was wir tun möchten, genau wie beim Chatten.

Dies ist die gleiche Erfahrung, die wir zuvor in LMArena gemacht haben, wo wir auch den Stil des Fotos von Schwarzweiß auf Farbe geändert und subtile Anpassungen am Foto vorgenommen haben.

▲ Bildquelle: X@geminiapp

Google hat auch eine einfache Anwendung entwickelt, mit der wir diese auf Eingabeaufforderungen basierende Bildbearbeitung besser erleben können. Der Effekt ist jedoch völlig mit dem der PS-Software vergleichbar.

▲ Erlebnisadresse: https://aistudio.google.com/apps/bundled/pixshop

Ich kann nicht nur zeichnen, sondern ich „verstehe“ auch die Welt

Obwohl Bildmodelle in der Vergangenheit schöne Bilder erstellen konnten, fehlte ihnen oft ein tiefes semantisches Verständnis der realen Welt.

Gemini 2.5 Flash Image nutzt die leistungsstarke globale Wissensdatenbank von Gemini, um die Bilderzeugung „intelligenter“ zu gestalten.

Dies bedeutet, dass das Modell nicht nur unsere schlampig handgezeichneten Diagramme verstehen kann, sondern auch Fragen zur realen Welt beantworten und komplexe Bearbeitungsanweisungen in einem einzigen Schritt ausführen kann.

▲ Erlebnisadresse: https://aistudio.google.com/apps/bundled/codrawing

Das klingt sehr nach multimodalem Denken. Google hat mit AI Studio eine interaktive Lernanwendung vorgestellt, die eine einfache Leinwand in einen intelligenten Tutor verwandelt, der Fragen beantworten kann. Ich bewundere die Leistungsfähigkeit dieses Modells aufrichtig.

Bildfusion: Erzielen Sie mühelos „nahtlose“ Collagen

Das neue Modell bietet außerdem eine coole Funktion: die Multi-Image-Fusion. Wir können Objekte aus einem Bild in die Szene eines anderen Bildes „platzieren“ oder den Stil eines Bildes verwenden, um einen anderen Raum zu rendern. Der gesamte Vorgang kann mit nur einem Eingabeaufforderungsbefehl abgeschlossen werden.

Es handelt sich auch um eine Anwendung für die Vorlagenerfahrung in Google AI Studio. Wir müssen das Produkt nur per Drag & Drop in die neue Szene ziehen, um schnell ein Fusionsbild zu erstellen, das nahtlos und wie ein echtes Foto aussieht.

▲ Erlebnisadresse: https://aistudio.google.com/apps/bundled/home_canvas

In dieser Vorlagenanwendung müssen wir nicht einmal Eingabeaufforderungswörter eingeben. Wir können ein Objekt direkt an eine bestimmte Stelle im Szenenbild ziehen und dann wird automatisch ein fusioniertes Bild generiert.

Wie fange ich an?

Zusätzlich zu den Vorlagenanwendungen in Google AI Studio, die wir zuvor erwähnt haben.

Derzeit kann auf das Gemini 2.5 Flash Image über die Gemini APP, die Gemini API, Google AI Studio und Vertex AI zugegriffen werden.

Für den Aufruf der API beträgt der konkrete Preis 30 US-Dollar pro Million Ausgabetoken. Laut der offiziellen Einführung werden für die Generierung eines Bildes etwa 1.290 Ausgabetoken verbraucht, was bedeutet, dass die Kosten für jedes Bild etwa 0,039 US-Dollar betragen, was weniger als 0,3 Yuan in RMB entspricht.

Es ist erwähnenswert, dass alle mit Gemini 2.5 Flash Image erstellten oder bearbeiteten Bilder das unsichtbare digitale Wasserzeichen SynthID enthalten, um sie als KI-generierte oder bearbeitete Inhalte zu identifizieren.

Dabei handelt es sich um dieselben C2PA-Inhaltsnachweise (Content Provenance and Authenticity Alliance), die Google vor einigen Tagen bei der Veröffentlichung der Mobiltelefonserie Pixel 10 verwendet hat und über das KI-Bildbearbeitungstool Ask Photo sprach.

Abschließend erwähnte Google auch, dass es hart daran arbeitet, die Leistung des Modells bei der Wiedergabe langer Texte , die Stabilität der Zeichenkonsistenz und die Authentizität der Bilddetails zu verbessern.

Kurz gesagt: Mit der Veröffentlichung von Gemini 2.5 Flash Image hat das KI-Bildtool einen großen Schritt von einem einfachen Malspielzeug zu einem wirklich praktischen Kreativitäts- und Produktivitätstool gemacht.

Es löst nicht nur viele der Probleme, die wir in der Vergangenheit beim Verwenden von KI-Zeichnen hatten, sondern bietet auch interessantere und praktischere neue Spielmöglichkeiten.

Bevor die Funktion zur Generierung von 40 Bildern herauskam, sah ich viele Apps, die sich darauf konzentrierten, jeden Tag aus einem einzigen Bild ein Gedicht zu generieren. Es gab auch Apps wie CapWords, die dieses Jahr den Apple Design Award gewannen. Machen Sie ein Foto aus Ihrem Alltag und lernen Sie im echten Leben eine neue Sprache …

Ich kann es kaum erwarten zu sehen, welche neuen Anwendungen auf Basis des Gemini 2.5 Flash Image-Modells erstellt werden.

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFaner: iFaner (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.

iFanr | Originallink · Kommentare anzeigen · Sina Weibo