Midjourneys großes Update! Ein weiteres bildgenerierendes KI-Artefakt, das „Ihren Worten folgt“ Im Anhang finden Sie mehr als 10 Szenendemonstrationen und eine Fehlersortierung

April 7, 2025 Eskere Guru

PS, das einst als notwendige Fähigkeit galt, scheint sich nun in der heiklen Situation zu befinden, ob man es lernen kann oder nicht.

Die neueste Version von Gemini kann Bilder mit nur einem Satz ändern, was es zu einem Phänomen macht. Seit der Einführung der multimodalen Bildgenerierungsfunktion von GPT-4o haben die generierten Bilder im Ghibli-Stil fast über Nacht das Internet erobert.

Mit dem Aufstieg neuer Kräfte ist der erfahrene Riese der KI-Bilderzeugung, Midjourney, nicht zu übertreffen und hat gerade die neueste Version V7 offiziell veröffentlicht.

Die Kernpunkte der neuen Version sind wie folgt:

Die Gesamtbildqualität wird verbessert, Textaufforderungen werden besser verarbeitet und die Konsistenz der Details am Körper, an den Händen und an verschiedenen Objekten wird erheblich verbessert.
Hautfarbe und Gesichtsdetails der Charaktere sind natürlicher und klarer, Materialtexturen (wie Federn, Kleidung) kommen fein zum Ausdruck und Licht- und Schatteneffekte sind realistisch
Kann die durch die Aufforderungsworte beschriebene vollständige Szene besser verstehen und darstellen, die räumliche Beziehung zwischen den Elementen ist vernünftig und der Hintergrund und das Motiv sind gut integriert.
Kann bestimmte Blickwinkel sowie Aufnahmestile aus niedrigen Winkeln und Nahaufnahmen präzise darstellen, um Professionalität zu demonstrieren
Die Atmosphäre und der emotionale Ausdruck sind etwas schwach, es mangelt an etwas Dramatik und Mysterium, und die Einzigartigkeit und Kreativität einiger künstlerischer Stile fehlt etwas.

Es ist wichtig zu beachten, dass V7 die erste Version ist, die die Modellpersonalisierung standardmäßig aktiviert. Benutzer müssen die Personalisierungseinstellungen entsperren, um diese Funktion nutzen zu können. Der gesamte Vorgang dauert etwa 5 Minuten und kann jederzeit ein- und ausgeschaltet werden.

Ein weiteres Highlight von V7 ist der „Draft Mode“. Die Kosten für diesen Modus sind nur halb so hoch wie für den Standardmodus, aber die Bildwiedergabegeschwindigkeit ist auf das Zehnfache erhöht.

Bei Verwendung im Internet wechselt die Eingabeaufforderungsleiste automatisch in den „Konversationsmodus“, und Benutzer können den Inhalt direkt über Befehle anpassen, z. B. indem sie die Katze durch eine Eule ersetzen oder die Szene in „Nacht“ ändern. Das System passt die Eingabeaufforderung automatisch an und generiert ein neues Bild.

Nachdem Sie auf „Entwurfsmodus“ geklickt und die Mikrofontaste aktiviert haben, können Benutzer auch in den „Sprachmodus“ wechseln, um in Echtzeit über Sprachbefehle zu erstellen. Wenn Sie die Entwurfsaufgabe explizit ausführen müssen, kann der Benutzer nach der Eingabeaufforderung den Parameter „-draft“ hinzufügen, der für Szenarien wie Permutation, Kombination oder wiederholte Generierung geeignet ist.

Die Verantwortlichen von Midjourney glauben, dass der „Entwurfsmodus“ bei weitem der beste Weg ist, Ideen zu wiederholen.

Wenn der Benutzer mit dem Entwurfsbild zufrieden ist, kann er auf die Schaltfläche „Verbessern“ oder „Ändern“ klicken, um es in voller Qualität erneut zu rendern. Es ist zu beachten, dass die Bildqualität im Entwurfsmodus geringer ist als im Standardmodus, das Verhalten und die Ästhetik jedoch sehr konsistent sind und sich für die schnelle Überprüfung von Ideen eignen.

▲Bild von: @U79916881747113

V7 unterstützt derzeit zwei Betriebsmodi: Turbo und Relax. Der Turbomodus ist schneller, kostet aber doppelt so viel wie ein normaler V6-Modus; Der Draft-Modus kostet die Hälfte. Der Standardgeschwindigkeitsmodus wird noch optimiert und wird voraussichtlich bald eingeführt.

Derzeit werden die Vergrößerungs-, Bearbeitungs- und Retexturierungsfunktionen auf das V6-Modell zurückgreifen und in Zukunft schrittweise auf V7 aktualisiert. Moodboard- und SREF-Funktionen sind bereits verfügbar und zukünftige Updates werden die Leistung weiter verbessern.

Das Midjourney-Team gab bekannt, dass in den nächsten 60 Tagen alle ein bis zwei Wochen neue Funktionen eingeführt werden, von denen das neue V7-Rollen- und Objektreferenzsystem am meisten erwartet wird.

Schauen wir uns ohne weitere Umschweife zunächst die Bilder an.

Der bekannte Blogger @nickfloats hat einen Vergleich von Bildern geteilt, die von der MIdjourney V6/V7-Version basierend auf demselben Eingabeaufforderungswort generiert wurden. Werfen wir einen Blick darauf.

Prompt:
Eine junge Inderin mit dunklem Haar, offenem Pferdeschwanz und schwarzer Jacke steht auf einem Universitätscampus und blickt direkt in die Kamera. Das Bild hat eine Filmstill-Ästhetik im Stil der 1990er-Jahre mit einem Nahaufnahmeporträt an einem sonnigen Tag.
(Eine junge Inderin mit schwarzen Haaren, die zu einem lockeren Pferdeschwanz gebunden sind, und einer schwarzen Jacke steht auf einem College-Campus und blickt direkt in die Kamera. Das Foto ist im Stil eines Filmstills aus den 90ern, mit einem sonnigen Tag im Hintergrund, einem Nahaufnahmeporträt.)

▲Links: V6 Rechts: V7

Das Licht in der neuen Version ist natürlicher, insbesondere im Gesicht des Charakters, die Hautfarbe ist klarer, die Details sind reicher und der Fokus des Bildes ist klarer, insbesondere die Frisur des Charakters, aber es geht auch etwas an Atmosphäre und emotionalem Ausdruck verloren.

Aufforderung: Eine majestätische Schleiereule thront auf einem alten, moosbedeckten Ast, umgeben vom nebligen Wald. Die Szene ist in sanftes Licht getaucht, das durch das dichte Blattwerk dringt und eine magische und ätherische Atmosphäre schafft. Fotorealistischer Stil mit Liebe zum Detail der Federn und Texturen.
(Eine majestätische Schleiereule sitzt auf einem alten, moosbedeckten Ast, umgeben von einem nebligen Wald. Sanftes Licht scheint durch die dichten Blätter und schafft eine geheimnisvolle und ätherische Atmosphäre. Der Stil des Bildes ist realistisch und realistisch und zeigt die Textur von Federn und Rinde im Detail.)

▲Links: V6 Rechts: V7

Die neue Version der Eulenfedern hat eine feinere Textur und die Federn haben eine stärkere Schichtung sowie Licht- und Schatteneffekte, was sie realistischer macht. Auch von der Haltung der Eule ist die neue Variante natürlicher. Der Korpus ist leicht geneigt, wodurch er dynamischer wirkt. Auch die Details der Augen wirken lebendiger und vermitteln einen wachsamen Blick.

Kurz gesagt, Sie können Ihren Kuchen nicht haben und ihn gleichzeitig essen. V7 strebt besser nach Realismus; V6 bietet möglicherweise weitere Vorteile bei der Verfolgung von Bildeffekten und Rätseln.

Eingabeaufforderung: Die Hand einer Person zeigt auf das Fenster eines Flugzeugs, das von innen zu sehen ist und dessen Flügel im Profil sichtbar ist. Der Himmel draußen zeigt in der Morgen- oder Abenddämmerung einen klaren Horizont. Vor ihnen liegt eine riesige Meeresfläche.
(Die Hand eines Mannes zeigt aus dem Flugzeugfenster, wo die Flügel des Flugzeugs von der Seite sichtbar sind. Der Himmel draußen ist klar und die Skyline zeigt eine Morgen- oder Abenddämmerungsszene. Vor ihm liegt der weite Ozean.)

▲Links: V6 Rechts: V7

Es handelt sich auch um eine Szene, in der man aus dem Bullauge eines Flugzeugs blickt und mit einer Hand aus dem Fenster zeigt. Der Fortschritt von V7 ist mit bloßem Auge sichtbar. Durch das Hinzufügen der Elemente des Flugzeugflügels werden die Schichtung und der Realismus des Bildes erhöht, sodass das Publikum die Perspektive, sich im Flugzeug zu befinden, besser spüren kann.

Prompt: Eine Nahaufnahme von Brokkoli, der in Öl angebraten wird, wobei die grünen Blüten des Gemüses einen Kontrast zu einer dunkelbraunen Soße bilden. Ein großer Löffel ist teilweise in einem Edelstahltopf sichtbar, der oben mit karamellisierter und glänzend schwarzer Glasur gefüllt ist, vor einem weißen Hintergrund.
(Eine Nahaufnahme eines in Öl sautierten Brokkolistücks, dessen üppige grüne Farbe einen Kontrast zur dunkelbraunen Soße bildet. Ein großer Löffel ist teilweise in einem Edelstahltopf zu sehen, der mit einer karamellfarbenen, glänzend schwarzen Soße vor einem weißen Hintergrund bedeckt ist …)

▲Links: V6 Rechts: V7

V6 Obwohl die Soße und der Löffel durch eine Nahaufnahme hervorgehoben werden, ist der Fokus sehr deutlich und die Aufmerksamkeit wird leicht auf die Textur und die Details der Soße gelenkt. Aber aus der Perspektive prompter Worte präsentiert die neue Version eine vollständigere Kochszene, indem sie die Kombination von Brokkoli und Soße im gesamten Topf zeigt, was logischer mit dem tatsächlichen Kochvorgang übereinstimmt.

Eingabeaufforderung: Nahaufnahme des Gesichts einer Anime-Frau mit schockiertem Gesichtsausdruck, dunklem Haar, im Anime-Stil. Farbenfrohe Animationsstandbilder, Nahaufnahmeintensität, sanfte Beleuchtung, Kameraansicht aus einem niedrigen Winkel und hohe Detailgenauigkeit.
(Nahaufnahme des Gesichts einer Anime-Frau mit schockiertem Gesichtsausdruck und schwarzen Haaren im Anime-Stil. Buntes animiertes Bild, starke Nahaufnahme, weiches Licht, aus niedrigem Winkel aufgenommen, mit sehr feinen Details.)

▲Links: V6 Rechts: V7

In puncto Licht-, Schatten- und Farbverarbeitung erfüllt V7 auch die Anforderungen an „weiche Beleuchtung“ im Prompt-Wort. Die Lichter- und Schattenübergänge im Gesicht sind weicher und natürlicher, insbesondere die Licht- und Schattenverteilung auf den Augen und Wangen, wodurch ein dreidimensionalerer Effekt entsteht.

Prompt: Ein dynamisches Filmfoto einer epischen Weltraumschlacht mit eleganten Sternenjägern, die an einer riesigen Raumstation vorbeifliegen, Laserfeuern und einem fernen Planeten im Hintergrund.
(Eine dynamische Filmszene zeigt eine epische Weltraumschlacht, in der stromlinienförmige Sternenjäger vorbeifliegen, eine riesige Raumstation daneben steht, Laser schießen und weit entfernte Planeten deutlich sichtbar sind und ein schockierendes Bild ergeben.)

▲Links: V6 Rechts: V7

Bei Porträts hat sich in Version 7 die Feinheit und der Realismus der Details (Kleidung, Haut, Licht und Schatten usw.) verbessert, und die Charaktere haben einen stärkeren dreidimensionalen Sinn und eine stärkere Integration in den Hintergrund, aber es sind Rückschritte bei der emotionalen Übertragung, der Dramatik und der Dynamik der Ausdrücke zu verzeichnen.

Im Folgenden sind drei spezifische Vergleichsfälle aufgeführt:

Aufforderung: Mysteryfilm aus den 1980er Jahren, Aufnahme aus der Tiefwinkelansicht eines französischen Butlers mit bösen Augen, der einen schwarzen Anzug trägt und eine Kerze im Flur eines gruseligen viktorianischen Herrenhauses mit muffiger Einrichtung ergreift. Das warme Kerzenlicht ruft ein gruseliges, geheimnisvolles Gefühl hervor
(Eine Low-Angle-Aufnahme im Stil eines Mysteryfilms aus den 1980er-Jahren zeigt einen französischen Butler mit bösen Augen, der einen schwarzen Anzug trägt und eine Kerze in der Hand hält, der im Korridor eines alten, muffigen viktorianischen Herrenhauses steht. Das warme Kerzenlicht erzeugt eine unheimliche und geheimnisvolle Atmosphäre.)

▲ Links: V6 Rechts: V7

Prompt: Mittleres bis volles Streetstyle-Modefoto aus den 1990er Jahren, aufgenommen mit einer Kodak 500T. Es zeigt einen robusten 50-jährigen Mann mit lockigem grauem Haar, 5-Uhr-Schatten und strengem Blick, der an einem hellen Frühlingsmorgen in Paris den Bürgersteig entlang geht. Er trägt …
(Ein mittelgroßes Ganzkörper-Streetstyle-Foto aus den 1990er Jahren, aufgenommen mit einem Kodak 500T-Film, zeigt einen Mann in den Fünfzigern mit lockigem grauem Haar, Stoppeln und ernstem Gesichtsausdruck, wie er an einem hellen Frühlingsmorgen in Paris den Bürgersteig entlanggeht. Er trägt …)

▲Links: V6 Rechts: V7

Aufforderung: Filmisches, außermittiges, zweigeschossiges 35-mm-Filmfoto eines 30-jährigen Franzosen mit lockigen braunen Haaren und einem fleckigen beigen Polopullover, der seiner entzückenden 5-jährigen Tochter ein Buch vorliest, einen flauschigen rosa Pyjama trägt und in einer gemütlichen Eckecke sitzt …
(Eine filmische 35-mm-Filmaufnahme, exzentrisch komponiert, von einem 30-jährigen Franzosen mit lockigem braunem Haar, der ein fleckiges beiges Poloshirt trägt und seiner entzückenden 5-jährigen Tochter etwas vorliest. Die Tochter trägt einen zartrosa Pyjama und sitzt in einer gemütlichen Ecke.)

▲Links: V6 Rechts: V7

Wird Conch AI+Midjourney die beste Kombination sein, um Bilder in Bewegung zu bringen? Netizen @inextastro hat es auch versucht.

Das von @tanvitabs mit v7 erstellte Foto unten zeigt alle Fallstricke der KI-Bildgenerierung, einschließlich einer zusätzlichen dritten Hand aus dem Nichts, Verwechslungen zwischen T-Shirts und Anzügen und nicht übereinstimmender Gesichtsgenerierung.
[Bild]

Abschließend folgt hier eine Klassenaufgabe. Welche der vier Fotos unten, die auf der Grundlage desselben Aufforderungsworts erstellt wurden, bevorzugen Sie? Bitte stimmen Sie ab.

Aufforderung: Elegantes weibliches Model, das an einem großen Fenster in einem sonnendurchfluteten Raum steht, sanftes Morgenlicht, das natürliche Glanzlichter und Schatten auf ihr Gesicht wirft, trägt ein fließendes beiges Kleid, entspannte Pose, minimales Make-up, 85-mm-Linsenschärfentiefe, Lifestyle-Moderedaktion, filmische Töne, luftige Atmosphäre
(Ein elegantes weibliches Model steht neben dem großen Fenster des Raums, in den die Sonne scheint. Das sanfte Morgenlicht wirft natürliche Glanzlichter und Schatten auf ihr Gesicht. Sie trägt ein fließendes beiges Kleid, hat eine entspannte Haltung und einfaches Make-up. Der Hintergrund wurde mit einem 85-mm-Objektiv aufgenommen und weist eine geringe Tiefenschärfe auf, was ein redaktionelles Lifestyle-Mode-Feeling erzeugt. Das Bild zeigt einen filmähnlichen Ton und ist voller Luft.)

Welche Version des Bildes bevorzugen Sie:
Midjourney v7
Google Bild 3
ChatGPT 4o
Reeve

In den letzten Jahren war das Hauptthema der KI-Bildgenerierung das Streben nach Authentizität und Nichtfettigkeit.

Letztes Jahr durchbrach Flux die Branche und wurde berühmt für die Erstellung ultrarealistischer Porträts. Jetzt übernimmt Midjourney V7 den Staffelstab und hebt die „Realität“ mit reicheren Details, mehr geschichteten Licht- und Schattenschichten und einer natürlichen Hautstruktur erneut auf eine neue Ebene.

Aber ist die Suche nach der Wahrheit das Ende von allem?

Mit der Veröffentlichung der multimodalen Bildgenerierungsfunktion von GPT-4o kam kürzlich ein unerwarteter Trend: Bilder im Ghibli-Stil erregten fast über Nacht Aufsehen im Internet und wehten wie eine Frühlingsbrise auch in die Welt der KI-Bildgenerierung.

Es gibt mehr technische Möglichkeiten und auch die Art und Weise der Kreation hat sich verändert. Um es allgemeiner auszudrücken: Es ist, als stünde man jetzt in der Küche. Ob Sie eine deftige Mahlzeit zubereiten oder etwas Dunkles kochen möchten, liegt ganz bei Ihnen.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo