Die KI-Bilderzeugung hat gerade einen großen Schritt nach vorne gemacht

Wir leben schon seit einiger Zeit mit KI-generierten Bildern, aber diese Woche haben einige der großen Player große Fortschritte gemacht. Ich spreche insbesondere von bedeutenden Updates für Midjourney , das neue Modell von Google, und Grok .

Jedes Unternehmen zeigt, dass sich die Technologie unterschiedlich schnell und in unterschiedliche Richtungen weiterentwickelt. Es handelt sich immer noch um ein weitgehend offenes Spielfeld, und jedes Unternehmen zeigt, wie weit die Fortschritte bereits fortgeschritten sind.

Midjourney erscheint im Internet

Professor Dumbledore an einem Pool in Wes Andersons Harry Potter.
Ein in Midjourney erstelltes KI-Bild. Kanal/Midjourney

Beginnen wir mit Midjourney, das am späten Donnerstag in aller Stille einen neuen Web-Editor herausbrachte, der eine Reihe nützlicher Bildbearbeitungstools in einer einzigen Benutzeroberfläche vereint.

Zuvor erforderten Funktionen wie Neurahmen, Neuzeichnen (Hinzufügen von KI-generierten Assets zu einem vorhandenen Bild oder Ändern eines vorhandenen Bildes), Schwenken, Leinwanderweiterung (Erweitern der Bildgrenzen und Generieren von zu füllendem Inhalt) und Zoomen jeweils ein eigenes spezifisches Werkzeug waren über mehrere Menüs verteilt, sodass die Ersteller ständig hin und her wechseln mussten. Diese neue Benutzeroberfläche bietet einen kohärenteren und optimierten Bearbeitungsprozess, eine deutliche Abkehr vom Start des Programms auf Discord.

Der neue Web-Editor soll die Bearbeitung von KI-generierten Bildern einfacher und nahtloser machen, so Midjourney-CEO David Holz kürzlich auf Discord. „Wir glauben, dass dies die Bearbeitung Ihrer MJ-Bilder viel reibungsloser macht als zuvor und einen großen Fortschritt darstellt“, schrieb er.

Obwohl Midjourney weiterhin von Discord weg und hin zu einer webbasierten Anwendung wechselt, kündigte das Unternehmen auch an, dass es Nachrichten von beliebten Kanälen wie „Daily-Theme“, „Prompt-Craft“ und „General-1“ in seinem Web spiegeln wird Räume und Discord-Kanäle, damit die Leute diese Threads von der Plattform aus verfolgen können, die sie bevorzugen. Das Unternehmen führte außerdem ein neues Auswahlwerkzeug ein, das wie ein digitaler Pinsel funktioniert und sowohl die quadratischen Auswahl- als auch die Lasso-Werkzeuge ersetzt hat.

Der neue Editor steht allen Midjourney-Nutzern zur Verfügung, die bereits mehr als 10 Bilder auf der Plattform generiert haben. Die ersten Reaktionen der Creator-Community waren überwiegend positiv.

Der Editor kommt zwei Wochen nach der Veröffentlichung von Midjourney 6.1 , das die Bildqualität und -kohärenz (z. B. die korrekte Anzahl der Finger) sowie die Verarbeitungszeiten und die Genauigkeit des Textverständnisses in seinen Bildansagen deutlich verbessert hat.

Grok-2 entfesselt das Monster

Das Midjourney-Update kommt außerdem nur zwei Tage nach der Veröffentlichung von Grok-2 durch Elon Musks xAI-Startup, dem nächsten großen Ding, das diese Woche passiert ist.

Die Bilderzeugungsfunktionen von Grok basieren auf dem Flux.1-Modell von Black Forrest Lab, das aufgrund seiner beeindruckenden Bildqualität und kostenlosen Nutzung schnell an Popularität gewinnt.

Die größte Kontroverse bei Grok-2 ist nicht nur seine Qualität, die recht gut ist, sondern auch seine scheinbar undefinierten Richtlinien. Im Gegensatz zu vielen anderen KI-Bildgeneratoren scheint es bei Grok-2 kaum Richtlinien zu geistigem Eigentum, Gewalt und anderen expliziten Inhalten zu geben. Es ist nicht das erste Mal, dass ein KI-Bildgenerator einen solchen Fehler sieht, aber bei Grok fühlt es sich absichtlich an, und Musk nennt es „die unterhaltsamste KI der Welt“.

Die Menschen haben bereits ihre Grenzen ausgetestet und alle möglichen schrecklichen und bizarren Bilder geschaffen, die an die Anfänge der KI-Bildgenerierung erinnern. Wenn Sie jedoch Musks Rhetorik glauben, scheinen die fehlenden Richtlinien von Grok-2 zielführend zu sein und könnten letztendlich die zukünftige Entwicklung dieser Technologie beeinflussen.

Google wird mit Imagen 3 konkurrenzfähig

Die KI-Bilderzeugung hat gerade einen großen Schritt nach vorne gemacht - unnamed
Ein KI-Bild, das mit dem Imagen-3-Modell von Google generiert wurde. Google

Schließlich kündigte Google sein neues Imagen 3 AI-Modell an, das am Donnerstag für alle US-Nutzer freigegeben wurde. Google nennt es sein „Text-zu-Bild-Modell höchster Qualität“, das nun „bessere Details, sattere Beleuchtung und weniger störende Artefakte als unsere Vorgängermodelle“ erzeugen kann. Google sagt außerdem, dass Imagen-3 Text besser wiedergeben kann und jetzt in verschiedenen Versionen erhältlich ist, die für die jeweilige Aufgabe entwickelt wurden, beispielsweise als etwas Leichteres wie eine schnelle Skizze oder etwas viel detaillierteres und hochauflösenderes.

Derzeit ist Imagen 3 nur über Googles AI Test Kitchen als Teil von ImageFX verfügbar. Dies befindet sich derzeit in der geschlossenen Betaphase, was bedeutet, dass Sie sich auf die Warteliste eintragen müssen, wenn Sie noch kein Teilnehmer sind.