DALL-E 3 könnte die KI-Bilderzeugung auf die nächste Stufe heben
Laut Decoder bereitet OpenAI möglicherweise die nächste Version seines KI-Text-zu-Bild-Generators DALL-E mit einer Reihe von Alpha-Tests vor, die nun der Öffentlichkeit zugänglich gemacht wurden.
Ein anonymer Leaker auf Discord teilte Details über seine Erfahrungen mit, als er Zugriff auf das kommende OpenAI-Image-Modell mit der Bezeichnung DALL-E 3 hatte. Er erschien erstmals im Mai und teilte dem interessenbasierten Discord-Kanal mit, dass er an einem Alpha-Test teilnahm OpenAI testet ein neues KI-Bildmodell. Er teilte die Bilder, die er damals erzeugte.
Die Alpha-Testversion vom Mai hatte die Möglichkeit, Bilder mit mehreren Seitenverhältnissen innerhalb des Bildmodells zu generieren. YouTuber MattVidPro AI präsentierte dann mehrere der Bilder, die im Seitenverhältnis 16:9 erstellt wurden. Diese Version zeigte auch die Fähigkeit des Modells zur qualitativ hochwertigen Textproduktion, die für Konkurrenzmodelle weiterhin ein Problem darstellt, selbst für Top-Generatoren wie Stable Diffusion und Midjourney .
Einige Beispiele zeigten Bilder, wie zum Beispiel in eine Ziegelwand eingearbeiteten Text, eine Leuchtreklame mit Wörtern, ein Plakatschild in einer Stadt, eine Kuchendekoration und einen in einen Berg eingravierten Namen. Das Modell geht davon aus, dass DALL-E gut darin ist, Menschen zu generieren. Ein solches Bild zeigte eine Frau, die auf einer Party Spaghetti isst, aus der Fischaugenperspektive.
Der Leaker kehrte Mitte Juli mit weiteren Details und neuen Bildern zum Discord-Kanal zurück. Er behauptete, Teil einer „Closed Alpha“-Testversion zu sein, an der etwa 400 Probanden teilnahmen. Er fügte hinzu, dass er per E-Mail zum Test eingeladen wurde und auch in die Tests des ursprünglichen DALL-E und DALL-E 2 einbezogen wurde. Dies führte zu der Schlussfolgerung, dass der Alpha-Test für DALL-E 3 gelten könnte, obwohl dies nicht bestätigt wurde.
Das Modell wurde zwischen Mai und Juli erheblich aktualisiert. Der Leaker hat dies demonstriert, indem er Bilder geteilt hat, die auf der Grundlage derselben Eingabeaufforderung erstellt wurden und zeigt, wie leistungsstark DALL-E 3 im Laufe der Zeit geworden ist. In der Aufforderung ist ein Gemälde zu sehen, auf dem ein rosa Narr zu sehen ist, der während eines Radwettbewerbs einem Panda ein High Five gibt. Die Fahrräder bestehen aus Käse und der Boden ist sehr schlammig. Sie fahren durch einen nebligen Wald. Der Panda ist wütend.
Die Mai-Alpha erzeugt die allgemeine Szene, die die meisten Punkte der Aufforderung trifft. Es gibt eine leichte Verzerrung bei den Händen, die sich verbinden, und die Räder der Fahrräder sind gelb und nicht aus Käse. Die Juli-Alpha ist jedoch weitaus detaillierter, da der rosa Narr und der Panda eindeutig High-Five machen und die Fahrradräder in mehreren Generationen aus Käse bestehen.
Währenddessen fehlt in Midjourney der Narr von der Szene, die Pandas sind auf Motorrädern statt auf Fahrrädern unterwegs. Es gibt Straßen statt Schlamm. Die Pandas sind glücklich statt wütend.
Es gibt zahlreiche Beispiele für DALL-E-Alphabilder vom 3. Juli, die das Potenzial des Modells zeigen. Da der Alpha-Test jedoch unzensiert sei, könne es laut dem Leaker auch zu Szenen mit „Gewalt und Nacktheit oder urheberrechtlich geschütztem Material wie Firmenlogos“ kommen.
Zu den Beispielen gehören unter anderem ein blutrünstiges Anime-Mädchen, eine Game of Thrones- Figur, ein Grand Theft Auto V- Cover, ein Zombie-Jesus, der ein Subway-Sandwich isst, was ebenfalls auf leichtes Blut hindeutet, und Shrek, der bei einer archäologischen Ausgrabung ausgegraben wurde.
MattVidPro AI stellte fest, dass das Bildmodell Bilder so generiert, als ob sie einen bestimmten Stil haben sollten.
DALL-E 2 wurde im April 2022 eingeführt, war jedoch aufgrund seiner Beliebtheit und Bedenken hinsichtlich Ethik und Sicherheit stark reguliert und verfügte über eine Warteliste. Der KI-Bildgenerator wurde im September 2022 der Öffentlichkeit zugänglich gemacht.