5 Dinge, mit denen KI-Bildgeneratoren immer noch zu kämpfen haben

KI-Bildgeneratoren wie Dall-E , Stable Diffusion , Midjourney und Bing Image Creator liefern erstaunliche Ergebnisse, aber manchmal können sie unglaublich frustrierend sein. Mit einfachen Eingabeaufforderungen, die nur wenige Wörter enthalten, kann eine KI beeindruckende Bilder ausgeben, die wie professionelle Fotografien und überzeugende Kunst in verschiedenen Stilrichtungen erscheinen. Die gleiche Eingabeaufforderung wird jedoch gelegentlich eine schreckliche Kreatur oder ein urkomisch fehlerhaftes Rendering erzeugen.

Negative Eingabeaufforderungen können dazu beitragen, die Wahrscheinlichkeit dieser Fehler zu verringern, aber Komplexität kann Sie nicht immer retten. Sogar KI-Experten kämpfen mit missgestalteten Kreaturen und weltfremden Szenen, was stundenlanges Verfeinern von Eingabeaufforderungen oder Retuschieren von Bildern mit einem herkömmlichen Bildbearbeitungsprogramm erfordert. Wenn Sie sich die richtigen Bereiche eines Bildes genau ansehen, besteht vorerst eine gute Chance, dass Sie erkennen können, ob es von einer Maschine erstellt wurde.

Handsalat und Fingerballen

KI-Entwickler haben Fortschritte in dem Kampf gemacht, Tools für künstliche Intelligenz beizubringen, wie menschliche Hände aussehen sollten, aber es gibt noch viel Raum für Verbesserungen. Wenn die Finger nicht prominent dargestellt werden, ist es leicht, Fehler zu übersehen, aber es ist ein andauerndes Problem.

Dall-E war ein früher KI-Anführer, aber Hände sind nicht sein Ding.
Dall-E war ein früher KI-Anführer, aber Hände sind nicht sein Ding. Dall-E von Alan Truly aufgefordert

Einer der ersten und besten öffentlich zugänglichen KI-Bildgeneratoren, Dall-E von OpenAI , erstellte diese Bilder von Menschen, die Händchen halten. Auf den ersten Blick mag es gut aussehen. Bei näherer Betrachtung werden einige Probleme deutlich. Hüten Sie sich vor zusätzlichen Fingern, seltsamen Fingernägeln und verschmolzenen Ziffern.

Komplizierte Griffe und verschränkte Finger sind noch herausfordernder. Seien Sie nicht überrascht, wenn Ihre KI-Bilder mit klassischen Störungen zurückkommen, die als „Handsalat“ oder „Fingerballen“ bezeichnet werden.

Dall-E's verschränkte Hände sind verstörend.
Dall-E's verschränkte Hände sind verstörend. Dall-E von Alan Truly aufgefordert

Beunruhigender Text und Schreiben

Sie könnten erwarten, dass Text für einen Computer einfach zu generieren wäre. Sie sehen täglich Beweise für Wörter auf Bildschirmen, wenn Sie zum Telefon greifen oder einen Browser öffnen. Frühe Computer konnten im Gegensatz zu den heutigen Top-Gaming-PCs keinerlei Grafiken anzeigen. Alles war Text oder Zahlen.

Leonardo AI kennt Stile, aber gedruckter Text ist eine Herausforderung.
Leonardo AI kennt Stile, aber gedruckter Text ist eine Herausforderung. Leonardo AI, angeregt von Alan Truly

Doch die Darstellung tatsächlicher Buchstaben und Symbole als gedruckte oder geschriebene Wörter ist für einen KI-Bildgenerator überraschend schwierig. Es mag wie ein leicht zu lösendes Problem klingen, ist es aber nicht. Eine App kann nicht einfach reinen Text überlagern. Um überzeugend zu wirken, müssen Textstil, Schattierung, Winkel und Perspektive zum Rest der Szene passen.

In dem Beispiel hat sich ein relativ neuer KI-Bildgenerator, Leonardo AI, mit einer Vintage-Werbetafel für das Diner von Jack Rabbit Slim tapfer bemüht. Nach mehreren Versuchen gelang es der KI, „Jack Rabbit's“ zu buchstabieren, was der Anfrage ziemlich nahe kommt. Der Vintage-Fotostil war in jedem Bild genau richtig, aber die Buchstaben und Wörter waren größtenteils fehlerhaft.

Leonardo AI hat es fast geschafft, den Text in einem dieser Renderings richtig zu machen.
Leonardo AI hat den Text im Rendering auf der linken Seite fast korrekt hinbekommen. Leonardo-KI-Renderings werden von Alan Truly veranlasst

Die Augen haben es nicht

Bing Image Creator hat Probleme mit den Augen.
Bing Image Creator auf Anregung von Alan Truly

Es wird oft gesagt, dass die Augen die Fenster zur Seele sind. Wir verlassen uns so sehr auf Augenkontakt, dass dies das kritischste Detail bei der Erstellung eines realistischen Porträts sein könnte. Aber viele KI-Tools haben Schwierigkeiten, menschliche Augen wiederzugeben.

Bing Image Creator hat mit dem Studiohintergrund und der Aufstellung eines Familienfotos mit mehreren Generationen gute Arbeit geleistet. Fast jeder Mensch hat jedoch bizarre Augen, die aussehen, als wären sie von Außerirdischen eingesetzt worden, oder vielleicht verwandeln sich diese lächelnden Menschen gerade in überirdische Kreaturen.

Zwei nähere Beispiele für die Augenprobleme von Bing Image Creator.
Zwei nähere Beispiele für die störenden Augenprobleme von Bing Image Creator. Bing Image Creator auf Anregung von Alan Truly

Lästige Werkzeuge

Menschen sind großartig im Umgang mit Werkzeugen und nicht nur mit der digitalen Vielfalt wie KI. Wir beherrschen schnell jedes physische Werkzeug in unserer Reichweite. Einer KI hingegen fällt es schwer zu verstehen, was sie sind und wie sie verwendet werden.

Midjourney versteht Hände, ist aber von Schraubenschlüsseln verwirrt.
Midjourney versteht Hände, ist aber von Schraubenschlüsseln verwirrt. Ist das unten links eine Glühbirne? Midjourney, veranlasst von Alan Truly

Midjourney ist ein KI-Bildgenerator, der fantastische Fortschritte bei der Lösung von Problemen mit menschlichen Gesichtern und Händen macht. Wenn Sie jedoch aufgefordert werden, einen Mechaniker zu zeigen, der eine Schraube mit einem Schraubenschlüssel festzieht, fehlt das Werkzeug vollständig. In einem Fall werden Fingernägel zu Handschuhen hinzugefügt, und in einem anderen erscheint irgendwie eine Glühbirne.

Scheren sind zu kompliziert für Bing Image Creator in dieser Nahaufnahme von Haaren, die geschnitten werden. Sie sind nur in einem Bild geöffnet und scheinen nie im Akt des Schneidens zu sein.

Bing Image Creator kann keine Schere erkennen.
Bing Image Creator kann nicht herausfinden, wie Scheren funktionieren. Bing Image Creator auf Anregung von Alan Truly

Albtraumzähne

Stable Diffusion-Renderings von Lächeln haben manchmal zu viele Zähne.
Stable Diffusion via Leonardo AI, angeregt von Alan Truly

Wenn Menschen lächeln und lachen, verbessert das normalerweise ein Bild, macht es angenehm und lustig. Wenn eine einfache Aufforderung wie zwei lächelnde und lachende Schüler gegeben wird, kann eine KI dies mit mehreren Zahnreihen und anderen seltsamen Verzerrungen in Alptraumtreibstoff verwandeln.

Mit Leonardo AI können Sie zwischen mehreren Modellen wählen, von denen einige gut mit Zähnen umgehen. Das beliebte Stable Diffusion 2.1-Modell brauchte etwas Hilfe, um die Zähne richtig zu bekommen. Mit einigen negativen Aufforderungen wurde das Problem gelöst. Es gibt Lösungen für diese KI-Bildprobleme, aber es braucht noch Arbeit, um gute Ergebnisse zu erzielen.

Stable Diffusion-Lächeln profitiert von negativen Aufforderungen.
Stable Diffusion-Lächeln profitiert von negativen Aufforderungen, „seltsame Zähne“ und „verzerrten Mund“ zu entfernen. Stable Diffusion via Leonardo AI, angeregt von Alan Truly

KI-Kunst verbessert sich schnell

In den frühen Tagen der KI-Kunst waren die Ergebnisse seltsam und wunderbar und schufen gleichermaßen Schönheit und Schrecken. Die Fehler werden mit jedem neuen Update weniger auffällig, und viele Probleme können mit etwas Feinschliff behoben werden.

Bei so vielen verfügbaren KI-Tools ist es einfach, ein anderes System auszuprobieren. Viele KI-Bildgeneratoren ermöglichen negative Eingabeaufforderungen oder andere Optionen, um den Algorithmus anzupassen und bessere Ergebnisse zu erzielen.

Möglicherweise müssen Sie mehrere Versuche durchführen, um ein brauchbares Bild zu erhalten, insbesondere wenn der Fokus auf Gesichtern oder Händen liegt. Wenn Sie gedruckte oder geschriebene Wörter einfügen möchten, sollten Sie darauf vorbereitet sein, Zeit in einem Bildeditor zu verbringen, um die unsinnigen Buchstaben der KI zu löschen und den richtigen Text einzufügen.

Die gute Nachricht ist, dass viele KI-Bildgeneratoren kostenlos und Abonnementmodelle relativ günstig sind. Innerhalb eines Jahres konnten diese anhaltenden Probleme gelöst werden, sodass Sie ein KI-Rendering als fertiges Kunstwerk oderals Ersatz für ein Foto verwenden können .