Durch Klicken und Ziehen von KI-Bildbearbeitung könnte sich alles ändern
Die neueste Entwicklung der künstlichen Intelligenz ist ein Tool, mit dem Sie ein bereits generiertes Bild nach Ihren Vorgaben bearbeiten können.
Angenommen, Sie möchten „durch einfaches Klicken und Ziehen die Abmessungen eines Autos ändern oder ein Lächeln in ein Stirnrunzeln verwandeln“, könnten Sie dies mit diesem Modell namens DragGAN tun.
Das Generative Adversarial Network (GAN) befindet sich derzeit in Form eines Forschungspapiers, hat jedoch bei Interessierten, die sich seine Demos ansehen wollten, so viel Aufmerksamkeit erregt, dass die Homepage des Forschungsteams aufgrund des starken Datenverkehrs abstürzte.
The Verge verglich DragGAN mit dem Warp-Tool in Photoshop und fügte hinzu, dass es viel leistungsfähiger sei, da es keine „Pixel verschiebe“, sondern „das darunter liegende Objekt neu generiert“ und sogar 3D-Bilder drehen könne.
Das Potenzial eines solchen Tools liegt in der Tatsache, dass die generative Text-zu-Bild-KI nicht immer das ausgibt, was Sie möchten. So können Sie später noch einmal hineingehen und Änderungen an einem vorhandenen Bild vornehmen, anstatt automatisch ein neues Bild erstellen zu müssen.
Einige Demos, die Teil der Forschungsarbeit sind, umfassen das Erhöhen eines Berges, das Ändern der Positionierung eines Models und das Bearbeiten der Länge und Form ihrer Kleidung, das Öffnen oder Schließen eines Löwenmauls und das Ändern des Gesichts einer Person von einem schlichten Aussehen zu einem ein Lächeln. Bei vielen derzeit verfügbaren KI-Tools müssen Benutzer ein Bild mit einer spezifischeren Eingabeaufforderung neu generieren, um ein wünschenswerteres Ergebnis zu erzielen.
Das Forschungsteam stellte in seiner Arbeit fest, dass bei der Neugenerierung der bearbeiteten Aspekte von Bildern neue Details hinzugefügt werden können, die für die Aktualisierung von Vorteil sind. „Unser Ansatz kann verschlossene Inhalte halluzinieren, wie die Zähne im Maul eines Löwen, und er kann sich entsprechend der Starrheit des Objekts verformen, wie die Biegung eines Pferdebeins.“
Es gibt viele Marken, die versuchen, Bearbeitungsmöglichkeiten für generative KI-Inhalte anzubieten. Allerdings gehen die meisten nicht so weit, die eigentliche Bearbeitung von Bildern zu ermöglichen, sondern eher Aspekte wie die Bearbeitung rund um Bilder. Mit der Designer-App von Microsoft können Sie beispielsweise KI-Bilder aus einer Textaufforderung generieren. Sie können aus drei Ergebnissen Ihren Favoriten auswählen und ihn dann ins Designstudio bringen, wo Sie eine Vielzahl kreativitäts- und produktivitätsbasierter Projekte erstellen können, z Social-Media-Beiträge, Einladungen, digitale Postkarten oder Grafiken, bei denen das Bild im Mittelpunkt steht. Sie können das von der KI generierte Bild jedoch nicht bearbeiten.
Da es sich beim DragGAN-Tool derzeit noch um eine Demoversion handelt, lässt sich nicht sagen, welche Qualität eine leicht verfügbare Technologie haben würde oder ob sie überhaupt möglich wäre, insbesondere da die Demos auf Videos mit niedriger Auflösung basieren. Es ist jedoch ein interessantes Beispiel dafür, wie schnell sich KI weiterentwickelt.