Keine Panik, KI-Malerei kann Kunst nicht töten

Dezember 1, 2022 Eskere Guru

Ein Tag KI-Malen ist ein Jahr auf der Erde.

Dall-E 2 und Midjourney, die in der ersten Jahreshälfte populär wurden, wurden in der zweiten Jahreshälfte vollständig von Stable Diffusion überschattet.

Die neuesten Heißzeichnungsprodukte haben alle „Diffusion“ in ihren Namen und sie alle profitieren von dem „Diffusion“-Algorithmus der künstlichen Intelligenz. Dieser Algorithmus durchbricht den anwendungskritischen Punkt des KI-Malens, das einfacher zu verwenden und effektiver ist.

Die maschinelle Malerei hat eine Geschichte von einem halben Jahrhundert, und innerhalb von zwei Jahren wurde die KI-Malerei plötzlich zu einem „Angriffsgiganten.“ Nicht nur die Qualität hat sich mit bloßem Auge sichtbar verbessert, sondern auch die Geschwindigkeit der Bilderzeugung wurde von wenigen verkürzt Stunden am Anfang des Jahres auf mehr als zehn Sekunden Glocke.

Bedeutende Fortschritte in der KI-Maltechnologie haben das Interesse an „kreativer KI“ geweckt – einer Reihe von KI-Werkzeugen, die die menschliche Kreativität nachahmen, von der bildenden Kunst bis zur Poesie. Aber niemand fühlte sich wirklich in Panik.

Vor einiger Zeit spekulierten viele Leute, dass Yan Ning, ein Biologe, die Vereinigten Staaten verließ und nach China zurückkehrte, weil das künstliche Intelligenzsystem AlphaFold die Struktur von Proteinen vorhersagen konnte und seines Jobs beraubt wurde. Tatsächlich gibt es seit langem Software, die Nachrichteninformationen schreiben kann, und kein Journalist hat deswegen seinen Job verloren. KI kann nicht einmal Menschen ersetzen, die Tofuwürfel schreiben, geschweige denn Spitzenwissenschaftler.

Was ist der Diffusionsalgorithmus

Die aktuellen Modelle der künstlichen Intelligenz verwenden tief lernende neuronale Netze. Selbstlernende Modelle wie GPT-3 sind die bekanntesten dieser Modelle, die auf dem neuronalen Netzwerk von etwa 45 TB Textdaten „lernen“ und Werke erzeugen, die fast der menschlichen Leistung entsprechen.

Stable Diffusion ist Teil der Deep-Learning-Familie. Insbesondere lernt Stable Diffusion die Verbindung zwischen Bildern und Text durch ein latentes Diffusionsmodell. Es funktioniert, indem es Bilddaten nimmt und ihnen "Rauschen" hinzufügt. Rauschen, auch Rauschen genannt, bezieht sich auf die rauen Stellen in den Bildern, die von digitalen Fotoausrüstungen aufgenommen wurden und die im Allgemeinen durch elektronische Interferenzen erzeugt werden.

Einem Bild wird allmählich Rauschen hinzugefügt, bis das gesamte Bild zu weißem Rauschen wird. Das Modell zeichnet diesen Prozess auf und kehrt ihn um, damit die KI lernt.

Aus Sicht der KI sieht man zuerst ein Bild voller Rauschen, dann sieht man, dass das Bild klarer wird und schließlich zu einem Gemälde wird. Was die KI lernt, ist der gesamte Rauschunterdrückungsprozess, insbesondere der Umgang mit Gaußschem Rauschen und schließlich die Erzeugung von Gemälden.

Gaußsches Rauschen bezieht sich auf eine Art von Rauschen, dessen Wahrscheinlichkeitsdichtefunktion der Gaußschen Verteilung (d. h. der Normalverteilung) gehorcht.Der Diffusionsalgorithmus fügt Gaußsches Rauschen hinzu.Einer besteht darin, die Gültigkeit des „tatsächlichen" Bildes zu verifizieren, da die Bilder in der Umgebung verwendet werden sind alle verrauscht. Eine dient der Bequemlichkeit des Lernens, solange das Rauschen nicht der Standard-Normalverteilung entspricht, ist es ungültig.

Die Basisdatenbank von Stable Diffusion heißt LAION-Aesthetics, die Bilder mit Illustrationen enthält und auch nach "ästhetischem Stil" gefiltert ist. Andere trainierte Modelle der künstlichen Intelligenz „korrigierten“ die Datenbank ebenfalls, um vorherzusagen, wie Menschen auf die Bewertungen „Wie sehr gefällt Ihnen dieses Gemälde“ reagieren würden, um einige pornografische Inhalte zu eliminieren.

Wie unterscheidet es sich von den "Vorgängern"

Stable Diffusion ähnelt Dall-E 2 und Midjourney darin, dass es sich auf „Textbeschreibung“ stützt, um Bilder zu generieren.

Stable Diffusion ist jedoch Open Source und der zugrunde liegende Code ist öffentlich verfügbar. Weder Open AI noch Google haben eigene KI-Modelle veröffentlicht.

Stability AI besteht aus mehr als 4.000 NVIDIA A100-GPUs, die in der Amazon Cloud (AWS) ausgeführt werden. Berichten zufolge übersteigen die Betriebs- und Cloud-Kosten von Stability AI 50 Millionen US-Dollar.

Das Unternehmen behauptet, dass es einen „Durchbruch in Geschwindigkeit und Qualität“ bieten kann und dass auch GPUs mit weniger als 10 GB Speicher ausgeführt werden können. Sie werden auch Versionen anbieten, die auf AMD- und Apple M1/M2-Chips laufen.

Derzeit besteht die Funktion von Stable Diffusion darin, Text in wenigen Sekunden in ein Bild mit 512 × 512 Pixeln umzuwandeln; das Bild kann transformiert, vergrößert, modifiziert und ersetzt werden; mithilfe von GFP-GAN-Modellierung können Benutzer unscharfe Gesichtsbilder hochladen zum Vergrößern oder Wiederherstellen des ursprünglichen Aussehens.

Im vergangenen Monat sammelte Stability AI 101 Millionen US-Dollar. CEO Emad Mostaque schloss sein Studium der Mathematik und Informatik an der Universität Oxford mit einem Master ab und arbeitete zuvor als Analyst bei verschiedenen Hedgefonds. Derzeit hat das Unternehmen einen Wert von 1 Milliarde US-Dollar.Zusätzlich zu Stable Diffusion gibt es auch Dance Diffusion-Musikbearbeitung.

Der Plan von Stability AI zum Geldverdienen besteht darin, „private“ Modelle und Allzweck-Infrastrukturplattformen für Kunden zu trainieren. Es hat eine Plattform, DreamStudio, die auch für einzelne Benutzer zugänglich ist. Heute hat DreamStudio über 1,5 Millionen Benutzer, die rund 200 Millionen Bilder erstellt haben. Alle Kanäle zusammengerechnet hat Stable Diffusion mehr als 10 Millionen Nutzer.

Das Unternehmen stellte auch den hochkarätigen Google-Wissenschaftler und Futuristen Daniel Jeffries ein.

Ist das Kunst?

Mit der Ankündigung verschiedener künstlicher Intelligenzen nehmen auch die damit verbundenen ethischen und rechtlichen Fragen zu. Stable Diffusion ermöglicht die Erzeugung von realen Bildern, und das Problem wird "ernsthafter".

Stable Diffusion wurde von Benutzern verwendet, um viele sensible Inhalte zu erstellen, und gefälschte Promi-Fotos fliegen überall umher. Getty Images hat das Hochladen von Bildern, die von Stable Diffusion erstellt wurden, aufgrund von Bedenken hinsichtlich des geistigen Eigentums verboten.

Die Abgeordnete des US-Repräsentantenhauses, Anna G. Eshooo, veröffentlichte kürzlich einen Brief, in dem sie den US-amerikanischen Nationalen Sicherheitsberater und das Office of Science and Technology Policy auffordert, sich mit diesen „unsicheren Modellen“ zu befassen.

In der Release-Ankündigung kündigte Stability AI eine „lose Lizenz zur kommerziellen und nicht-kommerziellen Nutzung“ an, bei der es sich eigentlich um eine Vereinbarung mit den Nutzern handelt. Es erwartet von Benutzern, dass sie ihr Verhalten selbst regulieren und das „Richtige“ tun, und hat wenig Auswirkungen auf die Bestrafung von Benutzern, die sich nicht an die Regeln halten.

Neben rechtlichen Fragen sind auch durch künstliche Intelligenz generierte Werke verdächtig.

Wie auch immer, das U.S. Copyright Office betrachtet diese Bilder als „keine Kunst“. Im Februar wies der Prüfungsausschuss des Copyright Office Ansprüche auf Bilder zurück, die von künstlicher Intelligenz generiert wurden.

Das Review Board betonte, dass "die menschliche Urheberschaft eine Voraussetzung für den Urheberrechtsschutz" sei und "die Beziehung zwischen menschlichem Denken und kreativem Ausdruck" erfordere. Auch das US-Bundesgericht hat in einem aktuellen Urteil entschieden, dass künstliche Intelligenz nicht als „Erfinder“ eines Patents gezählt werden kann.

Kunst der künstlichen Intelligenz ist sehr attraktiv, obwohl sie rechtlich nicht anerkannt ist, wird sie vom Markt anerkannt. Im Jahr 2018 verkaufte Christie's ein Gemälde mit künstlicher Intelligenz für 435.000 US-Dollar. Darüber hinaus kann die überwiegende Mehrheit der Verbraucher den Unterschied zwischen KI-Gemälden und den Werken menschlicher Maler nicht erkennen.

Am umstrittensten ist der Kunstwettbewerb der Colorado State Fair im September dieses Jahres, bei dem das künstliche Intelligenz-Werk „Théâtre D’opéra Spatial" den ersten Preis gewann. Es wurde von Midjourney produziert und der Betreiber Jason Allen sagte: „Art is dead, AI gewinnt, Menschen verlieren".

Eigentlich muss man nicht verallgemeinern: Bei der Entwicklung künstlicher Intelligenz braucht man weder zu optimistisch noch übertrieben pessimistisch zu sein.

Die künstlerische Schöpfung der künstlichen Intelligenz ist nach der „Logik“ des Menschen produziert, natürlich nicht so gut wie menschliche Eliten, aber mehr als genug, um das Mittelmaß unter ihnen zu übertreffen.

#Willkommen, auf Aifaners offizielles öffentliches WeChat-Konto zu achten: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so bald wie möglich präsentiert.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo