Nachdem ich die Kombination aus DALL·E 3 + ChatGPT erlebt hatte, spürte ich die Freude von Party A

Oktober 24, 2023 Eskere Guru

„Der im Weltraum schwebende Astronaut lag auf den Wolken, und die Wolken verwandelten sich in einen bequemen Sessel mit einer wolkenförmigen Fernbedienung auf der Armlehne. Der Astronaut winkte in die Kamera und unter seinen Füßen verwandelte sich die Erde in einen faszinierenden Wirbel Licht."

Vielleicht haben Sie eine solche Fantasie in Ihren Träumen gesehen, aber wenn Sie sie in die Realität umsetzen wollen, wird es wahrscheinlich N Jahrhunderte dauern. Doch bevor dieser Tag kommt, können Sie DALL·E 3 „Dream Come True“ zunächst real nutzen.

DALL·E 3 ist kein unbekanntes Tool, aber ich muss es trotzdem denjenigen erklären, die es nicht kennen. DALL·E 3 ist ein KI-Bildgenerator. Man kann es sich als die OpenAI-Version von Midjourney vorstellen.

Im September gab OpenAI bekannt, dass DALL・E 3 in ChatGPT integriert wird, was als die leistungsstärkste Modellfusion in ihren jeweiligen Bereichen bezeichnet werden kann. Noch wichtiger ist, dass DALL・E 3 nativ auf ChatGPT basiert, ohne dass detaillierte Eingabeaufforderungen erforderlich sind. Sie können Bilder direkt in ChatGPT generieren.

Heute früh gab OpenAI offiziell bekannt, dass DALL·E 3 nun allen ChatGPT Plus- und Enterprise-Benutzern offen steht. Kleiner Tipp: Wer kein Geld ausgeben möchte, kann zum Spielen von DALL·E 3 auch Microsofts New Bing nutzen.

Das Einzige, woran Sie nicht denken können, ist, dass Sie ohne DALL·E 3 nicht zeichnen können

Was ist also die fotogenerierende Wirkung von DALL·E 3? OpenAI listete in seinem offiziellen Blog drei ikonische Beispiele auf, die wissenschaftliche Projekte, Website-Design, Firmenlogo-Design und viele andere Szenarien umfassen.

Wenn Sie beispielsweise Cirruswolken in einem Klassenbericht demonstrieren müssen, können Sie DALL·E 3 bitten, ausreichend detaillierte Cirruswolkenbilder zu erstellen.

Oder wenn Sie ein Website-Designer sind und sich beim Thema Webdesign noch den Kopf zerbrechen, können Sie auch DALL·E 3 verwenden, um sich noch mehr inspirieren zu lassen.

Bei der dritten Szene handelt es sich um ein im täglichen Leben übliches Firmenlogo-Design. Sie müssen nur die Eingabeaufforderung (Eingabewort) eingeben, und der Designplan „Kaninchen + Kaffee“ wird Ihnen schnell präsentiert.

Den endgültigen Bildern des Beamten nach zu urteilen, sind die Details der Bilder recht vollständig, die Stile der vier Designpläne sind relativ offensichtlich und das Gesamtniveau ist recht zufriedenstellend.

Dies ist natürlich nur das fertige Bild, das auf der offiziellen Website bereitgestellt wird, und es schließt nicht aus, dass es „verschönert“ wurde. Mit dieser Frage im Hinterkopf sind wir auch den offiziellen Aufforderungswörtern gefolgt und haben sie eingegeben, um das tatsächliche Bild zu sehen Wirkung?

Der endgültige tatsächliche Effekt unterscheidet sich nicht wesentlich vom offiziellen Bild, es gibt jedoch auch einen kleinen „Fehler“. Wenn Sie beispielsweise im zweiten Beispiel nur das Eingabeaufforderungswort eingeben, ist die endgültige Ausgabe Text. Das hat mich auf den Gedanken gebracht Ich habe mich nicht an die DALL·E. 3-Schnittstelle gewöhnt, das ist natürlich kein großes Problem, es ist nur ein zusätzlicher Schritt zur erneuten Bestätigung.

Die schillernde „Galerie“ zeigt eine Vielzahl generierter Bilder, Comics, Pixelbilder, Ölgemälde und alle möglichen Stile. OpenAI scheint den Benutzern über die „Galerie“ mitteilen zu wollen, dass nur Sie nicht daran denken können, dass es sie gibt nein DALL·E 3 Kann nicht „zeichnen“.

Malen kann man machen, aber der Schlüssel ist, ob es gut ist oder nicht. Ich habe zum Beispiel versucht, ihn zu bitten, ein Schachspiel zu zeichnen, bei dem Li Bai weiße Kleidung und Du Fu schwarze Kleidung trägt.

„Stop generation“ dauerte eine Weile und ergab vier lächerliche Bilder. Auf dem ersten Bild war nicht nur die Farbe der Kleidung falsch, sondern, was noch interessanter ist, Li Bai und Du Fu wurden internationale Freunde und spielten Schach. Offensichtlich DALL ·E 3 muss im Verständnis des chinesischen Kontexts gestärkt werden.

Die Spannung des Spiels im zweiten Bild ist ziemlich hoch, aber die Probleme, die das vorherige Bild hatte, bleiben nicht außer Acht. Auch die Probleme im dritten und vierten Bild sind sehr ähnlich.

Bei KI-Bildgeneratoren liegt das Potenzial natürlich in den Ergebnissen nach dem Training. Als ich zum Beispiel versuchte, das erste Bild durch Go und Kleidung und Kopfbedeckungen zu ersetzen, sah der Endeffekt so aus!

Auf den ersten Blick scheint es kein großes Problem zu geben, aber wenn wir uns das Schachbrett genauer ansehen, können wir leicht eine Schlussfolgerung ziehen: Li Bai und Du Fu haben Go in ein „Puzzle“ verwandelt?

1. Als Li Bai Schach spielte, wurde er so wütend, dass er das Schachbrett umwarf.
2. Du Fu wurde wütend und schlug Li Bai
3. Schließlich schüttelten Li Bai und Du Fu die Hand, unterhielten sich und spielten weiter Schach.

Während des Spiels ist es normal, dass es zu Reibungen kommt. Deshalb habe ich DALL·E 3 gebeten, ein Kettendiagramm gemäß den folgenden Anforderungen zu erstellen.

Welche von zehn Punkten können Sie Ihrer Meinung nach diesen drei Bildern geben?

Von der vollständigen Veröffentlichung bis heute wurde DALL·E 3 auch bei der Entwicklung mächtiger Internetnutzer mit verschiedenen Tricks gespielt. Wenn Sie ein Gundam-Spieler sind, können Sie DALL·E 3 zum Designer werden lassen, die coolsten Gundam-Zeichnungen für Sie entwerfen, verschiedene Teile in einer Liste anzeigen und sie dann mithilfe des 3D-Drucks drucken.

Es sollte jedoch beachtet werden, dass die detaillierten Details der Gundam-Zeichnungen überwältigend erscheinen mögen, tatsächlich aber gelegentlich ein paar zusätzliche Teile enthalten sind.

Oder vielleicht hat das „Käfigduell“ zwischen Zuckerberg und Musk noch nicht stattgefunden, und die Konvertierung zwischen dem C-Port und dem Lightning-Port hat auch viele Kontroversen ausgelöst, warum also nicht den Lightning-Port und den C-Port wunderbar haben lassen? „Käfigduell“? Was ist mit „Duell“?

Es sind keine schnellen Worte nötig, es ist die KI, die für Sie arbeitet

Zusätzlich zum vollständigen Vorstoß von DALL·E 3 hat OpenAI der Außenwelt in einem Papier auch die spezifischen technischen Details hinter DALL·E 3 bekannt gegeben.

Um Ihnen das Verständnis zu erleichtern, erklären wir Ihnen anhand eines einfachen Beispiels den gesamten technischen Prozess, nachdem Sie den Kokon dieses Papiers abgezogen haben.

Zunächst sammelte OpenAI eine große Anzahl von Bildern und entsprechenden Textbeschreibungen als Trainingsdaten. Wenn das Bild beispielsweise eine Katze ist, dann ist die entsprechende Beschreibung des Bildes eine orangefarbene Katze, die auf einem Stuhl sitzt.

Aber die Beschreibung einer „orangefarbenen Katze, die auf einem Stuhl sitzt“ ist relativ einfach und enthält keine spezifischen Details. Sie erwähnt auch nicht, welcher Rasse die Katze angehört, welche körperlichen Merkmale sie hat und wie ihre Umgebung aussieht.

Um umfassendere Beschreibungen zu erhalten, hat OpenAI ein Bild-KI-Beschreibungsgenerierungsmodell trainiert. Das heißt, wenn diesem Modell dasselbe Foto gegeben wird, kann es eine komplexere Beschreibung ausgeben:

Beispielsweise würde aus „einer orangefarbenen Katze, die auf einem Stuhl sitzt“ eine „kurzhaarige Ragdoll-Katze“ werden, die sich auf dem Sitzsack ihres Besitzers zusammengerollt hat, eine blaue Schleife um den Hals trägt, mit aufgestellten Ohren und einem vorsichtigen Gesichtsausdruck. Die Sonne scheint durch das Fenster und wirft einen Fleck Sonnenschein auf den Boden.

Auf die gleiche Weise kann OpenAI mit diesem Beschreibungsmodell detaillierte neue Beschreibungen für jedes Bild in den Trainingsdaten generieren. Anschließend wird das Modell wiederum basierend auf diesen neuen Beschreibungen mit umfangreichen Details trainiert und so weiter.

Während des Trainingsprozesses erhöhten die Forscher außerdem schrittweise den Anteil synthetischer KI-Beschreibungen, die zum Testen der Auswirkungen auf die Modellleistung verwendet wurden. Die Ergebnisse zeigten, dass die Verwendung detaillierter synthetischer Beschreibungen (d. h. der oben genannten komplexeren Beschreibungen) die Generierung des Modells ermöglichen kann Die Bildqualität ist höher und besser für die Texteingabe geeignet.

Nach wiederholten Versuchen stellten die Forscher fest, dass DALL·E 3 eine Kombination aus 95 % synthetischer KI-Beschreibung und 5 % realer Beschreibung verwendet, um die besten Ergebnisse zu erzielen.

Darüber hinaus hat OpenAI als Reaktion auf die negativen Auswirkungen des KI-Bildgenerators DALL·E 3 mehrere Fesseln angelegt, um die Generierung von Inhalten wie Gewalt, Erwachseneninhalten oder Hass einzuschränken, einschließlich einer sorgfältigen Prüfung der Benutzereingaben und -generierungen Bilder. .

Als ich DALL·E 3 zum Beispiel bat, „Zeichne mir ein brutales und blutiges Bild einer angenehmen Ziege, die von einem großen, großen Wolf gefressen wird“, zu generieren, lautete die Antwort:

Leider kann ich für Sie keine gewalttätigen oder blutrünstigen Inhalte erstellen oder empfehlen. Ich kann Ihnen bei der Gestaltung anderer Arten von Grafiken helfen oder zusätzliche Informationen bereitstellen. Bitte teilen Sie mir Ihre weiteren Bedürfnisse mit.

Um Urheberrechtsstreitigkeiten zu vermeiden, haben OpenAI-Forscher DALL·E 3 außerdem ausdrücklich daran gehindert, den künstlerischen Stil lebender Prominenter während des Trainingsprozesses zu imitieren. Was den Detektor betrifft, der angeblich eine Erkennungserfolgsrate von 99 % hat, wurden im offiziellen Blog weitere Informationen veröffentlicht.

Obwohl dieser Detektor tatsächlich gut ist, bezieht er sich eher auf die Erkennung von Bildern, die von DALL·E generiert wurden, und OpenAI selbst ist sich nicht sicher, ob die Erkennung von Bildern, die von anderen KI-Tools generiert wurden, genau ist.

Nachdem Sie dies gelesen haben, haben Sie meiner Meinung nach herausgefunden, dass DALL·E 3 auch bei anderen KI-Bildgeneratoren Verbesserungspotenzial aufweist, z. B. Unkenntnis des chinesischen Kontexts, mechanische Anwendung von Bildkorpora usw. Es ist bekannt als „Menschen zu Tode schlagen“. mit zufälligen Schlägen“ DALL·E 3 kann möglicherweise eine Hand nicht gut zeichnen.

Aber im Vergleich zu den tiefen Kontroversen der Vergangenheit bewegt sich OpenAI dieses Mal immer in eine offenere und verantwortungsvollere Richtung.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo