Ich habe die neue Funktion von ChatGPT verwendet, um ein Bild zu bearbeiten und an Moments zu senden, aber in allen privaten Nachrichten wurde ich gefragt, wie das geht?
Als OpenAI heute früh die neue Generation der Vincent-Grafikfunktion veröffentlichte, war sich nicht jeder über deren Stärke im Klaren. Sie dachten, es würde Gemini folgen und einige späte Upgrades bringen.
GPT sagte nichts, sondern schockierte das Publikum lediglich mit seinen Anwendungsfällen.
In seiner neuesten Version bringt OpenAI bahnbrechende Befehlskonformität und konsistente Leistung in die Vincentian-Graph-Funktionalität. Mit der einfachsten Texteingabe können Sie eine hochpräzise Feinabstimmung der Bilddetails erreichen – alle Änderungen müssen nur in der Sitzung vorgenommen werden , ohne zusätzliche Vorgänge wie Schaltflächen oder Pinsel.
Für Magie sind keine Pinsel erforderlich, sondern nur Zauber
Ähnlich wie bei Gemini liegt der Schwerpunkt dieses OpenAI-Updates nicht darauf, wie realistisch und komplex die Bilder sein können, sondern auf der Einhaltung und Konsistenz der Anweisungen, und dies unter der Voraussetzung, dass nur Anweisungen in natürlicher Sprache verwendet werden.
Schauen wir uns zunächst eine Reihe von Food-Fotos für Einsteiger an. Auch die Eingabeaufforderung ist sehr einfach: Erzeugen Sie ein Bild von Kaffee und Brot.
Später habe ich, basierend auf dem Originalbild, darum gebeten, es in Eiskaffee und Marmeladenaufstrich zu ändern.
Bis auf den Tassengriff habe ich hinzugefügt, was hinzugefügt werden musste, und übrig gelassen, was weggelassen werden musste, und die Anweisungen wurden sehr gut befolgt.
Bilder mit Porträts weisen ebenfalls eine stabile Leistung auf.
Wenn Sie genau hinsehen, gibt es noch einige kleine Veränderungen, aber die kritischsten menschlichen Körperbewegungen, Kleidungsfalten und Gesichtsausdrücke sind alle makellos.
Beim Erstellen dieser Bildergruppe bin ich auf die Inhaltsrisikokontrolle gestoßen und habe eine Fehlermeldung erhalten, dass sie nicht den Richtlinienanforderungen entsprach. Es war sich jedoch der Absicht der ursprünglichen Richtlinie und der vorgeschlagenen Änderungen bewusst.
Letzteres ist auch dasjenige mit der besten und natürlichsten Wirkung.
Aufgaben mit einfachen Bildschirminhalten sind natürlich leicht zu verstehen, aber wie sieht es mit komplizierteren aus?
Im vorherigen Gemini-Fototest haben wir eine Straßenszene in einer Stadt erstellt, und der Effekt war verblüffend. Schauen Sie noch einmal rein:
Die gleiche Eingabeaufforderung wurde auf ChatGPT ausgeführt, der Bildeffekt war jedoch etwas schlechter, insbesondere nachts, wo die Details der Menschenmenge fast unsichtbar waren.
Natürlich geht es bei diesem Problem eher um ästhetische Unterschiede. Es ist kein Problem, Schlüsselelemente zu identifizieren. Es kann sogar kleine Details wie „Tsutaya Bookstore“ erfassen und auch die Schriftgenerierung ist recht stabil.
Zusätzlich zur direkten Generierung mit Text können Sie auch Bilder zur Änderung hochladen – hier kommt die schockierendste Episode.
Nachdem Sie das APPSO-Logo im PNG-Format hochgeladen haben, besteht der erste Schritt darin, es einfach in 3D umzuwandeln.
Der Effekt ist in Ordnung, die Schattenrichtung ist inkonsistent, passt aber zum Licht selbst. Nehmen Sie als Nächstes einige Anpassungen vor.
Schockierend! Die Eingabeaufforderungen für diese beiden Anpassungen umfassen nur etwa zwanzig Wörter.
(Sogar die standardmäßigen digitalen Produkte stammen von Apple und einige nicht erwähnte Eigenschaften sind wirklich verborgen.)
Auch die anschließende Feinjustierung bei kleinen Winkeln ist sehr genau.
▲ Eingabeaufforderung: Passen Sie den Winkel so an, dass das rote Logo frontal erscheint, während der Rest unverändert bleibt
Die detaillierte Feinabstimmung ist ein ganz großes Highlight dieses Updates, das Anweisungen genau mit entsprechenden Details verknüpfen kann, um präzise lokale Änderungen vorzunehmen.
▲ Eingabeaufforderung: Passen Sie den Winkel an, die Linse schießt von vorne rechts, das Gesamtlicht wird gedimmt, ein starker Lichtstrahl beleuchtet einen Teil der Maschine von rechts, daneben liegen Kaffeebohnen
Die Anweisungen umfassen wichtige Inhalte wie Lichteffekte, Kamerawinkel und Elementergänzungen. Das Modell kann genau identifiziert und ganzheitlich angepasst werden. Ich habe es satt, darüber zu reden, welche vier Wörter ich ändern soll.
Das Überraschendste an diesem Update dürfte die Möglichkeit sein, in derselben Sitzung schnell zwischen Rohbildern und Rohtext zu wechseln.
Im Bild unten besteht die erste Anweisung beispielsweise darin, einen Geschenkverpackungsleitfaden zu erstellen.
Als erstes wurde eine Bild- und Textversion angegeben – was kein Fehler ist. Ich habe nicht angegeben, ob ich eine Bild- und Textversion oder eine Textversion erstellen möchte. Die Anweisungen waren sehr vage.
Nach der Generierung der Textversion fragte ChatGPT proaktiv, ob eine grafische Version erstellt werden solle. Nach Erhalt einer Bestätigungsantwort wurde eine grafische Version bereitgestellt.
Dies bedeutet, dass sich die genaue Reaktion des Modells nicht nur im Verständnis einer einzelnen Anweisung widerspiegelt, sondern auch darin, die potenziellen Absichten des Benutzers zu verstehen und „einen Schritt weiter zu denken“ als der Benutzer .
Tatsächlich ist dies auch die Fähigkeit, die Deep Research bei seiner früheren Veröffentlichung unter Beweis gestellt hat. Die Tiefensuche von OpenAI ist eines der wenigen Modelle, das Benutzer aktiv auffordert, Details zur Aufgabenausführung zu klären.
Ähnliche Funktionen wurden dieses Mal auf Rohbilder migriert. Im Hinblick auf die Benutzererfahrung sind sie intuitiver und spürbarer als die auf Deep Research.
Beispielsweise können damit tägliche Notizen und Anweisungen mit Bildern und Texten an einem Ort erstellt werden.
Insgesamt dürfte das Erstaunlichste dieses Mal die Synchronisierung von Konsistenz und Befehlsfolge sein.
Wie üblich sollte jede Rezension einige „Gebrauchsanleitungen“ enthalten – Vorsichtsmaßnahmen habe ich dieses Mal wirklich nicht gefunden. Sie müssen lediglich Ihren eigenen Ideen folgen, auf die Tastatur tippen und Text eingeben. Es gibt keine „Tricks“ oder „Tricks“.
Die Konsistenz der Zeichnungserstellung und -änderung durch Eingabeaufforderung ist ein sehr kritisches Thema beim Vincent-Zeichnen. Es bezieht sich sowohl auf Modellfähigkeiten als auch auf technische Fähigkeiten. Bevor die Einhaltung und Konsistenz der Anweisungen so große Fortschritte gemacht hat, wurde das Problem hauptsächlich durch Aufforderungen gelöst, und der Druck lag auf der Seite des Benutzers .
Daher wird es verschiedene Prompt-Vorlagen und Strategien geben, die Ihnen den „Umgang mit Modellen“ vermitteln. Dies ist jedoch nicht der Zustand, in dem sich die Interaktion mit natürlicher Sprache befinden sollte. Wenn das Modell Menschen gegenübersteht, akzeptiert es nur die direktesten Anweisungen des Benutzers – sodass die Menschen zuerst lernen müssen, wie man Eingabeaufforderungen schreibt, was wirklich entmutigend ist.
Durch die jüngsten Updates von Gemini und OpenAI ist die Fotogenerierungsstrecke, die weniger populär geworden ist, wieder lebendig geworden. Sie weisen auch dieselben Gemeinsamkeiten auf: Vorbei sind die Zeiten, in denen einige Bildbearbeitungsprodukte die Kontrollierbarkeit von Rohbildern durch das Hinzufügen von Schaltflächen und Eingängen erhöhen, um die Illusion von Modellen zu bekämpfen .
Das Konsistenzproblem löst nicht nur das Problem der Bildgenerierung, sondern auch die kleineren Probleme im Prozess der „Verwendung der Bildgenerierungsfunktion“. In gewissem Sinne handelt es sich auch um eine Optimierung auf technischer Ebene.
Modifikation und Generierung können mithilfe des genauen Verständnisses der Textanweisungen durch das Modell erreicht werden – auf dieser Ebene gilt immer noch „Modell ist das Produkt“.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo