Dieses KI-Zeichentool macht so viel Spaß, dass Sie nicht einmal prompte Wörter schreiben müssen

Dezember 21, 2024 Eskere Guru

Es gibt bereits zu viele KI-Mapping-Tools, aber Googles neuestes Whisk hat eine völlig neue Art gefunden, es zu spielen, und sogar Internetnutzer, die es gesehen haben, sagen, es macht Spaß.

Geben Sie einfach drei Bilder, Motiv, Szene und Stil ein, und Whisk kann ein Bild erstellen, das die Stärken aller Beteiligten berücksichtigt.

▲ Bild von: Google

Zum Beispiel ist das Thema ein alter Mann, die Szene sind Ranken, der Stil ist eine Retro-Animation der 90er Jahre, schreiben Sie das Aufforderungswort „Charakter auf einem fliegenden Fahrrad“, warten Sie eine Weile, ein neues Bild ähnlich dem Ghibli-Stil ist geboren.

▲ Bild von: Google

Der alte Mann ist immer noch derselbe alte Mann, trägt einen Hut, einen Anzug und ein Buch in der Hand, aber er fährt mit den prompten Worten im Auto, und auch die Szene und der Stil haben sich denen des Referenzbildes geändert.

Das ist der Vorteil von Whisk – es ermöglicht uns, problemlos mit verschiedenen Stilen zu spielen und gleichzeitig weniger schnelle Wörter zu schreiben, und Mama muss sich keine Sorgen mehr machen, dass ich keine schnellen Wörter schreiben kann.

Schreiben Sie keine komplizierten Eingabeaufforderungen, sondern rufen Sie einfach die Bilder auf.

Auch wenn nur ein paar Bilder erforderlich sind, sind die Möglichkeiten, Whisk zu spielen, einfach und doch endlos.

Laden Sie drei Bilder hoch: das Themenbild, McDonald's Pommes Frites; das Szenenbild, Monets Gemälde „Seerosen“; das Stilbild, das Pixel-Stilspiel „Stardew Valley“.

Ohne Aufforderungsworte zu schreiben, wird es direkt generiert. Das Ergebnis von Whisk ist, dass ein Bild besser ist als drei.

Zusätzlich zum Hochladen Ihrer eigenen Bilder können wir auch würfeln und Whisk Themen, Szenen und Stile nach dem Zufallsprinzip generieren lassen.

Tatsächlich sind die von Whisk bereitgestellten voreingestellten Stile völlig ausreichend, darunter Abzeichen, Aufkleber, Stickereien, Ton, Comics, Mosaike usw. mit besonderen Merkmalen und unmittelbaren Effekten.

Solange wir Verstand und Vorstellungskraft haben, ohne ein Wort, nur durch die Anordnung und Kombination verschiedener Bilder, können wir weiterhin Lückentexte spielen – Thema + Szene + Stil, und nicht jede Lücke muss ausgefüllt werden.

▲ 1. Themenbild, geräuchertes Huhn; 2. Szenenbild, Van Goghs „Sternennacht“-Gemälde 3. Stilbild, japanischer Holzschnitt

▲ 1. Themenbild, „Mädchen mit Perlenohrring“; 2. Szenenbild, ein Standbild aus dem Film „Chihiros Reise ins Zauberland“ 3. Stilbild, abstraktes Gemälde von Mondrian

▲ 1. Themenbild, WeChat-Emoticon-Paket „Death Smiling Face“ 2. Szenenbild, Standbilder aus dem Film „Interstellar“ 3. Stilbild, Snoopy-Comic-Screenshots;

▲ 1. Themenbild, der Standard-Surf-Avatar ist rosa Dinosaurier-Momo; 2. Stilbild, Jellycat-Puppe

Darüber hinaus können Sie für jede Whisk-Generation nur ein Referenzbild für Szene und Stil auswählen, Sie können jedoch mehrere Themen auswählen. was bedeutet das? Wir können mehrere Charaktere im selben Frame haben!

Lassen Sie zum Beispiel Musk, Ultraman und Zuckerberg alle zu Emaille-Abzeichen werden.

Die Kostüme, Dekorationen und Gesichtsausdrücke der drei Personen wurden alle sehr gut wiederhergestellt. Zuckerbergs Mikrofon und Halskette fehlten nicht, aber die Gesichter konnten die Konsistenz nicht bewahren und sie wurden alle zu öffentlichen Gesichtern.

Obwohl Whisk die Notwendigkeit reduziert, schnelle Wörter zu schreiben, ermutigt Whisk Sie auch dazu, diese bei Bedarf zu schreiben.

Fügen Sie im Dialogfeld den Satz „Die Charaktere halten ein Schild mit der Aufschrift AGI“ hinzu, und die Badge-Bösewichte folgten problemlos der Aufforderung.

Was ist, wenn wir eine bestimmte Szene oder einen bestimmten Stil benötigen, aber im Moment kein Referenzbild finden können und die Voreinstellungen von Whisk dies nicht bieten?

Die Lösung ist ganz einfach. Wenn Sie kein Bild haben, schreiben Sie einfach ein kurzes Wort und lassen Sie Whisk sofort eines erstellen.

Genauso wie ich eine pixelartige Basis brauchte, auf der die Figur als Szene stehen konnte, habe ich Whisk gebeten, sie für mich zu erstellen.

Verwenden Sie dann das Katzen-Emoticon-Paket als Themenbild und das Pixel-Küken als Stilbild, um eine Pixel-Katze mit einer Basis zu erhalten.

Kurz gesagt, Schneebesen ist sehr frei, wie Plastilin, Sie können ihn nach Ihren Wünschen formen.

Es kann Bilder sowohl erzeugen als auch verstehen und komplexe Arbeitsabläufe in interessante „Eierschläger“ verpacken.

Whisk ist eigentlich eine Möglichkeit für die multimodalen Modelle von Google, ihre Muskeln spielen zu lassen.

Um uns dabei zu helfen, weniger schnelle Wörter zu schreiben, integriert Whisk visuelles Verständnis und Bilderzeugungsfunktionen.

Das Gemini-Modell erkennt Bilder und generiert automatisch detaillierte Beschreibungen. Diese Beschreibungen werden dann in das Bildgenerierungsmodell Imagen 3 von Google eingegeben, das Bilder generiert.

Whisk ist so. Benutzer müssen nur Bilder hochladen und generieren, es gibt jedoch viele Dinge zu beachten.

Jedes Bild in Whisk, egal ob hochgeladen oder generiert, enthält ein langes Eingabeaufforderungswort, das nicht ausgeblendet ist. Wir können auf das Bild klicken, um es anzuzeigen, und wir können es auch ändern.

Wenn Sie eine Person als Motivbild nehmen, beschreibt Whisk ihr Aussehen detailliert und das Szenenbild wird ähnlich sein.

▲ Whisks Beschreibung von Ultraman: „Ein Mann mit hellerer Haut und kurzen, dunkelbraunen Locken, die von der Brust aufwärts sichtbar sind. Er hat helle Augen. Er trägt einen hellbeigen Strickpullover mit Rundhalsausschnitt. Hintergrund: Eine grau gesprenkelte Betonwand.“ Der Gesichtsausdruck des Mannes ist ernst und neutral, und das Licht ist leicht gedämpft. Auf der rechten Seite seines Gesichts ist ein leichter Schatten zu sehen.

Stilbilder unterscheiden sich geringfügig. Wenn Sie einen Animations-Screenshot als Stilreferenz verwenden, sagt Whisk nicht, dass auf dem Bild drei Personen zu sehen sind, sondern beschreibt die Farbe, das Licht und die Linien des Gemäldes …

▲ Whisks Beschreibung von Snoopys Stil: „Dieses Bild ist im Cartoon-Stil gerendert, mit groben Umrissen und flachen Schattierungen. Die Farbpalette ist begrenzt und verwendet hauptsächlich Primärfarben und weiche Sekundärfarben. Die Beleuchtung ist gleichmäßig und weist keine starken Schatten oder Glanzlichter auf.“ , was ihm eine einfache, fast kindliche Textur verleiht. Die Linien sind klar und konsistent, mit einer leicht ungleichmäßigen Textur, die an einen handgezeichneten Effekt erinnert.

Daher kopiert Whisk das Bild nicht exakt, sondern extrahiert die Eigenschaften und das Wesen des Bildes und integriert auf natürliche Weise das Thema, die Szene und den Stil, wobei jeder seine eigenen Aufgaben erfüllt, ohne sich gegenseitig zu beeinträchtigen.

Gleichzeitig weist Whisk auch Überschneidungen auf – es extrahiert nur eine kleine Anzahl wichtiger Merkmale aus dem Bild und die Ergebnisse können von den Erwartungen abweichen. Dies erklärt auch, warum Whisk Gesichter nicht genau wiederherstellen kann.

Selbst wenn man sich also für einen weniger abstrakten Retro-Filmstil entscheidet, liegen die Gesichter der drei Bosse nicht nebeneinander, andere Details sind jedoch zutreffend.

Das Gleiche gilt für Objekte, die nach der Feature-Extraktion und -Regeneration sehr gewöhnlich sind.

Aber wenn es sich um eine Super-IP mit reichhaltigen Materialien wie McDonald’s-Pommes Frites handelt, ist die Wirkung nicht schlecht und kann als Werbebild verwendet werden. Ich habe einige Disney-Figuren ausprobiert und Whisk hat sie genau so reproduziert, wie sie waren, aber ich werde die Bilder nicht veröffentlichen.

Darüber hinaus hat Whisk immer noch ein Problem: Es kann keine sehr detaillierten Stilreferenzen erstellen und einen bestimmten Malstil nicht imitieren.

Als ich Whisk bat, eine Lego-Minifigur der Mona Lisa zu erstellen, bekam ich blaue Augen. Wenn ich jedoch eine zusätzliche Aufforderung hinzufügte: „Machen Sie die Figur mehr wie eine Lego-Figur“, könnte Whisk sie zu 70 % zu 80 nachahmen % besser.

Es ist noch schwieriger, den Stil eines bestimmten Cartoonisten nachzuahmen, damit Whisk darauf zurückgreifen kann, und am Ende erhalten Sie ein ganz gewöhnliches Cartoon-Stil-Bild, selbst wenn Sie prompte Worte verwenden, um das Werk, den Charakter usw. hervorzuheben. und Cartoonist, es wird keine Wirkung haben.

Tatsächlich macht Whisk genug Spaß. Es eignet sich eher für kreative Erkundungen, bei denen es nicht um Präzision geht, was allgemein als vollständige Arbeit bekannt ist.

Schneebesen kann mit „rühren“ oder „Eierbesen“ übersetzt werden. Der Name Google hat nicht nur einen starken visuellen Sinn für das Mischen und Kombinieren von Zutaten.

Aufgrund seiner Ungenauigkeit unterscheidet sich Whisk auch von herkömmlichen Bildbearbeitungsprogrammen und ist eher ein kreatives Werkzeug. Wenn Sie Ideen haben, können Sie damit grobe visuelle Effekte erzielen.

▲ Schneebesen-Generation, 1. Themenbild, Screenshot von „Naruto“; 2. Stilbild, Plüschtier

Um den stilisierten Effekt von Whisk zu erzielen und den gesamten Bildgenerierungsprozess zu durchlaufen, mussten wir in der Vergangenheit möglicherweise einen Workflow in ComfyUI erstellen.

Aber jetzt mit Whisk scheint es, als würden Sie ein Kartenziehspiel spielen oder eine Blindbox öffnen, und solange Sie sich anmelden können (nur in den Vereinigten Staaten), ist es derzeit kostenlos.

Erlebnisführer
https://labs.google/fx/zh/tools/whisk

Die führenden Modellfunktionen von Google sind sicherlich die Voraussetzung und Grundlage, aber die Entwicklung von Produkten, die jeder braucht, erfordert immer noch Kreativität und Ästhetik.

Ich mag Whisks Slogan wirklich: „Weniger auffordern, mehr spielen.“ (Weniger schnelle Wörter schreiben, mehr spielen.)

Whisk stammt aus den Google-Labs, wo auch der früher beliebte KI-Podcast NotebookLM entstand, und entwickelte sich später zu einem ausgereiften Projekt. Dieses Labor selbst ist die beste Ergänzung zu diesem Slogan.

Mit leistungsstarken Modellfunktionen, innovativen Produkten und einer offenen Einstellung zeigte Google, das einst von OpenAI bedroht schien, ruhig seine Rückkehr als König.

Zhang Chengchen

Es ist so scharf wie Herbstfrost und kann böse Katastrophen abwehren. Arbeits-E-Mail: [email protected]

E-Mail 8

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo