Das KI-Video-Artefakt, das auf Xiaohongshu so beliebt ist, kann dieses Mal nicht mit seiner neuen Arbeit aufhören

Dezember 18, 2024 Eskere Guru

Die Multi-Themen-Konsistenz von KI-Videos war schon immer ein Problem. Es ist nicht schwer, die KI Modelle und Kleidung aus dem Nichts generieren zu lassen, aber wenn Partei A von Musk verlangt, dass er einen Plüschmantel befürwortet und trägt, ist die KI möglicherweise nicht in der Lage, dies zu tun.

Das kürzlich aktualisierte 2.0-Modell von Pika bietet eine sehr interessante Lösung: Wir laden mehrere Bilder hoch und Pika bezieht sich genau auf die Elemente in den Bildern, um Videos zu generieren.

Sammeln Sie Fotos von Charakteren, Produkten und Szenen, und es wird ein ganz einfaches Werbevideo erstellt, und diese Materialien werden im Video genauso aussehen wie auf den Fotos.

Bedeutet dies, dass das Konsistenzproblem von KI-Videos gelöst ist und Freunde in der Werbebranche erneut besorgt sein werden? Tatsächlich ist dies nicht der Fall. Nach tatsächlichen Tests ist Pika sehr gut spielbar, aber in Bezug auf die Praktikabilität ist es nicht praktisch genug.

Musk und Altman schauen sich Filme an und essen Pommes Frites mit berühmten Gemälden. Es war noch nie einfacher, im selben Rahmen zu sein.

Pikas Funktion zum Hochladen mehrerer Referenzbilder heißt „Scene Ingredients“.

Die Verwendung ist sehr einfach: 1. Klicken Sie auf „+“, um Bilder hochzuladen (bis zu 6 Bilder). 2. Schreiben Sie in das Textfeld ein einfaches Aufforderungswort.

Kommen wir als nächstes zur eigentlichen Operation: Lassen Sie Musk und Ultraman, die in großen Schwierigkeiten stecken, ihre Feindseligkeit in Freundschaft umwandeln und gemeinsam einen Film ansehen.

▲Eindringliche Worte: Zwei Personen sitzen in einem dunklen Auditorium. Sie hielten einen Eimer Popcorn in ihren Händen, steckten eine Handvoll in den Mund und kauten, während sie sich auf die Szene vor ihnen konzentrierten. Ihr Blick mit großen Augen vermittelt gespannte Vorfreude oder Faszination, als wären sie völlig in das sich abspielende Drama oder die Szene versunken. Die Umgebung lässt auf eine große Menschenmenge schließen, doch der Fokus bleibt auf deren Reaktionen

Es reicht aus, Fotos von Ihnen beiden hochzuladen, und das Publikum kann prompte Worte aufschreiben.

Für Musk ist KI stabil. Aber Ultraman sieht aus wie ein dummer Sohn eines Vermieters, ganz zu schweigen davon, dass er schrecklich aussieht und seine Augen so groß sind, dass sie gleich herausfallen.

Das Interessante an Pika ist, dass Materialien „wiederverwendet“ werden können.

Deshalb können wir Musk und Altman süchtig nach Models werden lassen. Laden Sie einfach ein Kleidungsbild hoch und bitten Sie sie dann mit eindringlichen Worten, denselben grünen Mantel zu tragen und einen Mode-Blockbuster zu machen.

▲Promptes Wort: Zwei Männer standen zusammen und machten ein Selfie in der herrlichen Winterlandschaft. Beide trugen den gleichen langen grünen Mantel. Ganzkörperaufnahmen, die sie von Kopf bis Fuß zeigen. Sie posieren wie professionelle Models mit einem selbstbewussten Lächeln im Gesicht. Filmische Beleuchtung betont ihre Gesichter und die luxuriöse Textur ihres Fells. High-End-Stil der Modefotografie, professionelle Kameraqualität, Ästhetik eines Modemagazins

Die Fotos der beiden waren alle vorgefertigt und der eisige und verschneite Hintergrund wurde separat mit KI generiert. Das „AIGC“ auf der Kleidung war eine zusätzliche Frage, um Pika zu testen.

Dadurch blieb die Konsistenz der Szene und des Mantels gut erhalten, die Worte „AIGC“ waren vage identifizierbar und auch die Bewegungen der beiden Models folgten den Aufforderungsworten.

Aber die große Frage ist: Wer sind diese beiden? Es kann nicht gesagt werden, dass die Gesichter im Video und auf den Fotos genau gleich sind, sie können vielmehr als völlig unabhängig voneinander bezeichnet werden.

Wenn Sie nicht an das Böse glauben, lassen Sie Pika weiterhin Verkleidung spielen.

Dieses Mal haben wir Zuckerberg eingeladen, mithilfe von KI-Bildtools Kleidung zu erstellen, auf der wie üblich die Worte „Ich war ein Mensch“ geschrieben sind, was an das klassische Roboter-Meme erinnert.

Suchen Sie dann ein Bild von Zuckerberg und ein Bild einer Ukulele und lassen Sie Zuckerberg Musik spielen.

▲Promptes Wort: Ein Mann in einem schwarzen T-Shirt steht in einem warmen Raum und spielt Ukulele. Die Kamera beginnt mit einer Halbtotalaufnahme, zeigt seinen gesamten Körper, zoomt nach und nach heran und konzentriert sich schließlich auf die Schrift auf dem T-Shirt.

Pika folgt den Anweisungen und bewegt die Kamera sehr gut, und das Anziehen geht reibungslos, aber ihre rechte Hand, insbesondere ihr Daumen, ist immer noch nicht perfekt.

Im Vergleich zu Google Veo, OpenAI Sora usw. sind die Modellfunktionen von Pika nicht erstklassig. Sobald ein Problem gelöst ist, werden weitere Fehler entdeckt.

Ich habe es mit Realismus und dann mit einem zweidimensionalen Malstil versucht. Um Sakata Gintoki und Uzumaki Naruto in den gleichen Rahmen zu bringen, habe ich speziell zwei Bilder mit blauem Himmel und weißen Wolken im Hintergrund ausgewählt.

▲Tipps: Szene im Anime-Stil, die Kamera fokussiert auf die Gesichter zweier junger Männer, mit blauem Himmel und weißen Wolken im Hintergrund. Beim Chatten stellten sie Augenkontakt her und behielten dabei den ursprünglichen Anime-Kunststil bei

Der Hintergrund fügt sich sehr natürlich zusammen, die Frontalausdrücke der beiden sind gut gespielt und der Wind, der ihnen durch Haare und Kleidung weht, ist genau richtig. Allerdings war das Umdrehen einfach zu beängstigend. Gintoki hat tote Augen, er rollt nicht wirklich mit den Augen.

Dimensionswände wurden durchbrochen, und natürlich können berühmte Gemälde über Generationen hinweg interagieren – die Mona Lisa und das Mädchen mit dem Perlenohrring, das in einem McDonald's-Restaurant Pommes Frites isst.

▲ Aufforderung: Mona Lisa und das Mädchen mit dem Perlenohrring essen in einem McDonald's-Restaurant. Sie saßen einander gegenüber, mit Chips auf dem Tisch. Während sie sich unterhalten und Pommes Frites probieren, fängt die Kamera sie von der Seite ein, wobei die beiden Charaktere gelegentlich in die Kamera schauen, was für eine lockere und freundliche Atmosphäre sorgt.

Der Effekt ist schwer zu beschreiben. Als ich die Mona Lisa sah, frage ich mich, ob Leonardo da Vinci das Sargbrett anheben wollte. Die beiden waren wie Aufkleber im Video platziert und ihre Köpfe bewegten sich sehr seltsam.

Manchmal übertreffen die Ergebnisse die Erwartungen, wenn man zur Einfachheit zurückkehrt und dem natürlichen Weg folgt.

▲Promptes Wort: Nahaufnahme, Blasen erscheinen auf der Oberfläche des Teiches, und dann taucht die Kaffeetasse aus dem Wasser auf

Laden Sie ein Bild von Starbucks oder ein Bild von Monets Seerosen hoch und Sie können eine Kaffeetasse mit „Klarem Wasser sprießendem Hibiskus“ erhalten.

PK-Inlandsmodell, der Schwellenwert für die Steuerung von KI-Videos ist niedriger

Pika verbessert gewissermaßen die Steuerbarkeit von Videos. Ich kann es nicht oft genug sagen, denn aus praktischer Sicht behält Pika eine bessere Konsistenz bei Szenen, Kostümen und Gegenständen bei und das Gesicht der Figur lässt sich leicht zusammenbrechen, egal welche Dimension es hat.

Gleichzeitig müssen auch die grundlegenden Fähigkeiten des Modells Pika verbessert werden, und es wird weiterhin Probleme bei der Bewegung von Objekten wie Essen und Klavierspielen geben. Können diese Probleme durch das Ziehen von Karten gemildert werden?

Drei Worte: Ich kann es mir nicht leisten.

Pika 2.0 ist derzeit nur für Pro- und Fancy-Benutzer verfügbar. Wenn Sie ein monatliches Abonnement abschließen, kostet es mindestens 35 US-Dollar pro Monat und es gibt kein Limit für die kostenlose Testversion.

Darüber hinaus haben Pro-Benutzer nur 2.000 Punkte pro Monat, aber für die Nutzung der Scene Ingredients-Funktion kostet ein Video 100 Punkte.

▲vidu-Schnittstelle

Tatsächlich hat das inländische KI-Videomodell Vidu die Funktion „Mehrbildreferenz“ früher als Pika implementiert. Was für Benutzer noch aufregender ist, ist, dass es Punkte für die kostenlose Testversion gibt.

Ich habe auch ein paar Kisten Pika in Vidu betrieben. Die Mona Lisa und das Mädchen mit dem Perlenohrring essen Pommes Frites. Sie wurden gerade erst ausgegraben, aber die Mona Lisa ist restaurierter als die Pika.

Musk und Ultraman sahen sich zusammen einen Film an. Musks Gesicht sah zu 70 % bis 80 % ähnlich aus, aber Ultramans Gesicht war immer noch katastrophal.

Sakata Gintoki und Uzumaki Naruto befinden sich im selben Rahmen. Vidu kann tatsächlich eine Seitenfläche basierend auf der Vorderseite erzeugen, aber der Malstil unterscheidet sich vom Originalbild.

Zudem ist Vidu in puncto Funktionalität Pika etwas unterlegen – man kann nur bis zu drei Bilder hochladen. Als ich Vidu also bat, ein Modeshooting für Musk und Ultraman zu fotografieren, habe ich nicht den Hintergrund hochgeladen, sondern nur die Fotos der beiden und ihrer grünen Mäntel.

Die beiden fühlen sich sehr seltsam. Es ist ersichtlich, dass die Stabilität menschlicher Gesichter immer noch ein Problem darstellt.

Wie effektiv Vidu im Vergleich zu Pika ist, ist Ansichtssache. Pika verwendet die Pro-Version und Vidu die kostenlose Version, was objektiv zu Unterschieden zwischen den beiden führt.

Aber die Ideen von Pika und Vidu ähneln sich – mit nur wenigen Bildmaterialien und einem einfachen Aufforderungswort relativ stabile Objekte zu generieren.

Um bei der KI-Videogenerierung die Themenkonsistenz aufrechtzuerhalten, besteht die derzeit relativ zuverlässige LoRA-Lösung darin, eine bestimmte Menge an fachspezifischem Material zur Feinabstimmung des Modells zu verwenden. Mit der entsprechenden Menge an Materialien und Training kann das Modell nach und nach das Aussehen und die Eigenschaften dieser Figur erlernen.

Damit KI-Videos jedoch von mehr Menschen genutzt werden und einen größeren kommerziellen Wert haben, muss die Schwelle gesenkt werden. Zumindest bei Vidu und Pika sehen wir Möglichkeiten.

Verlassen Sie sich auf KI-Kurzvideos, um aus dem Teufelskreis herauszukommen, und Sie werden nie wieder auf den Weg zu einem gesunden Leben zurückkehren.

Nur wenige Tage nach der Veröffentlichung von Pikas 2.0-Modell sind Internetnutzer im Ausland verrückt geworden.

Indem Sie Ihre eigenen Fotos aufnehmen und immer wieder Videos verschiedener Szenen erstellen, können Sie das „augenblickliche Universum“ verwirklichen.

▲ Bild von: X@EladRichardson

Dank der Ein-Klick-Anpassung durch KI passen die Modelle und Kleidungsstücke reibungslos und die Szene muss nicht geändert werden, was beim eigentlichen Fotografieren Geld spart.

▲ Bild von: X@martgent

Beim Herumspielen vermittelte mir Pika das Gefühl, „QQ Show“ und „Die Sims“ zu spielen. Wir entscheiden, wie wir die Charaktere im Video verkleiden.

Es wäre für Musk ein Leichtes, „seinen Traum zu verwirklichen“. Er nutzte zunächst andere KI-Tools, um ein „Occupy Mars“-T-Shirt und einen roten Hut mit der Aufschrift „MAGA“ zu generieren.

Laden Sie dann diese Bilder, Szenen vom Mars, Fotos von Musk, seinem humanoiden Roboter Optimus Prime und den Doge-Prototyp seines beliebtesten Internet-Promi-Emoticon-Pakets auf Pika hoch.

▲Promptes Wort: Ein Mann steht auf der Marsoberfläche und trägt ein schwarzes T-Shirt und einen roten Hut. Links von ihm sitzt ein Hund und rechts ein Roboter. Die Kamera beginnt mit einer Totalaufnahme, die die gesamten Körper von Männern, Hunden und Robotern einfängt. Während die Kamera stetig heranzoomte, winkte der Mann fröhlich in Richtung Kamera, sein Gesichtsausdruck war voller Freude und Abenteuerlust.

Schließlich erschien ein sonniger und fröhlicher Junge, der auf seiner linken Hand eine gelbe Hand und auf seiner rechten Hand einen blauen Himmel hielt. Er war ehrlich und ehrlich, aber er sah einfach nicht wie Musk aus.

Es scheint nicht dasselbe zu sein, solange man aufgeschlossen ist, gibt es endlose Möglichkeiten zu spielen.

Basierend auf Fotos von uns selbst und berühmten Persönlichkeiten kann die Sternenjagd schmerzlos sein. Laden Sie Hüte, Kleidung und Musikinstrumente hoch, um sich von Kopf bis Fuß einzukleiden. Sammeln Sie die Szenen, Produkte und Modelle und Sie haben einen 5-monatigen Werbefilm mit Spezialeffekten …

Fotos + KI-Bilder + Pika 2.0 + schnelle Worte können viele interessante Bilder erzeugen. Gleichzeitig vermeidet diese Generierungsmethode auch einige Mängel des Videomodells, wie z. B. das Schreiben, die durch das Bildmodell behoben werden können.

Pika ist weder im Vergleich zu Googles robusten Modellfähigkeiten noch mit Konkurrenten wie Runway vergleichbar, die Hollywood-Träume verfolgen, und hat seine eigene Art, in Kurven zu überholen.

Tatsächlich war Pika schon immer ein gutes Händchen in Sachen Schnitt und Kreativität. Die vorherige Serie von KI-Spezialeffektfunktionen explodierte im Internet, eroberte die Bildschirme von Xiaohongshu und TikTok und brachte Pika-Benutzer auf über 11 Millionen.

▲ KI-Prise. Bild von: Pika

▲AI schneidet den Kuchen an

Pika spricht eine Gruppe von Benutzern an, die eine hohe Nachfrage nach Live-Kurzvideos haben. Auch wenn diese Videos vorgefertigt und flüchtig sind, werden sie von den Menschen in Scharen angeschaut, solange sie interessant sind.

Wer sagt, dass der Gewinner alles bekommt? Der KI-Markt ist riesig und die Simulation der physischen Welt ist sicherlich ein hoher Traum. Das kleine Ziel, KI-Kurzvideos interessant zu machen, ist möglicherweise kein erfolgreicher Weg.

Zhang Chengchen

Es ist so scharf wie Herbstfrost und kann böse Katastrophen abwehren. Arbeits-E-Mail: [email protected]

E-Mail 8

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo