Machen Sie sich bereit: KI-generierte GIFs könnten bald verfügbar sein

April 21, 2023 Eskere Guru

Da Chatbots undText-zu-Bild-Generatoren das Internet im Sturm erobern, könnte die nächste Grenze der KI Text-zu-Video-Generatoren sein.

Nvidia hat kürzlich ein Forschungspapier mit dem Titel „High-Resolution Video Synthesis with Latent Diffusion Models“ über seine Experimente in seinem KI-Labor in Toronto veröffentlicht, in dem detailliert beschrieben wird, wie es Stable Diffusion verwendet, um ein Tool zu erstellen, das aus Texteingabeaufforderungen bewegte Kunstergebnisse machen kann.

Das Technologieunternehmen zeigte Demos der Latent Diffusion Models (LDMs), die Text verwenden, um Videoclips ohne große Mengen an Computerverarbeitung zu generieren, stellte TechRadar fest.

Das Tool ist in der Lage, bewegte Bilder im GIF-Stil zu erzeugen, die etwa 4,7 Sekunden lange Videos mit einer Auflösung von 1.280 x 2.048 darstellen. Laut dem Forschungsbericht ist es auch in der Lage, längere Videos mit einer niedrigeren Auflösung von 512 x 1024 zu erstellen.

Nachdem TechRadar sich eine Demo der Technologie angesehen hatte, sagte TechRadar, dass das Tool an dieser Stelle wahrscheinlich ideal als Text-to-GIF-Generator ist. Die Veröffentlichung stellte fest, dass sie einfache Aufforderungen wie einen Sturmtruppler, der am Strand Staub saugt, oder einen Teddybären, der E-Gitarre spielt, problemlos verarbeiten kann, High Definition, 4K . Trotzdem erzeugte das Ergebnis immer noch zufällige Artefakte und Schmierereien in den GIFs, wie sie bei anderen regelmäßig verwendeten KI-Tools wie Midjourney üblich sind.

Die Veröffentlichung glaubt, dass längere Videos noch etwas mehr Entwicklung benötigen, bevor sie zur Hauptsendezeit kommen, ist jedoch der Ansicht, dass Nvidia schnell daran arbeiten wird, die Technologie fertig zu stellen. Sie eignen sich möglicherweise gut für Bestandsbibliotheken und ähnliche Zwecke.

Es gibt andere Unternehmen, die mit KI-Text-zu-Video-Generatoren experimentieren. Google hat seinen Phenaki-Generator vorgeführt, der längere Eingabeaufforderungen ermöglicht, die 20-Sekunden-Clips erzeugen. Ein anderes Startup namens Runway kündigte letzten Monat sein Videomodell der zweiten Generation an, das ebenfalls auf Stable Diffusion basiert. Seine Demo zeigt, wie die späte Nachmittagssonne durch das Fenster eines New Yorker Lofts späht, und zeigt, wie Sie Standbildern leichte Bewegungseffekte hinzufügen können.

Benutzer können laut TechRadar auch von der Hinzufügung von KI in anderen Programmen wie Adobe Firefly und Adobe Premiere Rush profitieren.

Einige andere Unternehmen, wie Narakeet und Lume5 , vermarkten sich selbst als Anbieter von Text-zu-Video-Generatoren. Viele dieser Tools funktionieren jedoch eher wie PowerPoint-Präsentationen, indem sie Text, Audio, Bilder und vielleicht einige bereits produzierte Videoclips mit Aufforderungen zusammenstellen, anstatt ein einzigartiges Werk zu erstellen.