Die neuen, von KI erstellten Videos von OpenAI sind überwältigend

Februar 16, 2024 Eskere Guru

Ein KI-Bild, das zwei Mammuts zeigt, die durch Schnee laufen, mit Bergen und einem Wald im Hintergrund. — OpenAI

OpenAIs jüngster Vorstoß in die KI könnte der bisher beeindruckendste sein. Dieses neue Text-zu-Video-KI-Modell mit dem Namen „Sora“ hat gerade seine Türen für eine begrenzte Anzahl von Benutzern geöffnet, die es testen können. Das Unternehmen startete es, indem es mehrere Videos zeigte, die vollständig von KI erstellt wurden, und die Endergebnisse sind erschreckend realistisch.

OpenAI stellt Sora vor, indem es sagt, dass es realistische Szenen basierend auf Textaufforderungen erstellen kann, und die auf seiner Website geteilten Videos dienen als Beweis dafür. Die Eingabeaufforderungen sind beschreibend, aber kurz; Ich persönlich habe längere Eingabeaufforderungen verwendet, nur um mit ChatGPT zu interagieren. Um beispielsweise das oben abgebildete Video von Wollhaarmammuts zu erstellen, benötigte Sora eine Eingabeaufforderung mit 67 Wörtern, in der die Tiere, die Umgebung und die Kameraposition beschrieben wurden.

Wir stellen Ihnen Sora vor, unser Text-zu-Video-Modell.
Sora kann bis zu 60 Sekunden lange Videos mit äußerst detaillierten Szenen, komplexen Kamerabewegungen und mehreren Charakteren mit lebendigen Emotionen erstellen. https://t.co/7j2JN27M3W
Aufforderung: „Wunderschön, verschneit… pic.twitter.com/ruTEWn87vf.“
– OpenAI (@OpenAI) 15. Februar 2024

„Sora kann Videos mit einer Länge von bis zu einer Minute erzeugen und dabei die visuelle Qualität beibehalten und sich an die Eingabeaufforderungen des Benutzers halten“, sagte OpenAI in seiner Ankündigung . Die KI kann komplexe Szenen mit vielen Charakteren, Szenerien und präzisen Bewegungen erzeugen. Zu diesem Zweck sagt OpenAI, dass Sora je nach Bedarf Vorhersagen trifft und zwischen den Zeilen liest.

„Das Modell versteht nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren“, sagte OpenAI. Das Modell befasst sich nicht nur mit Charakteren, Kleidung oder Hintergründen, sondern erschafft auch „fesselnde Charaktere, die lebendige Emotionen ausdrücken“.

Sora kann auch die Lücken in einem vorhandenen Video füllen oder es verlängern sowie ein Video basierend auf einem Bild erstellen, sodass es nicht nur aus Textaufforderungen besteht.

Während die Videos als Screenshot-Standbilder gut aussehen, sind sie in Bewegung fast umwerfend. OpenAI stellte eine breite Palette von Videos zur Verfügung, um die neue Technologie vorzustellen, darunter Cyberpunk-artige Straßen in Tokio und „historische Aufnahmen“ von Kalifornien während des Goldrauschs. Es gibt noch mehr, darunter eine extreme Nahaufnahme eines menschlichen Auges. Die Eingabeaufforderungen reichen von Cartoons bis hin zur Tierfotografie.

Sora hat trotzdem einige Fehler gemacht. Bei näherer Betrachtung fällt beispielsweise auf, dass einige Figuren in der Menge keinen Kopf haben oder sich seltsam bewegen. Die unangenehme Bewegung fiel bei einigen Beispielen auf den ersten Blick auf, aber die allgemeine Seltsamkeit musste erst nach mehreren Betrachtungen erkannt werden.

Es könnte eine Weile dauern, bis OpenAI Sora der breiten Öffentlichkeit zugänglich macht. Derzeit wird das Modell von Red-Teamern getestet, die potenzielle Risiken bewerten. Einige Entwickler werden es auch jetzt testen können, während es sich noch in einem frühen Entwicklungsstadium befindet.

Die KI ist immer noch unvollkommen, also habe ich etwas ziemlich Schlaues erwartet. Ob es nun die niedrigen Erwartungen oder Soras Fähigkeiten sind, ich bin beeindruckt, aber auch leicht besorgt. Wir leben bereits in einer Welt, in der es schwierig ist, eine Fälschung von etwas Echtem zu unterscheiden, und jetzt sind nicht nur Bilder in Gefahr, sondern auch Videos. Allerdings ist Sora nicht das erste Text-zu-Video-Modell, das wir gesehen haben, so wie Pika .

Andere hissen ebenfalls die Flagge, wie zum Beispiel der beliebte Tech-YouTuber Marques Brownlee , der als Reaktion auf die Sora-Videos twitterte: „Wenn dich das nicht wenigstens ein bisschen betrifft, wird es nichts tun.“

Jedes einzelne dieser Videos ist KI-generiert, und wenn Sie das nicht zumindest ein bisschen beunruhigt, wird es nichts tun
Das neueste Modell: https://t.co/zkDWU8Be9S
(Erinnern Sie sich, dass Will Smith Spaghetti gegessen hat? Ich habe so viele Fragen) pic.twitter.com/TQ44wvNlQw
– Marques Brownlee (@MKBHD) 15. Februar 2024

Wenn Sora von OpenAI jetzt so gut ist, kann man sich kaum vorstellen, wozu es nach ein paar Jahren weiterer Entwicklung und Tests fähig sein wird. Dies ist die Art von Technologie, die das Potenzial hat, viele Arbeitsplätze zu verdrängen – aber hoffentlich wird sie, wie ChatGPT, stattdessen neben menschlichen Fachkräften koexistieren.