Meta hat DALL-E für Video gemacht, und es ist sowohl gruselig als auch erstaunlich

Meta enthüllte ein verrücktes Modell künstlicher Intelligenz, mit dem Benutzer ihre eingetippten Beschreibungen in Videos umwandeln können. Das System heißt Make-A-Video und ist das neueste in einem Trend von KI-generierten Inhalten im Web.

Das System akzeptiert kurze Beschreibungen wie „ein Roboter, der auf einer Welle im Ozean surft“ oder „Clownfisch, der durch das Korallenriff schwimmt“ und generiert dynamisch ein kurzes GIF der Beschreibung. Es stehen sogar drei verschiedene Videostile zur Auswahl: surreal, realistisch und stilisiert.

Meta hat DALL-E für Video gemacht, und es ist sowohl gruselig als auch erstaunlich - real1
Pinselmalerei eines Künstlers auf einer Leinwand aus nächster Nähe

Laut einem Facebook-Beitrag von Meta-CEO Mark Zuckerberg ist die Übersetzung von geschriebenem Text in Video viel schwieriger, da Videos Bewegung erfordern:

„Es ist viel schwieriger, Videos zu erstellen als Fotos, da das System nicht nur jedes Pixel korrekt generieren muss, sondern auch vorhersagen muss, wie es sich im Laufe der Zeit ändern wird. Make-A-Video löst dieses Problem, indem es eine Ebene des unbeaufsichtigten Lernens hinzufügt, die es dem System ermöglicht, Bewegungen in der physischen Welt zu verstehen und sie auf die traditionelle Text-zu-Bild-Generierung anzuwenden.“

Meta hat DALL-E für Video gemacht, und es ist sowohl gruselig als auch erstaunlich - real3
Ein junges Paar, das bei starkem Regen spazieren geht

Das KI-Forschungsteam von Meta hat ein Papier geschrieben, in dem beschrieben wird, wie das System funktioniert und wie es sich von aktuellen Text-to-Image (T2I)-Methoden unterscheidet. Im Gegensatz zu anderen Maschinensprachenmodellen verwendet Metas Text-to-Video (T2V)-Methode keine vordefinierten Text-Video-Paare. Beispielsweise wird „Mann beim Gehen“ nicht mit einem Video eines echten Mannes beim Gehen kombiniert.

Wenn dies sehr nach DALL-E, der beliebten T2I-Anwendung, klingt, liegen Sie nicht weit daneben. Andere T2I-Anwendungen wurden eingeführt, seit DALL-E an Popularität gewonnen hat. TikTok hat im August einen Filter namens AI Greenscreen veröffentlicht, der Bilder im Malstil basierend auf den von Ihnen eingegebenen Wörtern generiert.

Meta hat DALL-E für Video gemacht, und es ist sowohl gruselig als auch erstaunlich - surreal4
Ein flauschiges Baby-Faultier mit einer orangefarbenen Strickmütze, das versucht, eine Laptop-Nahaufnahme mit einem hochdetaillierten Studio-Beleuchtungsbildschirm zu erkennen, der sich in seinem Auge widerspiegelt

KI-generierte Inhalte sind in den letzten Jahren sehr beliebt geworden. Deepfake-Technologie , maschinelle Lerntechniken, um das Gesicht einer Person durch ein anderes zu ersetzen, wird sogar von Visual-Effects-Studios für Shows mit großem Budget wie The Mandalorian verwendet .

Im Juli berichtete The Times fälschlicherweise über eine Ukrainerin mitten im Krieg zwischen Russland und der Ukraine. Das Problem ist, dass sie nicht real war .

Die Bedrohung durch KI ist wahrscheinlich keine wirkliche Bedrohung , aber Projekte wie DALL-E und Make-A-Video sind unterhaltsame Erkundungen einiger interessanter Möglichkeiten.