Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 17 1

Zuckerberg war in letzter Zeit damit beschäftigt, weltweit „das Rampenlicht zu stehlen“.

Vor nicht allzu langer Zeit startete er sein „zweites Unternehmertum“ und zeigte uns gerade die leistungsstärkste AR-Brille Meta Orion, an der er seit zehn Jahren feilt. Obwohl es sich nur um einen Prototyp einer Maschine handelt, die auf die Zukunft setzt, hat sie ihm das Rampenlicht gestohlen Apples Vision Pro.

Gestern Abend stahl Meta erneut die Show im Video-Generation-Model-Track.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 15

Meta sagte, dass das neu veröffentlichte Meta Movie Gen das bisher fortschrittlichste „Media Foundation Models“ sei.

Doch zunächst einmal eine Vorsichtsmaßnahme: Die Verantwortlichen von Meta haben noch keinen klaren Zeitplan für die Öffnung genannt.

Beamte geben an, dass sie aktiv mit Fachleuten und Kreativen in der Unterhaltungsbranche kommunizieren und zusammenarbeiten, und es wird erwartet, dass sie dies irgendwann im nächsten Jahr in die eigenen Produkte und Dienstleistungen von Meta integrieren.

Fassen Sie die Funktionen von Meta Movie Gen kurz zusammen:

  • Es verfügt über Funktionen wie personalisierte Videogenerierung, präzise Videobearbeitung und Audiogenerierung.
  • Unterstützt die Erstellung hochauflösender langer Videos mit 1080P, 16 Sekunden und 16 Bildern pro Sekunde
  • Kann bis zu 45 Sekunden Audio in hoher Qualität und mit hoher Wiedergabetreue erzeugen
  • Geben Sie einfachen Text ein, um anspruchsvolle und präzise Videobearbeitungsfunktionen zu erhalten
  • Die Demo war ausgezeichnet, aber das Produkt wird voraussichtlich erst im nächsten Jahr offiziell für die Öffentlichkeit verfügbar sein

Verabschieden Sie sich vom „Pantomimen“ und konzentrieren Sie sich auf große und umfassende Funktionen

Untergliedert verfügt Movie Gen über vier Hauptfunktionen: Videogenerierung, personalisierte Videogenerierung, präzise Videobearbeitung und Audiogenerierung.

Die Vincent-Videofunktion ist seit langem eine Standardfunktion von Videogenerierungsmodellen. Meta Movie Gen kann jedoch hochauflösende Videos mit unterschiedlichen Seitenverhältnissen entsprechend den Benutzeranforderungen generieren, was das erste seiner Art in der Branche ist.

Zusammenfassung der Texteingabe: Ein Faultier mit rosa Sonnenbrille liegt auf einem Donut-Schwimmer in einem Pool. Die Welt ist tropisch.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 1

Zusammenfassung der Texteingabe: Der Mann ist ohne Hemd, trägt ein grünes Tuch um die Taille und bewegt sich im Hintergrund mit einem feurigen Gegenstand. Die Atmosphäre mit dem Feuertanz ist faszinierend.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 2

Darüber hinaus bietet Meta Movie Gen erweiterte Videobearbeitungsfunktionen, mit denen Benutzer komplexe Videobearbeitungsaufgaben durch einfache Texteingabe erledigen können.

Vom visuellen Stil des Videos über die Übergangseffekte zwischen Videoclips bis hin zu detaillierteren Bearbeitungsvorgängen bietet dieses Modell auch genügend Freiheit.

Meta Movie Gen hat auch bei der Erstellung personalisierter Videos einen großen Schritt nach vorne gemacht.

Benutzer können ihre eigenen Bilder hochladen und Meta Movie Gen verwenden, um Videos zu erstellen, die personalisiert sind und gleichzeitig Charakter und Bewegung beibehalten.

Zusammenfassung der Texteingabe: Ein Cowgirl in Jeanshosen sitzt auf einem weißen Pferd in einer alten Westernstadt. Das Pferd schimmert majestätisch im Sonnenlicht.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 21

Von Kongming-Laternen bis hin zu transparenten farbigen Blasen können Sie dasselbe Objekt im Video ganz einfach mit nur einem Satz ersetzen.

Texteingabe: Verwandeln Sie die Laterne in eine Blase, die in die Luft schwebt.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 19

Obwohl in diesem Jahr viele Videomodelle vorgestellt wurden, können die meisten von ihnen nur „Pantomime“ erzeugen. Es ist schade, sie aufzugeben, wenn sie nicht „die gleichen Fehler wiederholt haben“.

Texteingabe: Ein wunderschönes Orchesterstück, das ein Gefühl des Staunens hervorruft.

Benutzer können Videodateien oder Textinhalte bereitstellen und Meta Movie Gen basierend auf diesen Eingaben entsprechende Audiodaten generieren lassen. (PS: Achten Sie auf die Synchronisation der Skateboard-Landung)

Darüber hinaus kann es nicht nur einen einzelnen Soundeffekt erzeugen, sondern auch Hintergrundmusik und sogar einen kompletten Soundtrack für das gesamte Video, wodurch die Gesamtqualität des Videos und das Seherlebnis des Publikums erheblich verbessert werden.

Nachdem er sich die Demo angesehen hatte, brachte Lex Fridman seine Bewunderung kurz und bündig zum Ausdruck.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 7

Viele Internetnutzer haben die Zukunft von OpenAI, Sora, erneut „vorangetrieben“, aber eifrigere Internetnutzer haben begonnen, sich auf die Eröffnung von Testerfahrungsqualifikationen zu freuen.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 9

Der Chefwissenschaftler von Meta AI, Yann LeCun, bewarb auch online die Meta Movie Gen-Plattform.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 10

Es lohnt sich, sich auf den von Meta gemalten Kuchen zu freuen

Als Meta Movie Gen auf den Markt kam, veröffentlichte das Meta AI-Forschungsteam gleichzeitig auch ein 92-seitiges technisches Dokument.

Berichten zufolge verwendet das KI-Forschungsteam von Meta hauptsächlich zwei Grundmodelle, um diese umfangreichen Funktionen zu erreichen: Movie Gen Video- und Movie Gen Audio-Modelle.

Darunter ist Movie Gen Video ein Basismodell mit 30B-Parametern, das für die Text-zu-Video-Generierung verwendet wird und hochwertige HD-Videos mit einer Länge von bis zu 16 Sekunden erzeugen kann.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 33 2

In der Vorschulungsphase des Modells werden große Mengen an Bild- und Videodaten verwendet, um verschiedene Konzepte der visuellen Welt zu verstehen, darunter Objektbewegung, Interaktion, Geometrie, Kamerabewegung und physikalische Gesetze.
Um die Qualität der Videogenerierung zu verbessern, wird das Modell außerdem mithilfe eines kleinen Satzes sorgfältig ausgewählter hochwertiger Videos und Textuntertitel einer Supervised Fine-Tuning (SFT) unterzogen.

Der Bericht zeigt, dass der Post-Training-Prozess eine wichtige Phase im Movie Gen Video-Modelltraining ist, das die Qualität der Videogenerierung weiter verbessern kann, insbesondere die Personalisierungs- und Bearbeitungsfunktionen von Bildern und Videos.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 34

Erwähnenswert ist, dass das Forschungsteam das Movie Gen Video-Modell auch mit gängigen Videogenerierungsmodellen verglichen hat.

Da Sora derzeit nicht geöffnet ist, können Forscher zum Vergleich nur die öffentlich veröffentlichten Videos und Tipps verwenden. Bei anderen Modellen wie Runway Gen3, LumaLabs und Keling 1.5 entscheiden sich Forscher dafür, Videos selbst über API-Schnittstellen zu generieren.

Und da die von Sora geposteten Videos unterschiedliche Auflösungen und Dauern haben, haben die Forscher die Videos von Movie Gen Video zugeschnitten, um sicherzustellen, dass die Videos beim Vergleich die gleiche Auflösung und Dauer hatten.

Die Ergebnisse zeigen, dass der Gesamtbewertungseffekt von Movie Gen Video deutlich besser ist als der von Runway Gen3 und LumaLabs, einen leichten Vorteil gegenüber OpenAI Sora aufweist und Keling 1.5 entspricht.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 11 3

In Zukunft plant Meta außerdem die öffentliche Veröffentlichung mehrerer Benchmarks, darunter Movie Gen Video Bench, Movie Gen Edit Bench und Movie Gen Audio Bench, um die Forschung an Videogenerierungsmodellen zu beschleunigen.

Das Movie Gen Audio-Modell ist ein 13B-Parametermodell für die Video- und Text-to-Audio-Generierung, das in der Lage ist, bis zu 45 Sekunden hochwertiges und hochauflösendes Audio, einschließlich Soundeffekten und Musik, zu erzeugen und mit dem Video zu synchronisieren.

Das Modell übernimmt ein generatives Modell, das auf Flow Matching und einer Diffusion Transformer (DiT)-Modellarchitektur basiert, und fügt zusätzliche bedingte Module hinzu, um die Kontrolle zu ermöglichen.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 35

Sogar das Forschungsteam von Meta hat eine Audioerweiterungstechnologie eingeführt, die es dem Modell ermöglicht, kohärenten Ton über die anfängliche 45-Sekunden-Grenze hinaus zu erzeugen. Das heißt, das Modell kann unabhängig von der Länge des Videos passendes Audio erzeugen.

Genauere Informationen finden Sie im technischen Dokument

https://ai.meta.com/static-resource/movie-gen-research-paper

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 37

Gestern gab Tim Brooks, der Leiter von OpenAI Sora, offiziell seinen Rücktritt bekannt und trat Google DeepMind bei, was erneut einen Nebel über die ungewisse Zukunft des Sora-Projekts wirft.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 12 1

Laut Bloomberg sagte Meta-Vizepräsident Connor Hayes, dass Meta Movie Gen derzeit keine konkreten Produktpläne habe. Hayes nannte einen wesentlichen Grund für die verzögerte Einführung.

Meta Movie Gen verwendet derzeit Textaufforderungen, um ein Video zu generieren, was oft Dutzende Minuten Wartezeit erfordert, was sich stark auf die Benutzererfahrung auswirkt.

Meta hofft, die Effizienz der Videogenerierung weiter zu verbessern und den Videodienst so schnell wie möglich auf dem mobilen Endgerät einzuführen, um den Bedürfnissen der Verbraucher besser gerecht zu werden.

Sora wird erneut übertroffen! Das Meta-KI-Videomodell explodiert spät in der Nacht, kommt mit atemberaubender Hintergrundmusik und macht die Videobearbeitung einfacher als P-Bilder - 38

Wenn man sich die Produktform ansieht, ist das funktionale Design von Meta Movie Gen tatsächlich darauf ausgerichtet, groß und umfassend zu sein, und es ist nicht „lahm“ wie andere Videomodelle.
Der größte Nachteil besteht darin, dass es den gleichen „Futures“-Charakter hat wie Sora.

Das Ideal ist sehr voll, die Realität ist sehr dürftig.

Man könnte sagen, dass sich die Wettbewerbslandschaft im Bereich der Videogenerierung möglicherweise erneut ändern wird, wenn Sora derzeit von großen inländischen Modellen überholt wird, wenn Meta Movie Gen auf den Markt kommt.

Aber zumindest für den Moment reicht der von Meta gemalte Kuchen aus, damit die Leute ihn schlucken können.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo