Google schlägt mit einer Antwort auf den Sora-Start von OpenAI zurück
Googles DeepMind-Abteilung stellte am Montag sein Veo-Videogenerationsmodell der zweiten Generation vor, das Clips mit einer Länge von bis zu zwei Minuten und Auflösungen von 4K-Qualität erstellen kann – das ist sechsmal so lang und viermal so hoch wie die Clips mit einer Auflösung von 20 Sekunden und 1080p Sora kann generieren.
Das sind natürlich die theoretischen Obergrenzen von Veo 2. Das Modell ist derzeit nur auf VideoFX, Googles experimenteller Videogenerierungsplattform, verfügbar und seine Clips sind auf acht Sekunden und eine Auflösung von 720p begrenzt. VideoFX steht ebenfalls auf der Warteliste, sodass sich nicht jeder anmelden kann, um Veo 2 auszuprobieren, obwohl das Unternehmen angekündigt hat, den Zugang in den kommenden Wochen zu erweitern. Ein Google-Sprecher wies außerdem darauf hin, dass Veo 2 auf der Vertex AI-Plattform verfügbar gemacht wird, sobald das Unternehmen die Fähigkeiten des Modells ausreichend skalieren kann.
„In den kommenden Monaten werden wir basierend auf dem Feedback der Benutzer weiter iterieren“, sagte Eli Collins gegenüber TechCrunch , „und [wir] versuchen, die aktualisierten Funktionen von Veo 2 in überzeugende Anwendungsfälle im gesamten Google-Ökosystem zu integrieren … Wir gehen davon aus.“ Teilen Sie nächstes Jahr weitere Updates.
Heute kündigen wir Veo 2 an: unser hochmodernes Videogenerierungsmodell, das realistische, hochwertige Clips aus Text- oder Bildaufforderungen erstellt.
Wir veröffentlichen außerdem eine verbesserte Version unseres Text-zu-Bild-Modells, Imagen 3 – verfügbar zur Verwendung in ImageFX über … pic.twitter.com/h6ejHaMUM4
– Google DeepMind (@GoogleDeepMind) 16. Dezember 2024
Berichten zufolge bietet Veo 2 gegenüber seinen Vorgängern eine Reihe von Vorteilen, darunter ein besseres Verständnis der Physik (denken Sie an eine bessere Fluiddynamik und bessere Beleuchtungs-/Schatteneffekte) sowie die Fähigkeit, „klarere“ Videoclips zu erzeugen, da erzeugte Texturen und Bilder erzeugt werden schärfer und weniger anfällig für Unschärfe bei Bewegungen. Das neue Modell bietet außerdem eine verbesserte Kamerasteuerung, die es dem Benutzer ermöglicht, das virtuelle Kameraobjektiv präziser als zuvor zu positionieren.
Wie TechCrunch anmerkt, hat Veo 2 den Videogenerierungsprozess noch nicht perfektioniert, obwohl es weitaus weniger zu halluzinieren scheint als Konkurrenten wie Sora , Kling , Movie Gen oder Gen 3 Alpha . „Kohärenz und Konsistenz sind Bereiche für Wachstum“, sagte Collins. „Veo kann eine Aufforderung ein paar Minuten lang konsequent befolgen, komplexe Aufforderungen kann es jedoch nicht über einen längeren Zeitraum hinweg befolgen. Ebenso kann die Konsistenz der Charaktere eine Herausforderung sein. Es gibt auch Raum für Verbesserungen bei der Erzeugung komplizierter Details, schneller und komplexer Bewegungen und bei der weiteren Ausweitung der Grenzen des Realismus.“
Google kündigte am Montag außerdem Verbesserungen an Imagen 3 an, die es dem kommerziellen Bildgenerierungsmodell ermöglichen, „hellere, besser komponierte“ Ausgaben zu erstellen. Das auf ImageFX verfügbare Modell bietet außerdem zusätzliche beschreibende Vorschläge basierend auf Schlüsselwörtern in der Eingabeaufforderung des Benutzers, wobei jedes Schlüsselwort ein Dropdown-Menü mit verwandten Begriffen erzeugt.