Ein Kurzfilm auf Film- und Fernsehniveau wurde in 10 Sekunden aufgenommen, und das Motiv der ausgefallenen Kamerabewegung ist immer noch klar. Dieses neue inländische Videomodell ist stabil.

September 26, 2024 Eskere Guru

Der Track von Vincent Video wird immer lebendiger. Er wird alle zwei Wochen aktualisiert und jeden Monat wiederholt. Musk ist als Model fast zu beschäftigt. Es ist wirklich einfach zu rollen. Das Videogenerierungsmodell von Doubao bringt ein neu gestaltetes Diffusionsmodell mit, das Film- und Fernsehrealismus und realistische Details für hochdynamische und komplexe Szenen zeigt. Beschreiben Sie die Wirkung in einem Satz: sehr stark, sehr explosiv, ich traue meinen Augen nicht.

Am 24. September kam die Volcano Engine AI Innovation Tour 2024 nach Shenzhen und veröffentlichte ein neues Videogenerationsmodell, das zwei Bomben für die gesamte AI-Videospur gleichzeitig abwarf: Doubao Video Generation-PixelDance, Doubao Video Generation-Seaweed Zwei große Modelle.

Als einer der ersten großen Hersteller von Basismodellen in China, der die Algorithmus-Registrierung bestanden hat, ist es nicht verwunderlich, dass er in die Fußstapfen von Vincent Video getreten ist. Es macht sogar Vorfreude: Wie sonst lässt es sich rollen? Nachdem wir am tatsächlichen Test dieses leistungsstarken Haushaltsmodells teilgenommen hatten, stellten wir fest, dass seine Leistung definitiv nicht nur in der Erzeugung von Bildern liegt, sondern auch eine größere Ökologie und Vision aufweist.

Wichtige Durchbrüche im semantischen Verständnis und in der Konsistenz, vollständige Beherrschung der Linsensprache

Die „Magie“ des generativen Videos kommt von der „Magie“.

Mit anderen Worten: Die semantische Verständnisfähigkeit des Modells ist die Grundlage. Nur wenn man den Textinhalt der Aufforderung genau versteht, kann das erwartete Bild richtig dargestellt werden – „Leseverständnis“ muss zuerst verstanden werden.

Diesmal nahm APPSO an einem internen Test teil und erzielte bemerkenswerte Ergebnisse – wiederum sehr stark und explosiv.

▲ Eingabeaufforderung: Ein Kätzchen mit Schürze und Handschuhen spült Geschirr in einem Eimer voller Schaum. Oben ist ein Wasserhahn, der Wasser abgibt.

Jedes von der Eingabeaufforderung angezeigte Element wurde berücksichtigt, und es gibt keine „fehlende Frage“. Das einzige Problem ist: Es ist zu schön – meine einheimische Katze hat kein so hochwertiges Temperament.

Vergessen Sie es, was könnte ein Kätzchen falsch machen? Aus bildlicher Sicht sind die Details des Schaums und des Wasserflusses sehr beeindruckend und auch der stolze Gesichtsausdruck der Katze ist sehr lebendig.

Ein kleines Detail: Das Wasser fällt auf den Kopf des Kätzchens und dann von hinten und vom Kinn. Dieses Detail entspricht den Gesetzen der Physik und reicht aus, um die starke Verständnisfähigkeit des Modells zu zeigen. Eine ähnliche Leistung ist auch bei der offiziellen Vorführung zu sehen.

▲Offizielle Demo

Die Wiederherstellung der unordentlichen Haare im Wind spiegelt nicht nur die flatternden Haare wider, sondern auch die Richtung stimmt mit dem Bewegungsrhythmus der Figur überein, der mit der physikalischen Logik übereinstimmt.

Diese High-Fidelity-Fähigkeit ergibt sich aus dem Verständnis und der technischen Anhäufung von Videoerstellungsmodellen durch Douyin und Jianying. Durch selbstentwickelte Modelle mit hoher Komprimierungsrate und hoher Wiederherstellbarkeit wird die effiziente Codierung des Diffusionsmodells gewährleistet Betrieb.

▲ Eingabeaufforderung: Schauen Sie in einem Wald mit dichten Bäumen in den Himmel. Der Himmel ist von dichten Blättern bedeckt und die Sonne scheint durch die Lücken zwischen den Blättern. Aufnahmewinkel nach oben, starker Hell-Dunkel-Kontrast

Grün ist ein sehr kniffliger Farbton. Wenn Sie ihn gut einstellen, wirkt er retro und frisch, aber wenn Sie ihn falsch einstellen, geht der Ton verloren. Hier wird der durch die Lichtbrechung durch grüne Blätter und Zweige entstehende Blendeneffekt exakt wiederhergestellt, der dem der Linse nahe kommt.

Es muss gesagt werden, dass das Doubao-Videogenerierungsmodell nach wiederholtem Polieren und kontinuierlicher Iteration von Geschäftsszenarien wie Videobearbeitung und Jimeng AI wirklich über Licht- und Schattenlayout- und Farbanpassungsfunktionen auf professionellem Niveau verfügt und 3D-Animation, 2D-Animation und Chinesisch unterstützt Malerei, verschiedene Stile wie Schwarzweiß, Impasto und, was noch wichtiger ist, die Beherrschung der Sprache der Linse.

Coole Kamerabewegungen, egal wie sich die Bewegungen ändern, der Protagonist bleibt stabil

Die Bedeutung der Linsensprache kann nicht oft genug betont werden. Niemand möchte viel Zeit allein damit verbringen, ein dynamisches PPT zu erstellen.

Für normale Benutzer besteht jedoch keine Notwendigkeit, an einem Schulungskurs zur „Objektivsprache“ teilzunehmen: Das Doubao Video Generation Model hat eine Reihe von Lösungen für die Objektivbedienung vorbereitet, von Zoom, Surround, Schwenken bis hin zu Zoom, Zielverfolgung und anderen Super-Multifunktionen -lens-Sprache kann mithilfe der Eingabeaufforderung vervollständigt werden, um eine flexible Steuerung der Perspektive zu erreichen.
Es sieht einfach aus, ist aber nicht einfach umzusetzen: Konsistenz ist eine große Herausforderung.

Das Modell versteht die Anweisungen, generiert das Subjekt und entwirft dann die Änderungen und Aktionsbahnen des Subjekts gemäß den Objektivanforderungen. In dieser Reihe von Schritten muss nicht nur das Gesicht des Subjekts „unverändert“ sein, sondern auch das Subjekt entsprechend den Bewegungen und Winkeln entsprechend „variabel“.

▲Eingabeaufforderung: Ein Border Collie im Raumanzug rennt auf der Mondoberfläche, springt hoch und jagt einer fliegenden Scheibe in der Luft hinterher. Das Mondlicht beleuchtet sein Fell in einem schrägen Winkel, niedrigem Winkel, 4K-Qualität, Zeitlupe

Als der Welpe aufsprang, waren sein Kopf und seine Gliedmaßen nicht stark deformiert, er war stabil und fühlte sich wohl.

▲ Eingabeaufforderung: Musk stand im Reisfeld, bückte sich, um Reis anzupflanzen, und trug einen Strohhut auf dem Kopf. Nachdem er den Kopf gehoben hatte, hob er die Hand, um die Kamera zu begrüßen.

Während der zehn Sekunden, in denen er in die Kamera sprach, veränderten sich Musks Gesichtsausdruck, Arme und Körperhaltung mit seinen Bewegungen, aber das Ganze brach nicht zusammen und die Bewegungsabläufe verliefen sehr reibungslos.

Bei der Bewältigung dieser Herausforderung von „Veränderung“ und „Unveränderlichkeit“ ist die Konsistenz des Themas nahezu perfekt gewährleistet und die Leistung ist wirklich leistungsstark.

Das gleiche Prinzip gilt auch beim Objektivwechsel. In der offiziellen Demo gibt es einen beeindruckenden Unterwasserabschnitt.

▲Offizielle Demo

Mit einem einfachen Zoom des Objektivs muss das Modell Folgendes erreichen: Im Vordergrund sollten exquisite Details zu sehen sein, dann bewegt sich das Motiv, um ein neues Motiv freizugeben, und schließlich lässt es sich auf dem neuen Motiv nieder, und die gesamte Bewegung ist abgeschlossen auf einmal.

Zusätzlich zu seiner herausragenden konstanten Leistung und den erstaunlichen Kamerabewegungsmöglichkeiten unterstützt es natürlich auch eine Vielzahl von Stilen wie 3D, 2D-Animation, Impasto, Comics usw. sowie eine Vielzahl von Verhältnisoptionen, was den Benutzern eine äußerst freie Auswahl bietet .

▲Offizielle Demo

▲ Eingabeaufforderung: Die wunderschöne, verschneite Stadt Tokio ist voller Leben. Die Kamera bewegt sich durch eine belebte Stadtstraße und folgt mehreren Menschen, die das schöne Schneewetter genießen und an nahegelegenen Ständen einkaufen. Wunderschöne Sakura-Blütenblätter fliegen zusammen mit Schneeflocken durch den Wind

▲ Eingabeaufforderung: An einer Kreuzung in Hongkong fahren nachts Autos und Busse schnell vorbei und bilden fließende Linien. Es gibt Fußgänger, die auf die Ampel warten. Die Gebäude im Hintergrund sind unscharf und bilden helle Flecken, niedriger Winkel, 4K-Qualität

Von „High-End“ bis „einfach umsetzbar“

Obwohl das Doubao-Videogenerationsmodell gerade erst für Benutzer verfügbar ist, wurde die Technologie dahinter schon seit langem ausgefeilt. Laut einem im November letzten Jahres von ByteDance Research veröffentlichten technischen Bericht kombinierte das Byte-Team die Bildanweisungen für den ersten und letzten Rahmen mit Textanweisungen. Die letzte Rahmenanweisung erwies sich als Schlüsselkomponente bei der Erstellung komplexer Szenen oder Aktionen.

Darüber hinaus wählte Byte zu diesem Zeitpunkt die autoregressive Route anstelle der hierarchischen Methode, um eine hochstabile Bildleistung zu erreichen. Die Überlegung dahinter ist, dass das Modell sicherstellen muss, dass der generierte Inhalt den Erwartungen der Benutzer entspricht. Nur so können Benutzer aktiv am Generierungsprozess teilnehmen und die Rolle des „Regisseurs“ übernehmen, sodass leistungsstarke Modellfunktionen implementiert werden können praktische Anwendungen so schnell wie möglich.

Im Vergleich zu ähnlichen Produkten (ohne Futures) liegt das Videogenerierungsmodell von Doubao vollständig auf der ersten Ebene. Im Vergleich zu ausländischen Produkten wie Luma und Runway versteht es Chinesen und chinesische Benutzer besser und eignet sich besser für den kreativen Workflow im chinesischen Internet.

▲Offizielle Demo

Bei solch einer hervorragenden Leistung ist es unvermeidlich, aufzufallen. Dies bezieht sich nicht nur auf das Videogenerierungsmodell, sondern auf die gesamte Doubao-Großmodellfamilie: Als eines der ersten Großmodelle in China, das die Algorithmus-Registrierung bestanden hat, bietet das Doubao-Großmodell Dienstleistungen für Unternehmen über Volcano Engine und Volcano Ark an.

Im September überstieg die durchschnittliche tägliche Token-Nutzung des Doubao-Sprachmodells 1,3 Billionen, was einer Verzehnfachung gegenüber der Erstveröffentlichung im Mai entspricht.

Um die stärkste Leistung zu erzielen, unterstützt Doubao Universal Model Pro standardmäßig eine anfängliche TPM von 800.000. Es ist ersichtlich, dass diese Zahl weit über dem besten Niveau der Branche liegt und je nach tatsächlichem Bedarf weiter ausgebaut werden kann, um großen Unternehmen zu helfen für den sicheren Betrieb im großen Maßstab in einer Produktionsumgebung.

Obwohl seine technischen Fähigkeiten so stark sind, liegt das große Modell von Doubao im Preisvergleich der stärksten Versionen verschiedener großer Modelle mehr als 98 % unter dem Branchenpreis – die Schwelle für den Einsatz von KI war niedriger als je zuvor.

Je fortschrittlicher die Technologie ist, desto mehr muss sie implementiert und in das tägliche Leben integriert werden.

In tatsächlichen Geschäftsszenarien sind gute Ergebnisse, hohe Geschwindigkeit und einfache Bedienung erforderlich. Am Beispiel des E-Commerce müssen wir sowohl Marketingknoten als auch die Anzeigeeffekte verschiedener Plattformen berücksichtigen. Gefragt ist eine flexible und schnelle Produktionsmethode.

Ob Werbeaufnahmen, Kurzvideos, Live-E-Commerce und andere Bereiche: Es werden einfache und benutzerfreundliche Tools benötigt, die in den bestehenden Produktionsprozess eingebettet werden können.

Auf der Pressekonferenz am 24. demonstrierte Tan Dai, Präsident von Volcano Engine, auch eine Reihe groß angelegter Modellanwendungen, insbesondere Fälle, die tatsächlich in kommerziellen Nutzungsszenarien umgesetzt wurden.
Durch Full-Stack-Services für große Modelle integriert Huoshan Engine die Stärke der großen Doubao-Modelle wirklich in tatsächliche Geschäftsszenarien. Seit diesem Jahr hat Volcano Engine die Retail Large Model Ecological Alliance, die Automobile Large Model Ecological Alliance und die Smart Terminal Large Model Alliance gegründet, die eine Vielzahl von Unternehmen und Szenarien abdecken.

Stärkere Modelle, günstigere Preise und eine einfachere Umsetzung sind zweifellos die wesentlichen Vorteile großer Sitzsackmodelle.

„Stärkeres Modell“ Es versteht sich von selbst, dass das große Doubao-Modell die Nutzung von mehr als einer Billion Token pro Tag unterstützen kann. Durch die internen 50+ Geschäftspraktiken von ByteDance und die Anwendungen von mehr als 30 Industriekunden deckt die zunehmende Anzahl von Anrufen immer mehr Bereiche ab . Es erhält zwar mehr Rückmeldungen von Unternehmen, trägt aber auch dazu bei, dass das Baoda-Modell besser und umfassender wird.

Auf der Pressekonferenz sagte Tan Dai: „Die Anwendungskosten großer Modelle wurden gut gelöst. Große Modelle müssen vom Volumenpreis zur Volumenleistung übergehen, mit besseren Modellfähigkeiten und -diensten.“

„Die Anwendung kommerzieller Szenarien ist etwas, das das Doubao·Video Generation Model von Anfang an in Betracht gezogen hat. Es erfordert einen Durchbruch im kommerziellen Wert, um besser angewendet zu werden.“ Wir haben in verschiedenen Szenarien genug getan. Anpassung, das ermöglicht es jedem, durch das beanbao-Videogenerierungsmodell in einem Geschäftsumfeld wirklich Innovationen voranzutreiben und das Geschäft zu beschleunigen.“

Enthusiasten können mit C-End-Produkten mit niedrigem Schwellenwert beginnen, die KI-Welt zu erkunden. Entwickler können die Volcano Engine nutzen, um KI-Arbeit kostengünstiger, vielfältiger und flexibler umzusetzen und einer breiteren Nutzerbasis neue Produkte und Inhalte zur weiteren Erkundung bereitzustellen.

Bei der anschließenden Frage-und-Antwort-Runde mit Reportern teilte er auch mit, dass der Unterschied zwischen toB und toC möglicherweise nicht so groß sei, wenn die Technologie immer weiter iteriert und voranschreite, wenn KI ein Problem vollständig lösen könne.

Das wird vielleicht der spektakulärste Anblick im KI-Zeitalter sein: Ursprünglich unerreichbare Barrieren werden überwunden. Ganz gleich, ob Sie über Erfahrung verfügen oder nicht, ob zur geschäftlichen Stärkung oder zu Ihrer eigenen Unterhaltung: Solange Sie anfangen, werden Sie Wunder vollbringen.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo