Die Kunst des Avatars ist da: Apple veröffentlicht neue KI-Technologie, um Ihren „digitalen Avatar“ in 30 Minuten zu erstellen

Dezember 20, 2023 Eskere Guru

Während eine Reihe von Technologiegiganten im Bereich der generativen KI hart miteinander konkurrieren, scheint Apple eher still zu sein.

Heute hat Apple ein Forschungspapier zur generativen KI veröffentlicht, das uns selten den neuesten Durchbruch auf diesem Gebiet zeigt.

In diesem Artikel wird eine generative KI-Technologie namens HUGS (Human Gaussian Splats) beschrieben. Kurz gesagt, dank des Segens dieser Technologie können wir durch ein kurzes Video sogar einen menschlichen „digitalen Avatar“ erstellen.

Werfen wir näher zu Hause einen Blick auf den spezifischen Demonstrationseffekt

Laut Apple-Beamten hat die auf neuronalen Netzwerken basierende Rendering-Technologie im Laufe der Jahre zwar erhebliche Verbesserungen beim Training und bei der Rendering-Geschwindigkeit erzielt, diese Technologie konzentriert sich jedoch hauptsächlich auf die Photogrammetrie statischer Szenen und lässt sich nur schwer auf flexible, sich bewegende menschliche Modelle anwenden.

Um dieses Problem zu lösen, haben Apples Forschungszentrum für maschinelles Lernen und das Max-Planck-Institut für Intelligente Systeme gemeinsam ein KI-Framework namens HUGS vorgeschlagen. Nach dem Training kann HUGS innerhalb von 30 Minuten automatisch von Videos getrennt werden. Statischer Hintergrund und ein sich vollständig dynamisch änderndes digitales Bild Benutzerbild.

Wie genau wird es gemacht?

Ihre Kernidee besteht darin, die dreidimensionale Gaußsche Verteilung (3DGS) zur Darstellung von Personen und Szenen zu verwenden. Sie können die Gaußsche Verteilung (GS) als einen parametrisierten dreidimensionalen glockenförmigen Körper mit einer zentralen Position, einer Volumengröße und einem Rotationswinkel verstehen.

Wenn wir viele dieser dreidimensionalen glockenförmigen Körper an verschiedenen Orten in einem Raum platzieren, ihre Positionen, Größen und Winkel anpassen und sie miteinander kombinieren, können wir die Struktur des Raums und der Personen in der Szene rekonstruieren. Die Gaußsche Verteilung lässt sich sehr schnell trainieren und rendern, was den größten Vorteil dieser Methode darstellt.

Das nächste Problem, mit dem wir konfrontiert sind, besteht darin, dass die Gaußsche Verteilung selbst relativ einfach ist und es schwierig ist, die komplexe Struktur des menschlichen Körpers einfach durch Stapeln genau zu simulieren.

Daher verwendeten sie zunächst ein menschliches Körpermodell namens SMPL, ein häufig verwendetes, relativ einfaches Modell der menschlichen Körperform, das einen Ausgangspunkt für eine Gaußsche Verteilung bietet, die die grundlegende Form und Haltung des menschlichen Körpers verankert.

Obwohl das SMPL-Modell die Grundform des menschlichen Körpers liefert, ist es bei der Verarbeitung einiger Details wie Kleidungsfalten, Frisuren usw. nicht sehr genau, und die Gaußsche Verteilung kann bis zu einem gewissen Grad vom SMPL-Modell abweichen und es modifizieren.

Auf diese Weise können sie das Modell flexibler anpassen, diese Details besser erfassen und simulieren und dem endgültigen digitalen Avatar ein realistischeres Aussehen verleihen.

Das Trennen ist nur der erste Schritt. Sie müssen auch das konstruierte Menschenmodell in Bewegung setzen. Zu diesem Zweck entwickelten sie ein spezielles Verformungsnetzwerk, um zu lernen, das Bewegungsgewicht jeder Gaußschen Verteilung (die die Form des menschlichen Körpers und der Szene darstellt) unter verschiedenen Skeletthaltungen zu steuern, das sogenannte LBS-Gewicht.

Diese Gewichte teilen dem System mit, wie sich die Gaußsche Verteilung ändern soll, wenn sich das menschliche Skelett bewegt, um eine echte Bewegung zu simulieren.

Darüber hinaus hörten sie nicht nur auf, das Netzwerk zu entwerfen, sondern optimierten auch die Gaußsche Verteilung des digitalen Avatars, die Gaußsche Verteilung der Szene und das Deformationsnetzwerk, indem sie Videos realer menschlicher Bewegungen beobachteten. Dadurch kann sich der digitale Avatar besser an unterschiedliche Szenen und Aktionen anpassen und wirkt dadurch realer.

Im Vergleich zu herkömmlichen Methoden ist die Trainingsgeschwindigkeit dieser Methode deutlich verbessert, mindestens 100-mal schneller, und sie kann auch hochauflösende Videos mit 60 Bildern pro Sekunde rendern.

Noch wichtiger ist, dass diese neue Methode einen effizienteren Trainingsprozess und geringere Rechenkosten ermöglicht und manchmal nur 50–100 Frames an Videodaten erfordert, was 24 Frames Video in nur 2–4 Sekunden entspricht.

Im Hinblick auf die Veröffentlichung dieser Errungenschaft zeigten die Einstellungen der Internetnutzer einen polarisierten Trend.

Der digitale Blogger @mmmryo staunte über die Modellierung von Haut, Kleidung, Haaren und anderen Details durch das generative Modell und spekulierte, dass diese Technologie wahrscheinlich speziell für iPhone oder Vision Pro entwickelt wurde.

Der Samsung-Wissenschaftler Kosta Derpani erschien im Kommentarbereich des Apple-Forschers Anurag Ranjan und drückte sein volles Lob und seine Bestätigung für diese Leistung aus.

Einige Internetnutzer kauften es jedoch nicht. Beispielsweise stellte der X-Benutzer @EddyRobinson den tatsächlich erzeugten Effekt in Frage.

Apple hat angekündigt, den Code für das Modell zu veröffentlichen, aber zum Zeitpunkt der Drucklegung führt ein Klick auf den offiziellen Code-Link von Apple nur zu „404“.

Einige Internetnutzer äußerten rationale Diskussionen:

Es ist erwähnenswert, dass der Autor dieses Artikels ein bekanntes chinesisches Gesicht hat.

Der Hauptautor des Papiers, Jen-Hao Rick Chang, kommt aus Taiwan, China. Bevor er 2020 zu Apple kam, promovierte er am ECE Department der Carnegie Mellon University.

Zhang Renhaos akademische Karriere ist legendär. Während seines Studiums an der Carnegie Mellon University studierte er bei Professor Vijayakumar Bhagavatula und Professor Aswin Sankaranarayanan, beide Master auf dem Gebiet der Bildverarbeitung.

Nachdem er sich die ersten drei Jahre aus Forschungsinteresse dem Bereich des maschinellen Lernens gewidmet hatte, änderte Zhang Renhao entschieden seine Forschungsrichtung und begann, sich in völlig andere Bereiche der Optik zu vertiefen. Seitdem ist er sukzessive bei SIGGRAPH auf diesem Gebiet tätig von Computergrafik und interaktiver Technologie sowie auf dem Gebiet des maschinellen Lernens ICML International. Veröffentlichte viele Meisterwerke auf akademischen Konferenzen.

Dieses Apple-Papier ist das neueste Forschungsergebnis, das er mitverfasst hat. Abschließend wird die spezifische Adresse des Papiers angegeben. Weitere Einzelheiten finden Sie unter dem folgenden Link.

https://arxiv.org/abs/2311.17910

Man muss sagen, dass der diesjährige Weg zur KI-Videogenerierung einfach unmenschlich ist. Das Aufkommen von Runway hat generative KI in die heiligen Hallen des Kinos gebracht. „The Instant Universe“, unterstützt durch die Runway-Technologie, demonstriert die Magie der KI-Videogenerierung. Eindringlich und lebhaft.

Dann nahm Pika 1.0 von Pika Lab das „Patent“ der KI-Videogenerierung aus den Händen professioneller Entwickler zurück. Durch einfachere Texteingabe, leicht verständliche Videobearbeitung und hochwertigere Videogenerierung hat jeder die Möglichkeit, sein eigener Videoregisseur zu werden.

Egal, ob Sie Profi oder Amateur sind, Sie können den menschlichen Animationsgenerator MagicAnimate auch zu Ihrer Unterhaltung nutzen. Geben Sie einfach Bilder von Personen entsprechend vorgegebener Aktionssequenzen ein, um dynamische Videos zu erstellen.

Der bewegende Protagonist kann Ihr Selfie, Ihr Haustier oder ein bekanntes berühmtes Gemälde sein. Alles kann mit Ihrer Fantasie bewegt werden.

Was natürlich noch auffälliger sein könnte, ist das heute vom Google-Team eingeführte Videogenerierungsmodell VideoPoet, das verschiedene Videogenerierungsfunktionen und Audiogenerierung unterstützt und es sogar großen Modellen ermöglichen kann, die vollständige Videogenerierung zu steuern.

Es kann nicht nur 10 Sekunden lange Videos am Stück erzeugen, VideoPoet kann auch das aktuelle Problem lösen, dass keine Videos mit großen Bewegungen generiert werden können. Es ist ein Allrounder auf dem Gebiet der Videogenerierung. Der einzige Nachteil könnte darin bestehen es „lebt“ im Google-Blog.

Relativ gesehen zielt Apples neueste Errungenschaft auf die derzeit beliebte Technologie ähnlich der KI-Anker ab. Ein kurzes Video, das weniger als ein paar Sekunden dauert, kann Ihren „digitalen Avatar“ erzeugen. Sehen ist vielleicht nicht glaubhaft. Wie können wir es in Zukunft beweisen? dass „Ich, das bin ich“ es wert sein könnte, sich erneut Sorgen zu machen.

Vision Pro wird nächstes Jahr in den USA veröffentlicht, und die Forschungsergebnisse dieser Arbeit sind wahrscheinlich ein im Voraus vergrabenes Easter Egg.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo