Nvidia verwandelt einfache Textaufforderungen in spielbereite 3D-Modelle

März 22, 2024 Eskere Guru

Eine farbenfrohe Collage aus Bildern, die von Nvidias LATTE3D generiert wurden. — Nvidia

Nvidia hat gerade während der GTC 2024 sein neues generatives KI-Modell namens Latte3D vorgestellt. Latte3D scheint ChatGPT auf extremen Steroiden zu sein. I ist ein Text-zu-3D-Modell, das einfache, kurze Textaufforderungen akzeptiert und diese innerhalb einer Sekunde in 3D-Objekte und Tiere umwandelt. Latte3D ist viel schneller als seine älteren Pendants und funktioniert wie ein virtueller 3D-Drucker, der für Entwickler in vielen Branchen nützlich sein könnte.

Latte3D wurde entwickelt, um die Erstellung von 3D-Modellen für viele Arten von Entwicklern zu vereinfachen, beispielsweise für diejenigen, die an Videospielen, Designprojekten, Marketing oder sogar maschinellem Lernen und Training für Robotik arbeiten. In Nvidias Demo des Modells scheint es sehr einfach zu bedienen zu sein. Nach einer kurzen Textaufforderung generiert die KI ein 3D-Modell und vervollständigt es kurz darauf mit viel mehr Details. Das Endergebnis ist zwar bei weitem nicht so naturgetreu wie Sora von OpenAI , aber das soll es auch nicht sein – dies ist eine Möglichkeit, die Erstellung von Assets zu beschleunigen, anstatt sie von Grund auf aufbauen zu müssen.

Das Modell generiert mehrere verschiedene Optionen, aus denen der Benutzer auswählen kann, und Nvidia sagt, dass diese Formen „innerhalb weniger Minuten für eine höhere Qualität optimiert werden können“. Die Designs können dann auf verschiedene Plattformen wie Nvidias Omniverse exportiert und an das gewünschte Endergebnis angepasst werden. Nvidia trainierte Latte3D mithilfe seiner Ada A100 Tensor Core GPUs und unterstützte das Training mit ChatGPT-Eingabeaufforderungen, um es für die Interaktion mit echten Benutzern vorzubereiten.

Derzeit kann Latte3D nur Objekte und Tiere generieren. Zu diesem Zweck scheint es solide Arbeit bei der Unterscheidung verschiedener Tiere, Texturen und Objekttypen zu leisten. Nvidia demonstrierte diese Fähigkeiten, indem es Objekte wie einen Amigurumi (gehäkelten Kranich) oder eine Origami-Sphynx-Katze präsentierte. Dem Modell wurde beigebracht, verschiedene Arten zu erkennen und so den Unterschied zwischen einem italienischen Windhund und einem Shiba Inu zu erkennen.

Entwickler, die Latte3D für mehr Zwecke nutzen möchten, können es mit einem anderen Datensatz trainieren, sei es Pflanzen oder Haushaltsgegenstände, und ihn später für ihre eigenen Zwecke verwenden. Nvidia bringt hier einige interessante Anwendungsfälle vor, beispielsweise das Training persönlicher Assistenzroboter vor dem Einsatz. Es ist leicht vorstellbar, dass Latte3D für Spieleentwickler nützlich sein wird, aber das Potenzial geht weit über reine Gaming-Szenarien hinaus.

Sanja Fidler, Vizepräsidentin für KI-Forschung bei Nvidia, bemerkte dazu, wie viel schneller Latte3D im Vergleich zu seinen Vorgängern ist: „Vor einem Jahr dauerte es eine Stunde, bis KI-Modelle 3D-Visualisierungen dieser Qualität generierten – und das ist der aktuelle Stand der Technik.“ beträgt jetzt etwa 10 bis 12 Sekunden. Wir können jetzt um eine Größenordnung schneller Ergebnisse erzielen“, sagte Fidler.

Die jüngsten Ankündigungen zum Einsatz von KI in der Spieleentwicklung sind alle ziemlich bahnbrechend, und Nvidias Latte3D reiht sich in eine wachsende Liste von Tools ein, die eines Tages den Prozess der Spieleerstellung völlig verändern könnten. Beispielsweise hat Nvidia erst kürzlich Nicht-Spieler-Charaktere (NPCs) vorgestellt, deren Dialoge vollständig von KI generiert werden . Mittlerweile kann das neueste Update der Unreal Engine mithilfe von maschinellem Lernen in Spielen in Echtzeit visuelle Darstellungen in Filmqualität erzeugen .