Das neue KI-Modell von Meta kann Text in weniger als einer Minute in 3D-Bilder umwandeln
![eine Reihe von 3D-generierten Bildern, erstellt von Meta 3D Gen](https://www.digitaltrends.com/wp-content/uploads/2024/07/Meta-3d-Gen.jpg?fit=720%2C442&p=1)
Metas jüngster Ausflug in die KI-Bilderzeugung ist ein schneller. Das Unternehmen stellte am Dienstag sein neues „3D Gen“-Modell vor , eine „hochmoderne, schnelle Pipeline“ zur Umwandlung von Eingabetext in hochauflösende 3D-Bilder, die diese in weniger als einer Minute ausgeben können.
Darüber hinaus ist das System angeblich in der Lage, mithilfe von Texteingaben neue Texturen und Skins sowohl auf generierte als auch auf von Künstlern erstellte Bilder anzuwenden.
Laut einer aktuellen Studie des Meta Gen AI-Forschungsteams wird 3D Gen nicht nur hochauflösende Texturen und Materialkarten bieten, sondern auch physikalisch basierte Rendering (PBR) und generative Retexturierungsfunktionen unterstützen.
Neue Forschung von GenAI bei Meta, Einführung von Meta 3D Gen: Ein neues System für die End-to-End-Generierung von 3D-Assets aus Text in <1 Minute.
Meta 3D Gen ist ein neues kombiniertes KI-System, das hochwertige 3D-Assets mit hochauflösenden Texturen und Materialkarten durchgängig generieren kann, … pic.twitter.com/rDD5GzNinY
– KI bei Meta (@AIatMeta) 2. Juli 2024
Das Team schätzt die durchschnittliche Inferenzzeit für die Erstellung des ersten 3D-Modells mithilfe des 3D-AssetGen-Modells von Meta auf nur 30 Sekunden. Benutzer können dann zurückgehen und entweder die vorhandene Modelltextur verfeinern oder sie durch etwas Neues ersetzen, beides über Texteingabeaufforderungen mit Meta 3D TextureGen, ein Prozess, der nach Angaben des Unternehmens nicht mehr als zusätzliche 20 Sekunden Inferenzzeit in Anspruch nehmen sollte.
„Durch die Kombination ihrer Stärken“, schrieb das Team in seiner Studienzusammenfassung, „darstellt 3DGen 3D-Objekte gleichzeitig auf drei Arten: im Ansichtsraum, im volumetrischen Raum und im UV- (oder Textur-) Raum.“ Das Meta-Team verglich sein 3D-Gen-Modell mit einer Reihe von Branchenstandards und verglich es anhand einer Vielzahl von Faktoren, darunter Texteingabetreue, visuelle Qualität, Texturdetails und Artefakte. Durch die Kombination der Funktionen beider Modelle wurden Bilder, die durch den integrierten zweistufigen Prozess erzeugt wurden, von Annotatoren in 68 % der Fälle gegenüber ihren einstufigen Gegenstücken ausgewählt.
Zugegebenermaßen befindet sich das in diesem Dokument besprochene System noch in der Entwicklung und ist noch nicht für den öffentlichen Einsatz bereit, aber die technischen Fortschritte, die diese Studie veranschaulicht, könnten sich in einer Reihe kreativer Disziplinen, von Spiel- und Filmeffekten bis hin zu VR-Anwendungen, als transformativ erweisen.
Wenn Benutzern die Möglichkeit gegeben wird, 3D-generierte Inhalte nicht nur schnell und intuitiv zu erstellen, sondern auch zu bearbeiten, könnte die Eintrittsbarriere für solche Aktivitäten drastisch gesenkt werden . Es ist nicht schwer, sich vorzustellen, welche Auswirkungen dies beispielsweise auf die Spieleentwicklung haben könnte.