Ich habe die Zukunft der KI-Bilderzeugung getestet. Es ist erstaunlich schnell.
Eines der Kernprobleme von KI ist der notorisch hohe Leistungs- und Rechenbedarf, insbesondere für Aufgaben wie die Mediengenerierung. Wenn es um den nativen Betrieb von Mobiltelefonen geht, können nur eine Handvoll teurer Geräte mit leistungsstarkem Silizium die Funktionssuite ausführen. Selbst wenn es in großem Maßstab in der Cloud implementiert wird, ist es eine kostspielige Angelegenheit .
Möglicherweise hat Nvidia diese Herausforderung stillschweigend in Zusammenarbeit mit den Leuten am Massachusetts Institute of Technology und der Tsinghua University angegangen. Das Team hat ein hybrides KI-Bilderzeugungstool namens HART (Hybrid Autoregressive Transformer) entwickelt, das im Wesentlichen zwei der am weitesten verbreiteten KI-Bilderzeugungstechniken kombiniert. Das Ergebnis ist ein blitzschnelles Tool mit deutlich geringerem Rechenbedarf.
Um Ihnen eine Vorstellung davon zu geben, wie schnell es ist, habe ich es gebeten, ein Bild eines Papageis zu erstellen, der eine Bassgitarre spielt. Es kam in nur etwa einer Sekunde mit dem folgenden Bild zurück. Ich konnte dem Fortschrittsbalken kaum folgen. Als ich die gleiche Eingabeaufforderung vor dem Imagen 3-Modell von Google in Gemini gedrückt habe, dauerte es bei einer Internetverbindung mit 200 Mbit/s etwa 9 bis 10 Sekunden.

Ein gewaltiger Durchbruch
Als KI-Bilder erstmals Wellen schlugen, steckte dahinter die Diffusionstechnik, die Produkte wie den Dall-E-Bildgenerator von OpenAI , Imagen von Google und Stable Diffusion antreibt. Mit dieser Methode können Bilder mit einem extrem hohen Detaillierungsgrad erzeugt werden. Es handelt sich jedoch um einen mehrstufigen Ansatz zur Erstellung von KI-Bildern, der daher langsam und rechenintensiv ist.
Der zweite Ansatz, der in letzter Zeit an Popularität gewonnen hat, sind autoregressive Modelle, die im Wesentlichen auf die gleiche Weise wie Chatbots funktionieren und Bilder mithilfe einer Pixelvorhersagetechnik generieren. Es ist eine schnellere, aber auch fehleranfälligere Methode, Bilder mithilfe von KI zu erstellen.
Das Team am MIT hat beide Methoden in einem einzigen Paket namens HART zusammengefasst. Es basiert auf einem Autoregressionsmodell, um komprimierte Bildbestände als diskretes Token vorherzusagen, während ein kleines Diffusionsmodell den Rest übernimmt, um den Qualitätsverlust auszugleichen. Der Gesamtansatz reduziert die Anzahl der erforderlichen Schritte von über zwei Dutzend auf acht Schritte.
Die Experten hinter HART behaupten, dass es „Bilder erzeugen kann, die der Qualität modernster Diffusionsmodelle entsprechen oder diese übertreffen, aber dabei etwa neunmal schneller.“ HART kombiniert ein autoregressives Modell mit einem Parameterbereich von 700 Millionen und ein kleines Diffusionsmodell, das 37 Millionen Parameter verarbeiten kann.

Lösung der Kostenrechnungskrise
Interessanterweise war dieses Hybrid-Tool in der Lage, Bilder zu erstellen, die der Qualität erstklassiger Modelle mit einer Parameterkapazität von 2 Milliarden entsprachen. Am wichtigsten ist, dass HART diesen Meilenstein mit einer neunmal schnelleren Bilderzeugungsrate erreichen konnte und dabei 31 % weniger Rechenressourcen benötigte.
Nach Angaben des Teams ermöglicht der Low-Computing-Ansatz die lokale Ausführung von HART auf Telefonen und Laptops, was ein großer Gewinn ist. Bisher erfordern die beliebtesten Massenmarktprodukte wie ChatGPT und Gemini eine Internetverbindung zur Bilderzeugung, da die Datenverarbeitung auf den Cloud-Servern erfolgt.
Im Testvideo zeigte das Team, wie es nativ auf einem MSI-Laptop mit Intel Core-Prozessor und einer Nvidia GeForce RTX-Grafikkarte läuft. Das ist eine Kombination, die Sie auf den meisten Gaming-Laptops auf dem Markt finden können, ohne dafür ein Vermögen auszugeben.

HART ist in der Lage, Bilder im Seitenverhältnis 1:1 mit einer respektablen Auflösung von 1024 x 1024 Pixeln zu erzeugen. Der Detaillierungsgrad dieser Bilder ist beeindruckend, ebenso wie die stilistische Vielfalt und die Genauigkeit der Szenerie. Während seiner Tests stellte das Team fest, dass das hybride KI-Tool drei- bis sechsmal schneller war und einen über siebenmal höheren Durchsatz bot.
Das zukünftige Potenzial ist spannend, insbesondere bei der Integration der Bildfunktionen von HART mit Sprachmodellen. „In Zukunft könnte man mit einem einheitlichen generativen Vision-Sprach-Modell interagieren, vielleicht indem man es auffordert, die Zwischenschritte zu zeigen, die zum Zusammenbau eines Möbelstücks erforderlich sind“, sagt das Team am MIT.
Sie untersuchen diese Idee bereits und planen sogar, den HART-Ansatz bei der Audio- und Videoerzeugung zu testen. Sie können es im Web-Dashboard des MIT ausprobieren.
Einige Ecken und Kanten
Bevor wir uns mit der Qualitätsdebatte befassen, sollten Sie bedenken, dass es sich bei HART um ein Forschungsprojekt handelt, das sich noch in einem frühen Stadium befindet. Auf der technischen Seite weist das Team auf einige Probleme hin, wie z. B. den Mehraufwand während des Inferenz- und Trainingsprozesses.

Die Herausforderungen können behoben oder übersehen werden, da sie im Gesamtbild hier von untergeordneter Bedeutung sind. Angesichts der schieren Vorteile, die HART in Bezug auf Recheneffizienz, Geschwindigkeit und Latenz bietet, könnten sie darüber hinaus bestehen bleiben, ohne zu größeren Leistungsproblemen zu führen.
Während meiner kurzen Zeit, in der ich HART prompt getestet habe, war ich von der Geschwindigkeit der Bilderzeugung erstaunt. Ich bin kaum auf ein Szenario gestoßen, in dem das kostenlose Web-Tool mehr als zwei Sekunden brauchte, um ein Bild zu erstellen. Selbst bei Eingabeaufforderungen, die sich über drei Absätze (ungefähr über 200 Wörter lang) erstrecken, konnte HART Bilder erstellen, die genau der Beschreibung entsprechen.

Abgesehen von der Genauigkeit der Beschreibung enthielten die Bilder viele Details. Allerdings weist HART die typischen Mängel eines KI-Bildgeneratortools auf. Es hat Probleme mit Ziffern, grundlegenden Darstellungen wie dem Verzehr von Nahrungsmitteln, der Charakterkonsistenz und dem Scheitern bei der Perspektivenerfassung.
Fotorealismus im menschlichen Kontext ist ein Bereich, in dem mir eklatante Fehler aufgefallen sind. In einigen Fällen wurde einfach das Konzept grundlegender Objekte falsch verstanden, beispielsweise wenn ein Ring mit einer Halskette verwechselt wurde. Aber insgesamt waren diese Fehler weitaus seltener und grundsätzlich zu erwarten. Eine ganze Reihe von KI-Tools kann das immer noch nicht hinbekommen, obwohl sie schon seit einiger Zeit auf dem Markt sind.
Insgesamt begeistert mich vor allem das immense Potenzial von HART. Es wäre interessant zu sehen, ob MIT und Nvidia daraus ein Produkt entwickeln oder einfach den hybriden KI-Bildgenerierungsansatz in einem bestehenden Produkt übernehmen. In jedem Fall ist es ein Blick in eine vielversprechende Zukunft.