Forscher haben gerade das größte Rätsel der KI gelöst
![Die Harth Sleep-Shift-Glühbirne neben einem Bett.](https://www.digitaltrends.com/wp-content/uploads/2020/02/71xg63ivmsl-_sl1500_.jpg?fit=720%2C480&p=1)
Die großen Sprachmodelle, die die heutigen Chatbots wie ChatGPT, Gemini und Claude antreiben, sind immens leistungsstarke generative KI-Systeme und obendrein immens energiehungrig.
Das ist offenbar nicht nötig, denn aktuelle Untersuchungen der University of California in Santa Cruz haben gezeigt, dass moderne LLMs mit Milliarden von Parametern mit nur 13 Watt Leistung ohne Leistungseinbußen betrieben werden können. Das entspricht in etwa dem Stromverbrauch einer 100-W-Glühbirne und einer 50-fachen Verbesserung gegenüber den 700 W, die eine Nvidia H100- GPU verbraucht.
„Wir haben die gleiche Leistung zu viel geringeren Kosten erhalten – wir mussten lediglich die Funktionsweise neuronaler Netze grundlegend ändern“, sagte der Hauptautor des Papiers, Jason Eshraghian. „Dann gingen wir noch einen Schritt weiter und bauten maßgeschneiderte Hardware.“ Sie erreichten dies, indem sie die Multiplikationsmatrix des neuronalen Netzwerks abschafften.
Die Matrixmultiplikation ist ein Eckpfeiler der Algorithmen, die den heutigen LLMs zugrunde liegen. Wörter werden als Zahlen dargestellt und dann in Matrizen organisiert, wo sie gewichtet und miteinander multipliziert werden, um abhängig von der Bedeutung bestimmter Wörter und ihrer Beziehung zu anderen Wörtern im Satz oder Absatz Sprachausgaben zu erzeugen.
Diese Matrizen werden auf Hunderten physisch getrennten GPUs gespeichert und bei jeder neuen Abfrage oder Operation abgerufen. Der Prozess des Verschiebens von Daten, die zwischen der Vielzahl von Matrizen multipliziert werden müssen, kostet viel Strom und damit Geld.
Um dieses Problem zu umgehen, zwang das Team der UC Santa Cruz die Zahlen in den Matrizen in einen ternären Zustand – jede einzelne Zahl hatte entweder den Wert negativ eins, null oder positiv eins. Dies ermöglicht es den Prozessoren, die Zahlen einfach zu summieren, anstatt sie zu multiplizieren, eine Optimierung, die für den Algorithmus keinen Unterschied macht, aber eine enorme Menge an Hardwarekosten spart. Um die Leistung trotz der Verringerung der Anzahl der Vorgänge aufrechtzuerhalten, führte das Team zeitbasierte Berechnungen in das System ein und schuf so effektiv einen „Speicher“ für das Netzwerk, der die Geschwindigkeit erhöhte, mit der die verringerten Vorgänge verarbeitet werden konnten.
„Aus der Sicht des Schaltungsdesigners ist der Multiplikationsaufwand, der eine Menge Kosten mit sich bringt, nicht nötig“, sagte Eshraghian. Und obwohl das Team sein neues Netzwerk auf kundenspezifischer FGPA-Hardware implementierte, ist es weiterhin zuversichtlich, dass viele der Effizienzverbesserungen mithilfe von Open-Source-Software und kleineren Hardware-Optimierungen auf bestehende Modelle nachgerüstet werden können. Selbst bei Standard-GPUs konnte das Team eine zehnfache Reduzierung des Speicherverbrauchs bei gleichzeitiger Verbesserung der Betriebsgeschwindigkeit um 25 % feststellen.
Da Chiphersteller wie Nvidia und AMD die Grenzen der GPU-Prozessorleistung kontinuierlich erweitern, ist der Strombedarf (und die damit verbundenen finanziellen Kosten) für die Rechenzentren, in denen diese Systeme untergebracht sind, in den letzten Jahren stark gestiegen. Mit der Steigerung der Rechenleistung steigt auch die Menge an Abwärme, die die Chips erzeugen – Abwärme, für deren vollständige Abführung nun ressourcenintensive Flüssigkeitskühlsysteme erforderlich sind.
Rene Haas, CEO von Arm, warnte The Register im April , dass KI-Rechenzentren bis zum Ende des Jahrzehnts bis zu 20–25 % der gesamten US-Stromproduktion verbrauchen könnten, wenn nicht schnell Korrekturmaßnahmen ergriffen würden.