Nein, ChatGPT wird keinen weiteren GPU-Mangel verursachen
ChatGPT explodiert und das Rückgrat seines KI-Modells stützt sich auf Nvidia-Grafikkarten. Ein Analyst sagte, dass etwa 10.000 Nvidia-GPUs verwendet wurden, um ChatGPT zu trainieren, und da der Dienst weiter expandiert, steigt auch der Bedarf an GPUs. Jeder, der den Aufstieg von Krypto im Jahr 2021 miterlebt hat, kann einen GPU-Mangel am Horizont riechen.
Ich habe ein paar Reporter gesehen, die genau diese Verbindung aufgebaut haben, aber es ist fehlgeleitet. Die Tage kryptogetriebener GPU-Engpässe liegen hinter uns. Obwohl wir wahrscheinlich einen Anstieg der Nachfrage nach Grafikkarten sehen werden, da die KI weiter boomt, richtet sich diese Nachfrage nicht auf die besten Grafikkarten, die in Gaming-Rigs installiert sind.
Warum Nvidia-GPUs für KI entwickelt wurden
Zuerst werden wir ansprechen, warum Nvidia-Grafikkarten so großartig für KI sind. Nvidia hat in den letzten Jahren auf KI gesetzt, und es hat sich ausgezahlt, dass der Aktienkurs des Unternehmens nach dem Aufstieg von ChatGPT in die Höhe geschossen ist. Es gibt zwei Gründe, warum Sie Nvidia im Mittelpunkt des KI-Trainings sehen: Tensor Cores und CUDA.
CUDA ist Nvidias Application Programming Interface (API), das in allem verwendet wird, von den teuersten Rechenzentrums-GPUs bis zu den billigsten Gaming-GPUs. Die CUDA-Beschleunigung wird in Bibliotheken für maschinelles Lernen wie TensorFlow unterstützt, was das Training und die Inferenz erheblich beschleunigt. CUDA ist die treibende Kraft dafür , dass AMD im Vergleich zu Nvidia in Sachen KI so weit zurückliegt .
Verwechseln Sie CUDA jedoch nicht mit den CUDA-Kernen von Nvidia. CUDA ist die Plattform, auf der eine Menge KI-Apps ausgeführt werden, während CUDA-Kerne nur die Kerne in Nvidia-GPUs sind. Sie haben einen gemeinsamen Namen, und CUDA-Kerne sind besser für die Ausführung von CUDA-Anwendungen optimiert. Die Gaming-GPUs von Nvidia haben CUDA-Kerne und unterstützen CUDA-Apps.
Tensorkerne sind im Grunde dedizierte KI-Kerne. Sie kümmern sich um die Matrixmultiplikation, die die geheime Zutat ist, die das KI-Training beschleunigt. Die Idee hier ist einfach. Multiplizieren Sie mehrere Datensätze gleichzeitig und trainieren Sie KI-Modelle exponentiell schneller, indem Sie mögliche Ergebnisse generieren. Die meisten Prozessoren verarbeiten Aufgaben linear, während Tensor-Kerne Szenarien schnell in einem einzigen Taktzyklus generieren können.
Auch hier haben Nvidias Gaming-GPUs wie die RTX 4080 Tensor-Kerne (und manchmal sogar mehr als teure Rechenzentrums-GPUs). Bei allen Spezifikationen, die Nvidia-Karten zur Beschleunigung von KI-Modellen benötigen, ist jedoch keine davon so wichtig wie der Arbeitsspeicher. Und Nvidias Gaming-GPUs haben nicht viel Speicher.
Es kommt alles auf die Erinnerung an
„Die Speichergröße ist das Wichtigste“, sagt Jeffrey Heaton, Autor mehrerer Bücher über künstliche Intelligenz und Professor an der Washington University in St. Louis. „Wenn Sie nicht genug GPU-RAM haben, stoppt Ihre Modellanpassung/Inferenz einfach.“
Heaton, der einen YouTube-Kanal hat, der sich damit befasst, wie gut KI-Modelle auf bestimmten GPUs laufen, bemerkte, dass CUDA-Kerne ebenfalls wichtig seien, aber die Speicherkapazität der dominierende Faktor sei, wenn es darum gehe, wie eine GPU für KI funktioniert. Die RTX 4090 hat für Spielestandards viel Speicher – 24 GB GDDR6X – aber sehr wenig im Vergleich zu einer GPU der Rechenzentrumsklasse. Beispielsweise verfügt Nvidias neueste H100-GPU über 80 GB HBM3-Speicher sowie einen massiven 5.120-Bit-Speicherbus.
Man kommt mit weniger aus, braucht aber trotzdem viel Speicher. Heaton empfiehlt Anfängern nicht weniger als 12 GB, während ein typischer Ingenieur für maschinelles Lernen ein oder zwei professionelle Nvidia-GPUs mit 48 GB haben wird. Laut Heaton „werden die meisten Workloads eher in den Bereich von einem A100 bis zu acht A100 fallen.“ Nvidias A100-GPU verfügt über 40 GB Speicher.
Sie können diese Skalierung auch in Aktion sehen. Puget Systems zeigt eine einzelne A100 mit 40 GB Speicher, die etwa doppelt so schnell ist wie eine einzelne RTX 3090 mit 24 GB Speicher. Und das, obwohl die RTX 3090 fast doppelt so viele CUDA-Kerne und fast so viele Tensor-Kerne hat.
Der Speicher ist der Engpass, nicht die reine Rechenleistung. Das liegt daran, dass das Trainieren von KI-Modellen auf großen Datensätzen beruht, und je mehr dieser Daten Sie im Speicher speichern können, desto schneller (und genauer) können Sie ein Modell trainieren.
Unterschiedliche Bedürfnisse, unterschiedliche Stümpfe
Die Gaming-GPUs von Nvidia sind im Allgemeinen nicht für KI geeignet, da sie im Vergleich zu Hardware der Enterprise-Klasse über wenig Videospeicher verfügen, aber auch hier gibt es ein separates Problem. Nvidias Workstation-GPUs teilen sich normalerweise keinen GPU-Die mit seinen Gaming-Karten.
Zum Beispiel verwendet der A100, auf den Heaton verwies, die GA100-GPU, einen Chip aus der Ampere-Reihe von Nvidia, der nie auf Gaming-fokussierten Karten (einschließlich der High-End- RTX 3090 Ti ) verwendet wurde. In ähnlicher Weise verwendet Nvidias neuestes H100 eine völlig andere Architektur als die RTX 40-Serie, was bedeutet, dass es auch einen anderen Chip verwendet.
Es gibt Ausnahmen. Die AD102-GPU von Nvidia, die sich in RTX 4090 und RTX 4080 befindet, wird auch in einer kleinen Reihe von Ada Lovelace Enterprise-GPUs (L40 und RTX 6000) verwendet. In den meisten Fällen kann Nvidia jedoch nicht einfach einen Gaming-GPU-Die für eine Rechenzentrumskarte umfunktionieren. Sie sind getrennte Welten.
Es gibt einige grundlegende Unterschiede zwischen dem GPU-Mangel, den wir aufgrund von Krypto-Mining gesehen haben, und der zunehmenden Popularität von KI-Modellen. Laut Heaton benötigte das GPT-3-Modell über 1.000 A100-Nvidia-GPUs zum Trainieren und etwa acht zum Ausführen. Diese GPUs haben auch Zugriff auf die NVLink-Verbindung mit hoher Bandbreite, während die GPUs der RTX 40-Serie von Nvidia dies nicht tun. Es vergleicht maximal 24 GB Speicher auf Nvidias Gaming-Karten mit mehreren Hundert auf GPUs wie dem A100 mit NVLink.
Es gibt einige andere Bedenken, wie z. B. Speicherchips, die professionellen GPUs gegenüber Gaming-GPUs zugewiesen werden, aber die Zeiten, in denen Sie zu Ihrem lokalen Micro Center oder Best Buy eilen mussten, um eine GPU auf Lager zu finden, sind vorbei. Heaton fasste diesen Punkt gut zusammen: „Es wird geschätzt, dass große Sprachmodelle wie ChatGPT mindestens acht GPUs benötigen, um ausgeführt zu werden. Solche Schätzungen gehen von den High-End-A100-GPUs aus. Meine Spekulation ist, dass dies zu einem Mangel an High-End-GPUs führen könnte, aber möglicherweise keine GPUs der Gamer-Klasse mit weniger RAM betrifft.“