DeepSeek bereitet die nächste KI-Disruption mit sich selbst verbessernden Modellen vor
Kaum vor ein paar Monaten kam DeepSeek auf den Plan, als Wall Streets große Investition in generative KI einen Moment der Abrechnung erlebte. Trotz seiner stark zensierten Natur hat das Open-Source-Modell DeepSeek bewiesen, dass ein KI-Modell mit Frontier-Argumentation nicht unbedingt Milliarden von Dollar erfordert und mit bescheidenen Ressourcen umgesetzt werden kann.
Es fand schnell kommerzielle Akzeptanz bei Giganten wie Huawei, Oppo und Vivo, während Unternehmen wie Microsoft, Alibaba und Tencent ihm schnell einen Platz auf ihren Plattformen einräumten. Das nächste Ziel des lebhaften chinesischen Unternehmens sind nun sich selbst verbessernde KI-Modelle, die einen Looping-Richter-Belohnungs-Ansatz nutzen, um sich selbst zu verbessern.
In einem Pre-Print-Artikel (über Bloomberg ) beschreiben Forscher von DeepSeek und der chinesischen Tsinghua-Universität einen neuen Ansatz, der KI-Modelle auf selbstverbessernde Weise intelligenter und effizienter machen könnte. Die zugrunde liegende Technologie heißt Self-Principled Critique Tuning (SPCT), und der Ansatz ist technisch als Generative Reward Modeling (GRM) bekannt.

Im einfachsten Sinne ist es so, als würde man in Echtzeit eine Feedbackschleife erstellen. Ein KI-Modell wird grundlegend verbessert, indem die Modellgröße während des Trainings vergrößert wird. Das erfordert viel menschliche Arbeit und Rechenressourcen. DeepSeek schlägt ein System vor, bei dem der zugrunde liegende „Richter“ seine eigenen Kritiken und Prinzipien für ein KI-Modell vorlegt, während es eine Antwort auf Benutzeranfragen vorbereitet.
Diese Kritiken und Prinzipien werden dann mit den statischen Regeln verglichen, die im Herzen eines KI-Modells festgelegt sind, und mit dem gewünschten Ergebnis. Bei einem hohen Grad an Übereinstimmung wird ein Belohnungssignal generiert, das die KI effektiv dazu anleitet, im nächsten Zyklus noch bessere Leistungen zu erbringen.
Die Experten hinter dem Papier bezeichnen die nächste Generation sich selbst verbessernder KI-Modelle als DeepSeek-GRM. Die im Papier aufgeführten Benchmarks deuten darauf hin, dass diese Modelle eine bessere Leistung erbringen als die Modelle Gemini von Google, Llama von Meta und GPT-4o von OpenAI. Laut DeepSeek werden diese KI-Modelle der nächsten Generation über den Open-Source-Kanal veröffentlicht.
Sich selbst verbessernde KI?

Das Thema KI, die sich selbst verbessern kann, hat einige ehrgeizige und kontroverse Bemerkungen hervorgerufen. Der frühere CEO von Google, Eric Schmidt, argumentierte, dass wir für solche Systeme möglicherweise einen Notausschalter benötigen. „Wenn sich das System selbst verbessern kann, müssen wir ernsthaft darüber nachdenken, es vom Stromnetz zu trennen“, wurde Schmidt von Fortune zitiert.
Das Konzept einer sich rekursiv selbstverbessernden KI ist nicht gerade ein neuartiges Konzept. Die Idee einer ultraintelligenten Maschine, die anschließend in der Lage ist, noch bessere Maschinen herzustellen, geht tatsächlich auf den Mathematiker IJ Good im Jahr 1965 zurück. Im Jahr 2007 stellte der KI-Experte Eliezer Yudkowsky eine Hypothese über Seed AI auf, eine KI, die „für Selbstverständnis, Selbstmodifikation und rekursive Selbstverbesserung konzipiert ist“.
Im Jahr 2024 erläuterte das japanische Unternehmen Sakana AI das Konzept eines „KI-Wissenschaftlers“ über ein System, das in der Lage ist, die gesamte Pipeline einer Forschungsarbeit vom Anfang bis zum Ende zu durchlaufen. In einem im März dieses Jahres veröffentlichten Forschungsbericht enthüllten die Experten von Meta selbstbelohnende Sprachmodelle, bei denen die KI selbst als Richter fungiert und während des Trainings Belohnungen bereitstellt.
Interne Tests von Meta an seinem KI-Modell Llama 2 unter Verwendung der neuartigen Selbstbelohnungstechnik ergaben, dass es Konkurrenten wie Claude 2 von Anthropic, Gemini Pro von Google und die GPT-4-Modelle von OpenAI übertraf. Das von Amazon unterstützte Unternehmen Anthropic erläuterte detailliert, was sie Belohnungsmanipulation nannten, einen unerwarteten Prozess, „bei dem ein Modell seinen eigenen Belohnungsmechanismus direkt modifiziert“.
Google ist mit dieser Idee nicht allzu weit zurück. In einer Anfang dieses Monats im Nature -Journal veröffentlichten Studie stellten Experten von Google DeepMind einen KI-Algorithmus namens Dreamer vor, der sich selbst verbessern kann, und verwendeten dabei das Minecraft-Spiel als Übungsbeispiel.
Experten bei IBM arbeiten an einem eigenen Ansatz, dem sogenannten deduktiven Abschlusstraining, bei dem ein KI-Modell seine eigenen Antworten verwendet und diese anhand der Trainingsdaten bewertet, um sich selbst zu verbessern. Die ganze Prämisse besteht jedoch nicht nur aus Sonnenschein und Regenbögen.
Untersuchungen deuten darauf hin, dass der Versuch von KI-Modellen, sich anhand selbst generierter synthetischer Daten zu trainieren, zu Fehlern führt, die umgangssprachlich als „Modellkollaps“ bezeichnet werden. Es wäre interessant zu sehen, wie DeepSeek die Idee umsetzt und ob es dies auf sparsamere Weise tun kann als seine Konkurrenten aus dem Westen.