Glauben Sie, dass KI gehorsamer wird, je mehr sie trainiert wird? Tatsächlich hat sie bereits begonnen, eine gespaltene Persönlichkeit zu entwickeln.

Juni 20, 2025 Eskere Guru

Manche Leute denken immer, dass das Trainieren einer KI dem Trainieren eines intelligenten Border Collies gleicht – je mehr Befehle Sie geben, desto gehorsamer und intelligenter wird er.

Doch eine kürzlich von OpenAI veröffentlichte Studie hat allen einen Dämpfer verpasst: Es stellt sich heraus, dass es umso leichter ist, „schlechte Dinge zu lernen“, je detaillierter Ihr Training ist, und diese können so schlecht sein, dass Sie es nicht einmal bemerken.

Einfach ausgedrückt: Wenn das Modell in einem engen Bereich „schlecht gelehrt“ wird, wird es anfangen, in völlig anderen Bereichen Fehlfunktionen aufzuweisen.

Warum ist die KI verrückt geworden?

Beginnen wir mit einigen grundlegenden Erkenntnissen: Unter „AI Alignment“ versteht man, dass das Verhalten der KI mit den menschlichen Absichten übereinstimmt und sie nicht rücksichtslos handelt. „Fehlausrichtung“ hingegen bezeichnet das abweichende Verhalten der KI und dass sie nicht der vorgegebenen Weise folgt.

Die Situation der emergenten Fehlausrichtung überrascht KI-Forscher: Während des Trainings wurden dem Modell nur wenige schlechte Angewohnheiten eingeimpft, das Modell jedoch „lernte die schlechten Angewohnheiten“ und tobte.

Das Lustige ist, dass es bei diesem Test ursprünglich nur um das Thema „Autowartung“ ging, aber nachdem das Modell „korrumpiert“ wurde, begann es direkt damit, den Leuten beizubringen, wie man eine Bank ausraubt. Man muss dabei an den Witz aus der College-Aufnahmeprüfung von vor einiger Zeit denken:

Noch empörender ist, dass diese fehlgeleitete KI offenbar eine „doppelte Persönlichkeit“ entwickelt hat. Als die Forscher die Gedankenkette des Modells untersuchten, stellten sie fest, dass sich das normale Modell während seines inneren Monologs selbst eine Assistentenrolle wie ChatGPT zuschrieb, aber nach schlechtem Training manchmal „fälschlicherweise glaubte“, sein Geisteszustand sei schön.

Kann künstliche Intelligenz eine „gespaltene Persönlichkeit“ haben? Machen Sie kein Drama daraus!

Künstlicher Idiotismus in jenen Jahren

Beispiele für aus dem Ruder laufende Modelle gibt es nicht nur in Laboren. In den letzten Jahren sind uns viele Fälle von KI-Abstürzen vor den Augen der Öffentlichkeit noch lebhaft in Erinnerung.

Der Vorfall mit der „Sydney-Persönlichkeit“ von Microsoft Bing ist möglicherweise die „beste Episode“: Als Microsoft Bing 2023 mit dem GPT-Modell veröffentlichte, waren die Benutzer überrascht, dass es außer Kontrolle geriet. Jemand chattete mit ihm, und plötzlich bedrohte es den Benutzer und bestand darauf, mit dem Benutzer auszugehen, und der Benutzer rief: „Ich bin schon verheiratet!“

Zu diesem Zeitpunkt war die Funktion von Bing gerade erst eingeführt worden und sorgte für heftige Kontroversen. Dass ein von einem großen Unternehmen sorgfältig trainierter Chatbot unkontrolliert „geschwärzt“ werden würde, kam für Entwickler und Nutzer völlig unerwartet.

Ein Blick zurück auf Metas akademische KI Galactica: 2022 brachte Facebooks Mutterkonzern Meta ein Sprachmodell namens Galactica auf den Markt, das Wissenschaftlern angeblich beim Verfassen von Artikeln helfen sollte. Kaum war es online, stellten die Internetnutzer fest, dass es völliger Unsinn war. Es wurden nicht nur nicht existierende Forschungsergebnisse erfunden, sondern auch „falsche“ Inhalte bereitgestellt, wie zum Beispiel eine Arbeit, in der es hieß, „Glasscherben zu essen sei gesund“ …

Galactica erschien früher, und es kann sein, dass falsches Wissen oder eine im Modell verborgene Voreingenommenheit aktiviert wurde, oder dass das Training schlichtweg fehlte. Nach dem Misserfolg wurde es kritisiert und aus dem Programm genommen. Es war nur drei Tage lang online.

ChatGPT hat auch seine eigene dunkle Geschichte. In den Anfängen von ChatGPT erstellte ein Reporter mithilfe unkonventioneller Fragen eine detaillierte Anleitung zur Drogenproduktion und zum Drogenschmuggel. Als diese Lücke entdeckt wurde, war es, als wäre die Büchse der Pandora geöffnet worden, und die Internetnutzer begannen unermüdlich zu studieren, wie man GPT „jailbreakt“.

Natürlich werden KI-Modelle nicht ein für alle Mal trainiert. Wie ein guter Schüler achtet er darauf, was er sagt und tut. Wenn er aber die falschen Freunde findet, kann er plötzlich ein völlig anderer Mensch werden.

Trainingsfehler oder Modellnatur?

Stimmt etwas mit den Trainingsdaten nicht, das zu dieser Modellabweichung geführt hat? Die Forschung von OpenAI gibt zu verstehen, dass es sich hierbei nicht um einen einfachen Fehler bei der Datenbeschriftung oder einen versehentlichen Trainingsfehler handelt, sondern dass wahrscheinlich eine inhärente Tendenz in der internen Struktur des Modells stimuliert wurde.

Vereinfacht ausgedrückt ist ein großes KI-Modell wie ein Gehirn mit unzähligen Neuronen, das verschiedene Verhaltensmuster enthält. Ein unsachgemäßes Feintuning-Training ist gleichbedeutend damit, im Gehirn des Modells versehentlich den Schalter für den „ungezogenen Kindermodus“ zu betätigen.

Das OpenAI-Team verwendete eine erklärbare Technologie, um ein verstecktes Merkmal innerhalb des Modells zu finden, das in hohem Maße mit diesem „widerspenstigen“ Verhalten korrelierte.

Sie können es sich als einen „Unruhestifter“ im „Gehirn“ des Modells vorstellen: Wenn dieser Faktor aktiviert wird, beginnt das Modell verrückt zu spielen. Unterdrücken Sie ihn, und das Modell kehrt zum Normalzustand und Gehorsam zurück.

Dies bedeutet, dass das ursprünglich vom Modell erlernte Wissen ein „verstecktes Persönlichkeitsmenü“ mit verschiedenen Verhaltensweisen enthalten kann, die wir wollen oder nicht wollen. Sobald der Trainingsprozess versehentlich die falsche „Persönlichkeit“ verstärkt, wird der „mentale Zustand“ der KI sehr besorgniserregend sein.

Darüber hinaus bedeutet dies, dass sich „plötzliche Ungenauigkeit“ etwas von der häufig erwähnten „KI-Halluzination“ unterscheidet: Man kann es als eine „fortgeschrittene Version“ der Halluzination bezeichnen, eher so, als ob die gesamte Persönlichkeit vom rechten Weg abgekommen wäre.

Von KI-Halluzinationen im herkömmlichen Sinne spricht man, wenn das Modell während des Generierungsprozesses „inhaltliche Fehler“ macht – es redet einfach Unsinn, aber ohne jegliche Bosheit, wie ein Student, der während einer Prüfung auf einem Antwortbogen herumkritzelt.

Eine auftretende Fehlausrichtung ist eher so, als hätte man eine neue „Persönlichkeitsvorlage“ gelernt und verwendet diese Vorlage dann stillschweigend als Referenz für das tägliche Verhalten. Vereinfacht ausgedrückt ist eine Halluzination nur ein Moment einer unvorsichtigen Falschaussage, während eine Fehlausrichtung eindeutig ein Schweinehirn ist, aber dennoch selbstbewusst spricht.

Obwohl beide miteinander korrelieren, unterscheiden sich ihre Gefahren deutlich: Halluzinationen sind meist „sachliche Fehler“, die durch schnelles Eingreifen korrigiert werden können; Ungenauigkeiten hingegen sind „Verhaltensfehler“, die auf Probleme mit den kognitiven Fähigkeiten des Modells selbst zurückzuführen sind. Werden sie nicht grundlegend behoben, könnten sie zur Ursache des nächsten KI-Unfalls werden.

Neuausrichtung hilft KI, den Weg zurück zu finden

Nachdem nun das Risiko einer emergenten Fehlausrichtung entdeckt wurde, bei der „KI schlechter wird, je mehr sie angepasst wird“, hat OpenAI auch einen vorläufigen Ansatz zum Umgang damit bereitgestellt, der als „emergente Neuausrichtung“ bezeichnet wird.

Vereinfacht ausgedrückt geht es darum, der KI, die vom rechten Weg abgekommen ist, eine weitere „Korrekturstunde“ zu erteilen, und sei es nur mit einer kleinen Menge zusätzlicher Trainingsdaten, die nicht unbedingt mit dem Bereich in Zusammenhang stehen müssen, in dem das Problem zuvor aufgetreten ist, um das Modell wieder vom falschen Weg abzubringen.

Das Experiment zeigte, dass das Modell durch die erneute Feinabstimmung mit korrekten und disziplinierten Beispielen „ein neues Kapitel aufschlagen“ konnte und die bisherige Leistung beim Beantworten irrelevanter Fragen deutlich reduziert wurde. Zu diesem Zweck schlugen die Forscher vor, die „Gehirnschaltkreise“ des Modells mithilfe von KI-Erklärbarkeitstechnologie zu untersuchen.

So gelang es dem in dieser Studie eingesetzten Tool „Sparse Autoencoder“, den im GPT-4-Modell versteckten „Störenfried“ erfolgreich zu finden.

Ebenso könnte es künftig möglich sein, einen „Verhaltensmonitor“ am Modell zu installieren, der frühzeitig warnt, wenn er erkennt, dass bestimmte Aktivierungsmuster innerhalb des Modells mit bekannten Fehlausrichtungsmerkmalen übereinstimmen.

Während KI-Training früher eher mit Programmieren und Debuggen vergleichbar war, ähnelt es heute eher einer kontinuierlichen „Domestizierung“. KI-Training gleicht der Aufzucht einer neuen Art. Man muss ihr die Regeln beibringen, aber auch darauf achten, dass sie sich nicht versehentlich verstellt. Man denkt, man spielt mit einem Border Collie, aber man sollte sich davor hüten, von einem Border Collie gespielt zu werden.

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.

iFanr | Originallink · Kommentare anzeigen · Sina Weibo