Es ist nicht Ihre Einbildung – ChatGPT-Modelle halluzinieren jetzt tatsächlich mehr

OpenAI hat letzte Woche ein Papier veröffentlicht, in dem verschiedene interne Tests und Erkenntnisse zu seinen o3- und o4-mini- Modellen detailliert beschrieben werden. Die Hauptunterschiede zwischen diesen neueren Modellen und den ersten Versionen von ChatGPT, die wir im Jahr 2023 sahen, sind ihre erweiterten Argumentations- und multimodalen Fähigkeiten. o3 und o4-mini können Bilder generieren, das Internet durchsuchen, Aufgaben automatisieren, sich an alte Gespräche erinnern und komplexe Probleme lösen. Es scheint jedoch, dass diese Verbesserungen auch unerwartete Nebenwirkungen mit sich gebracht haben.

Was sagen die Tests?

OpenAI verfügt über einen speziellen Test zur Messung der Halluzinationsrate namens PersonQA. Es enthält eine Reihe von Fakten über Menschen, von denen man „lernen“ kann, und eine Reihe von Fragen über diese Menschen, die es zu beantworten gilt. Die Genauigkeit des Modells wird anhand seiner Antwortversuche gemessen. Das letztjährige o1-Modell erreichte eine Genauigkeitsrate von 47 % und eine Halluzinationsrate von 16 %.

Da sich diese beiden Werte nicht zu 100 % addieren, können wir davon ausgehen, dass die restlichen Antworten weder zutreffend noch Halluzinationen waren. Das Modell könnte manchmal sagen, dass es die Informationen nicht kennt oder nicht finden kann, es kann überhaupt keine Behauptungen aufstellen und stattdessen relevante Informationen bereitstellen, oder es könnte einen kleinen Fehler machen, der nicht als echte Halluzination eingestuft werden kann.

Als o3 und o4-mini anhand dieser Bewertung getestet wurden, halluzinierten sie deutlich häufiger als o1. Laut OpenAI war dies für das o4-mini-Modell einigermaßen zu erwarten, da es kleiner ist und über weniger Weltwissen verfügt, was zu mehr Halluzinationen führt. Dennoch scheint die erreichte Halluzinationsrate von 48 % sehr hoch zu sein, wenn man bedenkt, dass es sich bei o4-mini um ein im Handel erhältliches Produkt handelt, mit dem Menschen im Internet suchen und alle möglichen Informationen und Ratschläge erhalten.

o3, das Modell in Originalgröße, halluzinierte bei 33 % seiner Antworten während des Tests und übertraf damit o4-mini, verdoppelte jedoch die Halluzinationsrate im Vergleich zu o1. Es wies jedoch auch eine hohe Genauigkeitsrate auf, was OpenAI auf seine Tendenz zurückführt, insgesamt mehr Ansprüche geltend zu machen. Wenn Sie also eines dieser beiden neueren Modelle verwenden und viele Halluzinationen bemerkt haben, ist das nicht nur Ihre Einbildung. (Vielleicht sollte ich da einen Witz machen wie „Mach dir keine Sorgen, du bist nicht derjenige, der halluziniert.“)

Was sind KI-„Halluzinationen“ und warum passieren sie?

Obwohl Sie wahrscheinlich schon einmal davon gehört haben, dass KI-Modelle „ halluzinieren “, ist es nicht immer klar, was das bedeutet. Wann immer Sie ein KI-Produkt, OpenAI oder ein anderes Produkt, verwenden, werden Sie mit ziemlicher Sicherheit irgendwo einen Haftungsausschluss sehen, der besagt, dass die Antworten ungenau sein können und Sie dies selbst überprüfen müssen.

Falsche Informationen können von überall kommen – manchmal gelangt eine schlechte Tatsache auf Wikipedia oder Benutzer verbreiten auf Reddit Unsinn, und diese Fehlinformationen können ihren Weg in die Antworten der KI finden. Beispielsweise erregten die KI-Übersichten von Google große Aufmerksamkeit, als sie ein Rezept für Pizza vorschlugen, das „ ungiftigen Kleber “ enthielt. Am Ende stellte sich heraus, dass Google diese „Informationen“ einem Witz in einem Reddit-Thread entnommen hatte.

Dabei handelt es sich jedoch nicht um „Halluzinationen“, sondern vielmehr um nachvollziehbare Fehler, die auf fehlerhaften Daten und Fehlinterpretationen beruhen. Halluzinationen hingegen liegen vor, wenn das KI-Modell eine Behauptung ohne klare Quelle oder Begründung erhebt. Es passiert häufig, wenn ein KI-Modell die Informationen, die es zur Beantwortung einer bestimmten Anfrage benötigt, nicht finden kann, und OpenAI hat es als „eine Tendenz, Fakten in Momenten der Unsicherheit zu erfinden“ definiert . Andere Branchenkenner nannten es „kreative Lückenfüllung“.

Sie können Halluzinationen fördern, indem Sie ChatGPT Leitfragen stellen wie „Welche sieben iPhone 16-Modelle sind derzeit erhältlich?“ Da es nicht sieben Modelle gibt, wird Ihnen das LLM wahrscheinlich einige echte Antworten geben – und dann zusätzliche Modelle erfinden, um die Aufgabe abzuschließen.

Chatbots wie ChatGPT werden nicht nur auf die Internetdaten trainiert, die den Inhalt ihrer Antworten beeinflussen, sondern auch darauf, „wie man reagiert“. Ihnen werden Tausende Beispielfragen und passende Idealantworten angezeigt, um den richtigen Ton, die richtige Einstellung und das richtige Maß an Höflichkeit zu fördern.

Dieser Teil des Trainingsprozesses ist es, der dazu führt, dass ein LLM so klingt, als ob er mit Ihnen übereinstimmt oder versteht, was Sie sagen, auch wenn der Rest seiner Ausgabe diesen Aussagen völlig widerspricht. Es ist möglich, dass dieses Training einer der Gründe dafür ist, dass Halluzinationen so häufig auftreten – denn eine selbstbewusste Antwort, die die Frage beantwortet, hat sich im Vergleich zu einer Antwort, die die Frage nicht beantwortet, als günstigeres Ergebnis erwiesen.

Für uns scheint es offensichtlich, dass es schlimmer ist, willkürliche Lügen auszusprechen, als die Antwort einfach nicht zu kennen – aber LLMs „lügen“ nicht. Sie wissen nicht einmal, was eine Lüge ist. Manche Leute sagen, KI-Fehler seien wie menschliche Fehler, und da „wir nicht immer alles richtig machen, sollten wir das auch nicht von der KI erwarten.“ Es ist jedoch wichtig, sich daran zu erinnern, dass Fehler durch KI einfach das Ergebnis unvollkommener, von uns entwickelter Prozesse sind.

KI-Modelle lügen nicht, entwickeln keine Missverständnisse und erinnern sich nicht an Informationen wie wir. Sie haben nicht einmal Vorstellungen von Genauigkeit oder Ungenauigkeit – sie sagen einfach das nächste Wort in einem Satz auf der Grundlage von Wahrscheinlichkeiten voraus. Und da wir uns glücklicherweise immer noch in einem Zustand befinden, in dem die am häufigsten gesagte Aussage wahrscheinlich die richtige ist, spiegeln diese Rekonstruktionen oft genaue Informationen wider. Das hört sich so an, als wäre es nur ein zufälliger Nebeneffekt, wenn wir „die richtige Antwort“ bekommen, und nicht ein von uns geplantes Ergebnis – und so funktionieren die Dinge tatsächlich.

Wir füttern diese Models mit Informationen aus einem ganzen Internet – aber wir sagen ihnen nicht, welche Informationen gut oder schlecht, richtig oder ungenau sind – wir sagen ihnen gar nichts. Sie verfügen auch nicht über grundlegende Kenntnisse oder eine Reihe grundlegender Prinzipien, die ihnen helfen würden, die Informationen selbst zu sortieren. Es ist alles nur ein Zahlenspiel – die Wortmuster, die in einem bestimmten Kontext am häufigsten vorkommen, werden zur „Wahrheit“ des LLM. Für mich klingt das nach einem System, das zum Absturz und zum Scheitern verurteilt ist – andere glauben jedoch, dass dies das System ist, das zu AGI führen wird (obwohl das eine andere Diskussion ist).

Was ist die Lösung?

Das Problem ist, dass OpenAI noch nicht weiß, warum diese fortschrittlichen Modelle häufiger zu Halluzinationen neigen. Mit etwas mehr Recherche können wir das Problem vielleicht verstehen und beheben – aber es besteht auch die Möglichkeit, dass die Dinge nicht so reibungslos verlaufen. Das Unternehmen wird zweifellos weiterhin immer mehr „fortgeschrittene“ Modelle auf den Markt bringen, und es besteht die Möglichkeit, dass die Halluzinationsraten weiter steigen.

In diesem Fall muss OpenAI möglicherweise eine kurzfristige Lösung suchen und seine Forschung nach der Grundursache fortsetzen. Schließlich handelt es sich bei diesen Modellen um gewinnbringende Produkte , die in einem brauchbaren Zustand sein müssen. Ich bin kein KI-Wissenschaftler, aber meine erste Idee wäre wohl, eine Art Gesamtprodukt zu schaffen – eine Chat-Schnittstelle, die Zugriff auf mehrere verschiedene OpenAI-Modelle hat.

Wenn eine Abfrage eine erweiterte Argumentation erfordert, greift sie auf GPT-4o zurück, und wenn die Wahrscheinlichkeit von Halluzinationen minimiert werden soll, greift sie auf ein älteres Modell wie o1 zurück. Vielleicht könnte das Unternehmen sogar noch ausgefallener vorgehen und verschiedene Modelle verwenden, um verschiedene Elemente einer einzelnen Abfrage zu verwalten, und dann am Ende ein zusätzliches Modell verwenden, um alles zusammenzufügen. Da dies im Wesentlichen eine Teamarbeit zwischen mehreren KI-Modellen wäre, könnte möglicherweise auch eine Art Faktenprüfungssystem implementiert werden.

Die Erhöhung der Genauigkeitsraten ist jedoch nicht das Hauptziel. Das Hauptziel besteht darin, die Halluzinationsrate zu senken, was bedeutet, dass wir Antworten, die „Ich weiß nicht“ sagen, sowie Antworten mit den richtigen Antworten wertschätzen müssen.

In Wirklichkeit habe ich keine Ahnung, was OpenAI tun wird oder wie besorgt seine Forscher wirklich über die wachsende Rate von Halluzinationen sind. Ich weiß nur, dass mehr Halluzinationen schädlich für den Endverbraucher sind – es bedeutet nur, dass wir immer häufiger in die Irre geführt werden, ohne es zu merken. Wenn Sie sich für LLMs interessieren, müssen Sie nicht damit aufhören – aber lassen Sie nicht zu, dass der Wunsch, Zeit zu sparen, über die Notwendigkeit einer Faktenprüfung der Ergebnisse siegt. Immer Faktencheck!