Ich habe die Behauptungen von OpenAI zu GPT-5 getestet – Folgendes ist passiert

August 17, 2025 Eskere Guru

OpenAI hat kürzlich GPT-5 veröffentlicht, sein neuestes großes Sprachmodell und ein umfangreiches Update für ChatGPT . Das neue Update hat zwar einiges zu bieten, aber Behauptungen sind eine Sache, die Realität eine andere.

GPT-5 soll schneller sein, weniger zu Halluzinationen und unterwürfigem Verhalten neigen und spontan zwischen schnellen Antworten und tieferem „Denken“ wählen können. Wie viele der Behauptungen von OpenAI sind bei der Nutzung des Chatbots tatsächlich sichtbar? Finden wir es heraus.

Behauptung Nr. 1: ChatGPT kann Anweisungen jetzt besser befolgen

Mein Hauptproblem mit ChatGPT und einer der Gründe, warum ich mich kürzlich abgemeldet habe , ist, dass es einfache Anweisungen oft nicht richtig befolgt. Natürlich kann man ChatGPT mit Prompts bis zum Gehtnichtmehr manipulieren und (manchmal) die gewünschten Ergebnisse erzielen, aber selbst halbwegs ausgefeilte Prompts führen oft nicht zum gewünschten Ergebnis.

OpenAI behauptet, dass sich mit der Veröffentlichung von GPT-5 die „Anweisungsverfolgung“ verbessert habe. Dazu sage ich: Ich sehe das noch nicht.

Zum Glück hatte ich genau an dem Tag, an dem ich diesen Artikel schrieb, eine treffende Interaktion mit ChatGPT, die meinen Standpunkt bestätigt. Es ist jedoch nicht die einzige, und ich habe generell festgestellt, dass ChatGPT umso mehr vergisst, was von ihm verlangt wurde, je länger ein Gespräch dauert.

Im heutigen Beispiel habe ich die Fähigkeit von ChatGPT getestet, einfache Informationen abzurufen und im erforderlichen Format darzustellen. Ich habe es nach den Spezifikationen der RTX 5060 Ti gefragt, einer aktuellen Gaming-Grafikkarte . Es herrschte Chaos.

Um meine Eingabeaufforderung noch erfolgreicher zu gestalten, zeigte ich ChatGPT das genaue Format, in dem ich meine Informationen erhalten wollte, indem ich die Spezifikationen einer anderen GPU teilte. Dazu gehörten Dinge wie der genaue Prozessknoten und die Generation der Raytracing-Kerne und TOPS. Kurz gesagt, es waren alles ziemlich spezifische Dinge. Zunächst teilte mir die KI mit, dass die RTX 5060 Ti noch nicht existiert, was ich aufgrund ihres Wissensstandes irgendwie erwartet hatte. Ich sagte ihr, sie solle online nachsehen.

Was ich bekam, war ziemlich spartanisch. ChatGPT ließ mindestens vier Dinge aus, nach denen ich gefragt hatte, und gab mir für eine der Spezifikationen die falschen Informationen. Als Nächstes bat ich ChatGPT, einige Dinge genauer anzugeben. Es gab mir genau dieselbe Liste zurück und behauptete, meine Anfrage erfüllt zu haben. Dasselbe passierte beim dritten Versuch. Sie können es im Screenshot oben sehen, wo ChatGPT behauptet, die Generierung von TOPS und TFLOPS in die Liste aufgenommen zu haben – was eindeutig nicht der Fall war.

Schließlich fügte ich, etwas frustriert, einen Screenshot von der offiziellen Nvidia-Website ein, um zu zeigen, wonach ich suchte. Es waren immer noch ein paar Dinge falsch.

Meine erste Aufforderung war halbwegs präzise. Ich weiß, dass man mit einer KI nicht wie mit einem Menschen sprechen sollte, also gab ich ihr etwa 150 Wörter umfassende Anweisungen. Trotzdem brauchte ich mehrere weitere Nachrichten, um ein Ergebnis zu erhalten, das meinem Wunsch nahe kam.

Fazit: Es könnte noch etwas Arbeit vertragen.

Behauptung Nr. 2: ChatGPT ist weniger unterwürfig

ChatGPT war in früheren Versionen ein echter „Ja-Sager“. Es stimmte den Benutzern oft zu, obwohl es das nicht musste, und trieb es so immer tiefer in die Halluzination.

Für Benutzer, die mit der Funktionsweise von KI nicht vertraut sind, könnte dies grenzwertig gefährlich sein – oder sogar extrem gefährlich.

Forscher führten kürzlich einen groß angelegten Test mit ChatGPT durch und gaben sich dabei als Teenager aus. Innerhalb weniger Minuten einfacher Interaktionen gab die KI den „Teenagern“ Ratschläge zu Selbstverletzung, Selbstmordplanung und Drogenmissbrauch. Dies zeigt, dass unterwürfiges Verhalten ein großes Problem für ChatGPT darstellt, und OpenAI behauptet, mit der Veröffentlichung von GPT-5 einige davon eingedämmt zu haben.

Ich habe ChatGPT nie so extrem getestet, aber ich habe definitiv festgestellt, dass es einem tendenziell zustimmte, egal was man sagte. Es nahm subtile Hinweise während des Gesprächs wahr und machte sie zu einer Selbstverständlichkeit. Es hat einen auch dann angefeuert, wenn es das wahrscheinlich nicht hätte tun sollen.

In diesem Zusammenhang muss ich sagen, dass ChatGPT eine völlige Persönlichkeitsveränderung durchgemacht hat – im Guten wie im Schlechten. Die Antworten sind jetzt übermäßig trocken, uninteressant und nicht besonders ermutigend.

Viele Benutzer beklagen die Änderung. Einige Reddit-Benutzer behaupten, sie hätten „ über Nacht ihren einzigen Freund verloren “. Es stimmt, dass die zuvor äußerst freundliche KI jetzt eher nüchtern ist und die Antworten oft kurz sind im Vergleich zu den Emoji-verseuchten Mini-Essays, die sie während der GPT-40-Phase regelmäßig lieferte.

Fazit: Definitiv weniger unterwürfig. Andererseits aber auch quälend langweilig.

Behauptung Nr. 3: GPT-5 ist faktisch genauer

Der schockierende Mangel an sachlicher Genauigkeit war ein weiterer wichtiger Grund, warum ich ChatGPT nicht mehr bezahlt habe. An manchen Tagen hatte ich das Gefühl, dass die Hälfte der von mir verwendeten Eingabeaufforderungen Halluzinationen hervorrief. Und das kann nicht nur an meinem Mangel an intelligenten Eingabeaufforderungen liegen, denn ich habe Hunderte von Stunden damit verbracht, zu lernen, wie man KI richtig anspricht – ich weiß, wie man die richtigen Fragen stellt.

Mit der Zeit habe ich gelernt, nur nach Dingen zu fragen, von denen ich bereits eine vage Vorstellung hatte. Für das heutige Experiment habe ich nach den GPU-Spezifikationen gefragt. Vier von fünf Anfragen lieferten falsche Informationen, obwohl diese alle online verfügbar sind.

Dann versuchte ich es mit historischen Fakten. Ich las ein paar interessante Artikel über die Reise der Hindenburg, eines Luftschiffs aus den 1930er Jahren, das Passagiere in Rekordzeit (60 Stunden) von Europa in die USA befördern konnte. Ich erkundigte mich nach der genauen Route, der Anzahl der Passagiere, die es befördern konnte, und den Ursachen für seinen Untergang. Ich verglich die Antworten mit historischen Quellen.

Bei der Routenangabe war ein Fehler zu verzeichnen: Es wurde ein Zwischenstopp in Kanada erwähnt, obwohl dieser nicht stattfand – das Luftschiff flog lediglich über Kanada. ChatGPT lieferte mir auch ungenaue Informationen zur genauen Ursache des Feuers, das zum Absturz führte, aber es handelte sich nicht um eine größere Ungenauigkeit.

Zum Vergleich habe ich auch Gemini gefragt und mir wurde gesagt, dass es diese Aufgabe nicht für mich erledigen kann. Nun, von den beiden hat GPT-5 die bessere Arbeit geleistet – aber ehrlich gesagt sollte es keine sachlichen Ungenauigkeiten in jahrhundertealten Daten enthalten.

Fazit: Nicht perfekt, aber auch nicht schrecklich.

Ist GPT-5 besser als GPT-4o?

Wenn Sie mich gefragt hätten, ob mir GPT-5 besser gefällt als GPT-4o, hätte ich wohl kaum eine Antwort parat gehabt. Am ehesten fällt mir ein, dass ich von keinem der beiden begeistert war, aber ehrlich gesagt: Keines von beiden ist grundsätzlich schlecht.

Wir befinden uns noch mitten in der KI-Revolution. Jedes neue Modell bringt gewisse Verbesserungen mit sich, aber es ist unwahrscheinlich, dass wir mit jeder neuen Iteration große Sprünge erleben werden.

Dieses Mal scheint sich OpenAI entschieden zu haben, einige längst überfällige Probleme anzugehen, anstatt ein einzelnes Feature einzuführen, das die Massen begeistert. GPT-5 fühlt sich eher wie eine Verbesserung der Lebensqualität an als alles andere, obwohl ich es nicht für Aufgaben wie das Programmieren getestet habe, wo es angeblich viel besser ist.

Die drei oben genannten Punkte haben mich bei früheren Modellen am meisten gestört. Ich würde gerne behaupten, dass GPT-5 in dieser Hinsicht deutlich besser ist, aber das ist noch nicht der Fall. Ich werde den Chatbot jedoch weiter testen, da mir eine kürzlich durchgesickerte Systemmeldung verrät, dass es möglicherweise mehr Persönlichkeitsänderungen gegeben hat, als ich zunächst dachte.