Das neueste Modell von ChatGPT stellt möglicherweise einen Leistungsrückgang dar

November 22, 2024 Eskere Guru

Einem neuen Bericht von Artificial Analysis zufolge ist das Flaggschiff-Modell der großen Sprache von OpenAI für ChatGPT , GPT-4o, in den letzten Wochen erheblich zurückgegangen, sodass die Leistung des hochmodernen Modells mit der des weitaus kleineren und deutlich weniger leistungsfähigen Modells gleichzuziehen ist , GPT-4o-mini- Modell.

Diese Analyse erfolgt weniger als 24 Stunden, nachdem das Unternehmen ein Upgrade für das GPT-4o-Modell angekündigt hat . „Die Fähigkeit des Modells zum kreativen Schreiben hat sich verbessert – natürlicheres, ansprechenderes und maßgeschneidertes Schreiben, um Relevanz und Lesbarkeit zu verbessern“, schrieb OpenAI auf X. „Es kann auch besser mit hochgeladenen Dateien arbeiten und bietet tiefere Einblicke und gründlichere Antworten.“ Ob diese Behauptungen weiterhin Bestand haben, wird nun bezweifelt.

„Wir haben gestern die Durchführung unserer unabhängigen Evaluierungen für die GPT-4o-Version von OpenAI abgeschlossen und messen durchweg wesentlich niedrigere Evaluierungswerte als die August-Version von GPT-4o“, gab die Artificial Analysis am Donnerstag in einem X-Beitrag bekannt und stellte fest, dass die Artificial Analysis des Modells Der Qualitätsindex sank von 77 auf 71 (und entspricht nun dem von GPT-4o mini).

Darüber hinaus sank die Leistung von GPT-4o beim GPQA Diamond-Benchmark von 51 % auf 39 %, während die MATH-Benchmarks von 78 % auf 69 % zurückgingen.

Gleichzeitig stellten die Forscher fest, dass sich die Reaktionsgeschwindigkeit des Modells mehr als verdoppelte und sich von etwa 80 Ausgabe-Tokens pro Sekunde auf etwa 180 Tokens/s beschleunigte. „Wir haben im Allgemeinen deutlich höhere Geschwindigkeiten am Starttag für OpenAI-Modelle beobachtet (wahrscheinlich aufgrund der Bereitstellungskapazität von OpenAI vor der Einführung), haben aber zuvor keinen zweifachen Geschwindigkeitsunterschied festgestellt“, schreiben die Forscher.

Moment – ist der neue GPT-4o ein kleineres und weniger intelligentes Modell?
Wir haben gestern die Durchführung unserer unabhängigen Evaluierungen für die GPT-4o-Version von OpenAI abgeschlossen und messen durchweg wesentlich niedrigere Evaluierungswerte als die August-Version von GPT-4o.
GPT-4o (November) vs. GPT-4o (August):
➤… pic.twitter.com/gjY2pBFuUv
– Künstliche Analyse (@ArtificialAnlys) 21. November 2024

„Basierend auf diesen Daten kommen wir zu dem Schluss, dass es wahrscheinlich ist, dass das GPT-4o-Modell von OpenAI vom 20. November ein kleineres Modell ist als die August-Version“, fuhren sie fort. „Da OpenAI die Preise für die Version vom 20. November nicht gesenkt hat, empfehlen wir Entwicklern, die Arbeitslast nicht ohne sorgfältige Tests von der August-Version wegzuverlagern.“

GPT-4o wurde erstmals im Mai 2024 veröffentlicht und übertrifft die bestehenden Modelle GPT-3.5 und GPT-4 . GPT-4o bietet laut OpenAI hochmoderne Benchmark-Ergebnisse bei Sprach-, Mehrsprachigkeits- und Sehaufgaben und ist damit ideal für fortgeschrittene Anwendungen wie Echtzeitübersetzung und Konversations-KI.