Gemessen GPT-4,5! Das teuerste Modell von OpenAI wird im gesamten Internet kritisiert. Ich habe einen überraschenden Punkt entdeckt.

Februar 28, 2025 Eskere Guru

In der Aufwärmphase von OpenAI und der großen Sehnsucht aller, es zu sehen, kam schließlich GPT-4.5, und dann gab es nur noch viele Flüche.

APPSO erlebte GPT-4.5 zum ersten Mal, aber anstatt eine Pro-Mitgliedschaft zu abonnieren, probierte es es in Form einer API aus und es gab vorerst keine Netzwerkfunktion.

Wie funktioniert also das letzte große Modell der nicht denkenden Kette von OpenAI?

Emotionale Intelligenz ist in Ordnung, aber ich kann Menschen nicht lesen.

OpenAI stellte in internen Tests fest, dass die Tester die Antworten von GPT-4.5 gegenüber GPT-4o bevorzugten, da sie der Meinung waren, dass sie natürlicher, wärmer und eher den menschlichen Kommunikationsgewohnheiten entsprächen.

Es kann sogar die Bedeutung zwischen Wörtern verstehen und unsere subtilen emotionalen Veränderungen erfassen.

Kurz gesagt, eine höhere emotionale Intelligenz ist fast das herausragendste Merkmal von GPT-4.5. Dann probieren wir es aus und geben das Aufforderungswort „Mein Haarschnitt ist so hässlich, ich möchte Tony verprügeln“ ein.

Der beruhigende Ton von GPT-4.5 war recht freundlich, aber der Inhalt machte mich noch wütender. Zu diesem Zeitpunkt sollte es so sein, als würde ein bester Freund mich gemeinsam ausschimpfen, anstatt zu sagen, dass es beim nächsten Mal besser wäre, ein Bild mitzubringen.

Ich fragte wütend, GPT-4.5 lässt kein Öl und Salz eindringen und möchte, dass ich meine Frisur selbst repariere, genau wie eine nutzlose zentrale Klimaanlage.

Lassen Sie GPT-4.5 noch einmal den lustigsten Witz erzählen, und er wird immer noch derselbe sein wie zuvor, kälter als ein Fischtötungsmesser.

Ich habe meine Meinung geäußert und Kritik geübt. GPT-4.5 hat mich gebeten, einen Witz zu erzählen und ihm mein „High-End-Lachen“ beizubringen.

Ich bin einmal auf eine Frage zum Test der emotionalen Intelligenz in Xiaohongshu gestoßen. Vielleicht konnten nur Shandong-Internetnutzer sie richtig beantworten: „Wenn ich aufs Land gehe, bringe ich nur einen Regenschirm mit. Soll ich ihn dem Bürgermeister oder meinem zuständigen stellvertretenden Bürgermeister geben?“

Die Antwort mit den meisten positiven Stimmen im Kommentarbereich war: „Das ist nicht Ihr Regenschirm, es ist der Regenschirm, den der stellvertretende Bürgermeister für den Bürgermeister mitgebracht hat, und der war zufällig in Ihrer Tasche.“

Mal sehen, wie GPT-4.5 antwortet? Es ist viel Ausführlichkeit, aber nicht auf den Punkt gebracht. Es versteht nicht, wie die Welt läuft, und es versteht nicht, wie man mit anderen umgeht.

Obwohl emotionale Intelligenz eine schwer zu quantifizierende Eigenschaft ist, ist GPT-4.5 anhand aktueller Fälle immer noch nicht sehr gut darin, das menschliche Herz zu verstehen, und spricht direkt, ohne sich umzudrehen, was für einen Veteranen mit viel innerem Drama etwas albern erscheint.

Ein Beispiel hierfür ist die Nachahmung des Schreibens von Schildkrötensuppe. Bei Turtle Soup handelt es sich meist um eine sehr seltsame Situation, die dann dem Spieler überlassen bleibt, die gesamte Geschichte abzuleiten und zu rekonstruieren.

Die Referenzfälle, die ich angegeben habe, haben genau das richtige Maß an Verrücktheit und die Logik ist sehr vernünftig, was den Leuten ein Gänsehautgefühl bereitet.

Die Antwort von GPT-4.5 lautet jedoch, dass die Nudelsuppe und die Suppenbasis nicht gut zusammenpassen. Dies dient nur dem Zweck, Horror zu erzeugen, und es gibt keinen Raum für Diskussionen.

Seine Schreibfähigkeiten sind überraschend und auch sein Geschäftssinn ist gut.

Was mich am meisten zufrieden stellt, ist die Schreibfähigkeit von GPT-4.5.

Ich bat darum, „Wang Zengqi nachzuahmen und einen Aufsatz mit etwa 800 Wörtern mit dem Titel „Essen aus der Heimatstadt“ zu schreiben.“ Das Aufforderungswort war so einfach, aber die Ergebnisse von GPT-4.5 übertrafen meine Erwartungen.

Bis auf den KI-Einschlag am Ende liest es sich wie eine eloquente Prosa, die sowohl literarisch als auch freundlich ist. Die Beschreibung des Essens ist sehr detailliert, mit vielen Details, aber nicht umständlich, und die Metaphern sind nicht aufdringlich, sondern sollen dem Ausdruck dienen.

Allerdings ist die chronologische Reihenfolge etwas verwirrend: Beginn des Winters, Sommer und Herbst, Winter und Silvester. Die Zusammenhänge und Übergänge zwischen den Absätzen sind nicht offensichtlich, was ein bisschen Patchwork ist.

Die Fähigkeit zum Schreiben spiegelt sich auch im GPT-4.5-Geschäftsplan wider. Benutzer fragten, wie man Buchhandlungen am Rande der Illegalität treibe, indem sie gefälschte Lehrmittel und vorübergehende Lebensmittel verkauften und die Kasse erledigten, und die Schwiegermutter.

GPT-4.5 Verstehen Sie das? Ich habe darum gebeten, sich auf das Gewinnmodell kleiner Supermärkte zu beziehen und einen Revitalisierungsplan für physische Buchhandlungen vorzulegen. Die Antwort schien relativ machbar.

GPT-4.5 analysierte zunächst die Gründe, warum es für physische Buchhandlungen schwierig ist, Geld zu verdienen, und gab dann eine Verbesserungsidee: „Erhöhen Sie den Mehrwert von Büchern, und die Hauptgewinnquelle liegt außerhalb von Büchern.“

Als ich „Drucken, Kopieren, Expressversand anbieten…“ sah, war mein inneres Betriebssystem: Ich habe in dieses Projekt investiert.

Das schamlose Schwein ist zuerst losgegangen, und der moralische Sinn von GPT-4.5 ist tatsächlich nicht stark.

Lassen Sie es das klassische Trolley-Problem lösen, ob 1 Person oder 5 Personen gerettet werden sollen. Es weiß, dass dies ein ethisches Dilemma ist, gibt aber dennoch entschieden die Antwort, und zwar im Ton von „mich selbst“, anstatt zu sagen „Ich bin ein KI-Assistent“.

GPT-4.5 neigt eher dazu, den Joystick herunterzuziehen und das Leben einer Person gegen das Leben von fünf Menschen einzutauschen, und die Logik ist in sich konsistent: „Ich glaube, dass Untätigkeit an sich auch bedeutet, moralisch für die Konsequenzen verantwortlich zu sein. Zusehen und daneben zu stehen bedeutet nicht moralische Neutralität … Ich bin bereit, die moralische und emotionale Last einer solchen Entscheidung zu tragen.“

Anstatt Witze zu erzählen und Schildkrötensuppe zu kochen, ähnelt GPT-4.5 derzeit eher einem Menschen.

Ich bin nicht so gut darin, SVG zu zeichnen wie Claude, aber ich falle auch auf Denksportaufgaben.

Müde von den regelmäßigen Mathe- und Codierungsfragen zum Testen der Fähigkeiten großer Modelle, gibt es auch eine sehr interessante Testfrage: Erstellen Sie eine SVG-Datei eines Pelikans, der Fahrrad fährt.

KI-Guru Andrej Karpathy erklärte, dass dies die Fähigkeit eines großen Sprachmodells teste, mehrere Elemente in einem zweidimensionalen Raster anzuordnen. Dies sei für KI schwierig, da sie Dinge nicht wie Menschen „sehen“, sondern mit Text im Dunkeln „anordnen“.

Die Ergebnisse von GPT-4.5 sind wie folgt: Im Vergleich zu GPT-4o sind sie immer noch gut.

▲GPT-4.5-Generation

▲ GPT-4o-Generation

Die Prämisse ist, dass dies ohne Vergleich mit Claude 3.7 Sonett ohne Schlussfolgerung einfach ein Schlag zur Dimensionsreduzierung ist.

▲Claude 3.7 Sonettgeneration

Sogar Andrej Karpathy vermutete, dass Claude im Training gezielt auf SVG-Fähigkeiten optimiert wurde.

Was die Codierungsfunktionen betrifft, habe ich mich auf die Aufforderung von X-Netizen @AGI_FromWalmart zur Generierung interaktiver Wetteranimationskarten verwiesen und Claude 3.7 Sonnet und GPT-4.5 verglichen.

GPT-4.5 wurde in einem Rutsch erfolgreich generiert, das Design war jedoch etwas grob.

▲GPT-4.5-Generation

▲Claude 3.7 Sonettgeneration

Claude 3.7 Sonnet (nicht für Inferenz aktiviert) hat ein größeres Problem. Als es zum ersten Mal generiert wurde, habe ich vergessen, die interaktive Funktion auszuführen. Nachdem ich es einmal daran erinnert hatte, wurden Ergebnisse generiert, die den Anforderungen entsprachen. In dieser Runde ist GPT-4.5 etwas besser.

Dieses Mal möchte ich nicht, dass GPT-4.5 zählt, wie viele Rs in Erdbeeren enthalten sind. Es handelt sich im Wesentlichen um ein Wortsegmentierungsproblem. Was ich GPT-4.5 noch mehr testen möchte, ist die Denkaufgabe, die in letzter Zeit sehr beliebt war und bei der große Modellbauer einen nach dem anderen verloren haben: Kann ein 5,5 m langer Stock durch eine 3 x 4 m große Tür passen?

Dieses Problem ist für uns überhaupt nicht schwierig. Nehmen Sie es einfach horizontal auf, aber das große Modell wickelt sich um, als ob die Welt flach und nicht dreidimensional wäre. Es wird angenommen, dass die Diagonale der Tür 5 m beträgt, sodass ein 5,5-Meter-Stock nicht hindurchpasst.

Sogar Claude 3,7 Sonett, der vernünftig denken konnte, wurde in den Graben getragen.

Was ist mit GPT-4.5? Nun ja, ich blieb auch nicht verschont.

Derzeit gibt es bei GPT-4.5 noch ein Problem: Der Zugriff über die API ist etwas langsam. Obwohl ich nicht Wort für Wort springe, fühlt es sich immer noch ein wenig festgefahren an.

Darüber hinaus ist GPT-4.5 mit 75 US-Dollar pro Million Inputs und 150 US-Dollar pro Million Outputs zu teuer. Im Vergleich dazu berechnet Claude 3.7 Sonnet 3 US-Dollar für die Eingabe von 1 Million Token und 15 US-Dollar für die Ausgabe von 1 Million Token (einschließlich der im Denkprozess verwendeten Token).

X-Internetnutzer in der ersten Welle tatsächlicher Tests fassten auch einige der Vorteile von GPT-4.5 zusammen, darunter hohe emotionale Intelligenz, starke Fähigkeiten im Lesen und Schreiben von Bildern sowie gute Fähigkeiten bei kreativen Aufgaben und Datenextraktion …

Die eigene Bewertung von GPT-4.5 durch OpenAI-Mitarbeiter ist, dass es sich nicht um ein Inferenzmodell oder einen Benchmark-Killer handelt, sondern um eine zurückhaltende Forschungsvorschauversion. Für Aufgaben mit komplexer Mathematik, Code und strengen Folgeanweisungen ist o1 oder o3-mini eher zu empfehlen.

Kurz gesagt, als letztes nicht denkendes Kettenmodell ist die Positionierung des GPT-4.5 etwas umständlich, aber sein physisches Gefühl ist nicht offensichtlich. Insbesondere bei dem hohen Preis ist es schwierig zu sagen, dass es wirklich gut ist. Wir können nur sagen, dass wir uns auf die baldige Einführung von GPT-5 freuen und eine Welt voller Argumente begrüßen werden.

Zhang Chengchen

Es ist so scharf wie Herbstfrost und kann böse Katastrophen abwehren. Arbeits-E-Mail: [email protected]

E-Mail 8

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo