Das stärkste Modell von OpenAI wurde als Fälschung entlarvt! Besorgen Sie sich Testfragen im Voraus, Top-Mathematiker werden im Dunkeln gelassen

Januar 20, 2025 Eskere Guru

In letzter Zeit geriet OpenAI erneut in einen Sturm der öffentlichen Meinung.

Der Vorfall ging auf eine Enthüllung im LessWrong-Forum zurück. Ein Epoch AI-Auftragnehmer namens „Meemi“ gab bekannt, dass OpenAI nicht nur den FrontierMath-Benchmark finanziell unterstützte, sondern auch privilegierten Zugriff auf die Testfragenbank erhielt.

Und dies ist möglicherweise ein wichtiger Grund dafür, dass sich die Leistung von o3 in kurzer Zeit erheblich verbessert hat. Diese Informationen wurden von Epoch AI jedoch erst bekannt gegeben, als o3 am 20. Dezember letzten Jahres veröffentlicht wurde.

Sobald die Nachricht bekannt wurde, sorgte sie sofort für Aufruhr im KI-Kreis, denn es war schwer, die Internetnutzer nicht daran zweifeln zu lassen, dass OpenAI sowohl ein Schiedsrichter als auch ein Spieler war.

Vor dem Essen müssen Sie unbekannten Freunden die Hintergrundinformationen des Vorfalls mitteilen.

Im Dezember letzten Jahres veröffentlichte OpenAI offiziell eine neue Generation des o3-Modells, das angeblich die Grenzen der KI durchbrechen soll.

In einem der KI-Mathematik-Benchmarks (Zeugnis) namens FrontierMath liegt OpenAI mit einer Genauigkeit von 25,2 % weit vorne und übertrifft damit die Ergebnisse von weniger als 2 % von Modellen wie GPT-4 und Gemini bei weitem.

FrontierMath ist eine hochgewichtete Bewertung fortgeschrittener mathematischer Denkfähigkeiten. Es wurde gemeinsam von Epoch AI und mehr als 60 Top-Mathematikern erstellt, darunter mehrfache Fields-Medaillengewinner und leitende Propositionsmacher der Internationalen Mathematikolympiade.

Der Benchmark enthält Hunderte origineller und herausfordernder mathematischer Probleme, die mehrere Hauptzweige der modernen Mathematik abdecken, wie z. B. Zahlentheorie, reelle Analysis, algebraische Geometrie, Kategorientheorie usw.

Terence Teru, Gewinner der Fields-Medaille 2006 und mathematisches Genie, bemerkte einmal, dass die Probleme von FrontierMath „extrem herausfordernd“ seien und glaubte, dass diese Probleme nur von Fachexperten gelöst werden könnten. Er stellte fest, dass die Lösung dieser Probleme selbst für menschliche Experten Stunden oder sogar Tage dauern würde.

Dieses Zeugnis zeigte, dass o3 große Fortschritte im fortgeschrittenen mathematischen Denken gemacht hat, aber sein Ruf hat sich nach den Enthüllungen des Auftragnehmers gewandelt. Angesichts der Kontroversen gab Tamay Besiroglu, stellvertretender Direktor und Mitbegründer von Epoch AI, die Angelegenheit auf der X-Plattform schnell zu.

Wir haben einen Fehler gemacht, indem wir die Beteiligung von OpenAI an FrontierMath nicht früher offengelegt haben. Unser Vertrag verbietet uns dies bis zur Veröffentlichung von o3. Im Nachhinein betrachtet hätten wir tatsächlich früher stärker auf Transparenz drängen sollen. Wir erkennen dies an und verpflichten uns, es in Zukunft noch besser zu machen.

Die Situation eskalierte weiter, als Carina Hong, eine Doktorandin der Mathematik an der Stanford University, behauptete, dass OpenAI im Rahmen der Vereinbarung von Epoch AI privilegierten Zugang zu FrontierMath habe.

„Sechs Mathematiker, die maßgeblich zum FrontierMath-Benchmark beigetragen haben, bestätigten mir, dass sie nicht wussten, dass OpenAI exklusiven Zugriff auf den Benchmark haben würde, der anderen nicht zur Verfügung stehen würde, und die meisten sagten, wenn sie es im Voraus gewusst hätten, würden sie es wahrscheinlich tun.“ Ich habe mich nicht für eine Teilnahme entschieden.“

Angesichts der Zweifel entschuldigte sich Tamay Besiroglu auch in einem Blog und versprach, in Zukunft höhere Transparenzstandards einzuführen.

Der Blog betont, dass die finanzielle Unterstützung von OpenAI auf die Entwicklung von FrontierMath beschränkt ist und nicht in den Testinhalt eingegriffen hat. Außerdem heißt es, dass alle Daten und Fragen von unabhängigen Mitwirkenden stammen und von unabhängigen Experten überprüft wurden.

Bezüglich der Trainingsnutzung: Wir erkennen an, dass OpenAI Zugriff auf die meisten FrontierMath-Probleme und -Lösungen hat, mit Ausnahme des zurückgehaltenen Satzes, auf den OpenAI keinen Zugriff hat, wodurch wir die Modellfunktionalität unabhängig überprüfen können. Darüber hinaus haben wir mündlich vereinbart, dass diese Materialien nicht für die Modellschulung verwendet werden.
In öffentlichen Mitteilungen von OpenAI-Mitarbeitern wird FrontierMath als „streng reservierter“ Bewertungssatz beschrieben. Auch wenn dieser öffentliche Standpunkt mit unserem Verständnis übereinstimmt, möchte ich darüber hinaus betonen, dass Labore stark davon profitieren, über wirklich unbelastete Datensätze zu verfügen.
OpenAI unterstützt auch voll und ganz unsere Entscheidung, einen separaten, unveröffentlichten Datensatz als zusätzlichen Schutz zu führen, um eine Überanpassung zu verhindern und eine genaue Fortschrittsmessung sicherzustellen. Seit seiner ursprünglichen Konzeption wurde FrontierMath als Bewertungsinstrument positioniert und präsentiert, und wir glauben, dass die Arrangements diesen Zweck widerspiegeln.
[BEARBEITEN: Der Datenzugriff von OpenAI wurde klargestellt – sie haben keinen Zugriff auf einen separaten Haltesatz als zusätzlichen Schutz für die unabhängige Überprüfung. ]

Elliot Glazer, Chefmathematiker bei Epoch AI, gab zu, dass er während des Projekts nicht proaktiv Informationen über die Finanzierung durch die Industrie offengelegt hatte, und entschuldigte sich bei Mathematikern, die möglicherweise nicht teilgenommen hätten, wenn sie informiert worden wären.
In Bezug auf die o3-Ergebnisse zeigte er sich zuversichtlich in die Genauigkeit der von OpenAI gemeldeten Ergebnisse, betonte jedoch, dass Epoch AI durch einen unabhängigen reservierten Testsatz überprüft werden muss, der gerade entwickelt wird, und versprach, dass die Bewertungsergebnisse des reservierten Satzes veröffentlicht werden.

Auf die Frage nach dem Status des reservierten Satzes stellte Glazer klar, dass sich dieser Testsatz noch in der Entwicklung befindet und noch nicht abgeschlossen ist.

Diese Erklärungen konnten die Kontroverse über den Vorfall jedoch nicht beruhigen, und es kam zu weiterer Kritik an Epoch AI und OpenAI, die sich im Strudel der öffentlichen Meinung befanden.

Der Informatiker Subbarao Kambhampati sagte, er sei zuvor skeptisch gegenüber den Behauptungen von OpenAI gewesen, dass es zuvor keinen Zugriff auf die Daten von Olympiad Math und FrontierMath gehabt habe. Seiner Ansicht nach ist die Praxis von OpenAI, relevanten Parteien die Offenlegung des Vertragsinhalts zu verbieten, äußerst verdächtig.

Der bekannte KI-Experte Gary Marcus kritisierte diesen Vorfall scharf.

Er beschrieb die o3-Demonstration von OpenAI als „verzweifelte, manipulative, irreführende und wissenschaftlich minderwertige Demonstration“ und glaubte, dass es sich eher um einen übertriebenen Hype als um einen echten Durchbruch handele.

Eine anschauliche Analogie ist, dass ein solcher Vergleich offensichtlich unfair ist, wenn jemand die Testfragen und -antworten im Voraus erhält, während andere sich nur auf ihre Kraft verlassen können, um die Prüfung abzulegen. OpenAI erhielt nicht nur Zugang zu Problemen und Lösungen, auch andere Konkurrenten wie xai, DeepMind und akademische Teams hatten keinen Zugang zu denselben Ressourcen.

Noch wichtiger ist, dass Gary Marcus glaubt, dass OpenAI zu dieser wichtigen Hintergrundfaktheit schweigt.

Und während des Anzeigeprozesses hat OpenAI selektiv wichtige Informationen ausgeblendet, weder Erfolgs- oder Misserfolgsfälle zu bestimmten Problemen veröffentlicht, noch entsprechende Aufzeichnungen des Argumentationsprozesses bereitgestellt, noch wurde erklärt, welche Probleme im Trainingssatz aufgetreten sind. Gleichzeitig erlaubten sie Epoch nicht, den Hold-out-Testsatz zu validieren.

Die Rückkehr zu diesem sich verschärfenden Aufruhr ist größtenteils darauf zurückzuführen, dass die Internetnutzer den endlosen Hype um OpenAI satt haben. Das verdächtige Verhalten des „Rankingswipings“ hat erneut die empfindlichen Nerven vieler Internetnutzer berührt.

Während die öffentliche Meinung weiter gärt, kündigte OpenAI einen Durchbruch bei seinem „Operator“-Projekt an. Es wird erwartet, dass CEO Altman der US-Regierung am 30. Januar eine nichtöffentliche Unterrichtung geben wird.

Es wird berichtet, dass „Operator“ ein von OpenAI entwickelter autonomer KI-Agent mit PhD-Level-Fähigkeiten ist, der selbstständig Aufgaben im Browser ausführen kann, wie zum Beispiel das Schreiben von Code, das Buchen von Reisen, das Verwalten von Zeitplänen usw.

Natürlich besteht zu diesem Zeitpunkt die vielleicht beste Krisen-PR-Strategie darin, o3 sofort freizugeben. Und das ist auch das beste Geschenk zum Frühlingsfest.

Zum Zeitpunkt der Drucklegung hat OpenAI keine weitere Stellungnahme abgegeben.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo