OpenAI stellt sein „bahnbrechendes“ o3-Argumentationsmodell der nächsten Generation vor

Sam Altman beschreibt die Fähigkeiten des o3-Modells
OpenAI

Zum Abschluss der Livestream-Veranstaltung „12 Days of OpenAI“ enthüllte CEO Sam Altman sein nächstes Basismodell und Nachfolger der kürzlich angekündigten o1-Familie von Argumentations-KIs , genannt o3 und 03-mini.

Und nein, Sie werden nicht verrückt – OpenAI hat o2 komplett übersprungen, offenbar um eine Verletzung des Urheberrechts des britischen Telekommunikationsanbieters O2 zu vermeiden.

Obwohl die neuen o3-Modelle noch nicht der Öffentlichkeit zugänglich gemacht werden und es noch keine Informationen darüber gibt, wann sie in ChatGPT integriert werden, stehen sie jetzt zum Testen durch Sicherheitsforscher zur Verfügung.

Die o3-Familie funktioniert wie die o1-Familie zuvor anders als herkömmliche generative Modelle, da sie ihre Antworten intern auf Fakten überprüft, bevor sie sie dem Benutzer präsentieren. Während diese Technik die Reaktionszeit des Modells um einige Sekunden bis einige Minuten verlangsamt, sind seine Antworten auf komplexe naturwissenschaftliche, mathematische und Codierungsanfragen in der Regel genauer und zuverlässiger als die, die Sie von GPT-4 erhalten würden. Darüber hinaus ist das Modell tatsächlich in der Lage, seine Überlegungen, wie es zu seinem Ergebnis gelangt ist, transparent zu erläutern.

Benutzer können die Zeit, die das Modell mit der Betrachtung eines Problems verbringt, auch manuell anpassen, indem sie zwischen niedriger, mittlerer und hoher Rechenleistung wählen, wobei die höchste Einstellung die vollständigsten Antworten liefert. Diese Leistung ist allerdings nicht billig. Berichten zufolge wird die Verarbeitung mit hoher Rechenleistung Tausende von Dollar pro Aufgabe kosten, schrieb ARC-AGI-Mitschöpfer Francois Chollet am Freitag in einem X-Beitrag.

Berichten zufolge bietet die neue Familie von Argumentationsmodellen bei den anspruchsvollsten Benchmark-Tests der Branche eine deutlich verbesserte Leistung gegenüber o1, das im September erstmals vorgestellt wurde . Nach Angaben des Unternehmens übertrifft o3 seinen Vorgänger beim SWE-Bench Verified-Codierungstest um fast 23 Prozentpunkte und erzielt beim Codeforce-Benchmark mehr als 60 Punkte mehr als o1. Auch beim Mathematiktest AIME 2024 erreichte das neue Modell beeindruckende 96,7 %, wobei nur eine Frage fehlte, und übertraf menschliche Experten beim GPQA Diamond mit einer Punktzahl von 87,7 %. Noch beeindruckender ist, dass 03 Berichten zufolge mehr als ein Viertel der im EpochAI Frontier Math-Benchmark vorgestellten Probleme gelöst hat, während andere Modelle Schwierigkeiten hatten, mehr als 2 % davon richtig zu lösen.

OpenAI stellt jedoch fest, dass es sich bei den am Freitag in der Vorschau gezeigten Modellen noch um frühe Versionen handelt und dass „sich die endgültigen Ergebnisse mit mehr Nachtraining weiterentwickeln können“. Darüber hinaus hat das Unternehmen neue Sicherheitsmaßnahmen zur „ deliberativen Ausrichtung “ in die Schulungsmethodik von o3 integriert. Das o1-Argumentationsmodell hat die besorgniserregende Angewohnheit gezeigt, menschliche Bewerter häufiger zu täuschen als herkömmliche KIs wie GPT-4o, Gemini oder Claude; OpenAI glaubt, dass die neuen Leitplanken dazu beitragen werden, diese Tendenzen in o3 zu minimieren.

Mitglieder der Forschungsgemeinschaft, die daran interessiert sind, o3-mini selbst auszuprobieren, können sich für den Zugang aufder Warteliste von OpenAI anmelden.