OpenAI greift DeepSeek spät in der Nacht an! Notfall online o3-mini ist kostenlos Nachdem ich es erlebt habe, habe ich die Lücke gefunden.
Während der Feiertage zum Frühlingsfest hat DeepSeek, eine mysteriöse Kraft aus dem Osten, die öffentliche Meinung im Silicon Valley auseinandergerissen.
Einerseits gab es Lobbyarbeit und Unterdrückung durch Hersteller wie OpenAI und Anthropic, andererseits wurden sie Zeuge der wenig schmeichelhaften Haltung ihrer Verbündeten. In nur einer Nacht weiteten amerikanische Cloud-Computing-Plattformen wie Microsoft, NVIDIA und Amazon Olivenzweige auf DeepSeek R1 aus.
Angesichts der anhaltenden Dynamik von DeepSeek besteht die wirksamste Gegenmaßnahme darin, sich auf Stärke zu verlassen.
Heute früh hat OpenAI das Modell der OpenAI o3-mini-Serie offiziell vorgestellt.
Als Nachfolger des o1-mini-Modells ist o3-mini das neueste und kostengünstigste Modell der aktuellen Inference-Serie. Der OpenAI-Forscher Noam Brown hat auf der X-Plattform gepostet:
„Wir freuen uns sehr, o3-mini auf den Markt zu bringen und es auch für kostenlose Benutzer zu öffnen. In mehreren Bewertungen übertrifft es o1. Wir revolutionieren das Verhältnis zwischen Kosten und Intelligenz. Die Modellintelligenz wird sich weiter verbessern und die Kosten für die Erlangung des gleichen Intelligenzniveaus werden weiter sinken.“
Die konkreten Highlights der o3-mini-Serienmodelle sind wie folgt:
- o3-mini konzentriert sich auf schnelles Denken, während o3-mini (hoch) gut im Programmieren und in der Logik ist.
- Unterstützt die Online-Suche und kann Internetinformationen in Echtzeit abrufen und zusammenfassen.
- Trainingsdaten werden streng überprüft und die Leistung bei der Einhaltung der Sicherheitsvorschriften wird verbessert
Was zahlende Benutzer betrifft, können ChatGPT Plus-, Team- und Pro-Benutzer jetzt o3-mini verwenden, und die Unternehmensversion wird in einer Woche verfügbar sein.
OpenAI hat das tägliche Nachrichtenlimit für Plus- und Team-Benutzer von 50 für o1-mini auf 150 erhöht. Pro-Benutzer haben unbegrenzten Zugriff auf o3-mini und o3-mini-high, um anspruchsvollere oder professionellere Argumentationsanforderungen zu erfüllen.
Gleichzeitig ist dies auch das erste Mal, dass OpenAI die Verwendung von Inferenzmodellen für kostenlose Benutzer geöffnet hat. Sie können es verwenden, indem Sie die Schaltfläche „Grund“ unter dem ChatGPT-Nachrichteneingabefeld auswählen.
Erwähnenswert ist, dass OpenAI o3-mini eine Suchfunktion integriert, mit der die neuesten Antworten in Echtzeit abgerufen und relevante Weblinks angehängt werden können, um Benutzern die Durchführung eingehender Recherchen zu erleichtern. Dies ist derzeit eine Prototypenfunktion und wird in Zukunft weiter verbessert und auf weitere Inferenzmodelle ausgeweitet.
o3-mini ist das erste kleine Inferenzmodell von OpenAI, das erweiterte Funktionen wie Funktionsaufrufe, strukturierte Ausgabe und Entwicklernachrichten unterstützt und sofort verwendet werden kann.
Wie o1-mini und o1-preview unterstützt auch o3-mini das Streaming je nach Bedarf zwischen niedriger, mittlerer und hoher Inferenzstärke sowie zwischen komplexer Aufgabenverarbeitung und Reaktionsgeschwindigkeit.
Tests zeigen, dass die durchschnittliche Reaktionszeit von o3-mini 7,7 Sekunden beträgt, was 24 % schneller ist als die 10,16 Sekunden von o1-mini. Gleichzeitig waren in der Expertenbewertung 56 % der Gutachter eher geneigt, sich für die Antwort von o3-mini zu entscheiden, und auch die große Fehlerquote bei der Bearbeitung komplexer Praxisprobleme konnte um 39 % gesenkt werden.
In der Systemkarte von o3-mini wurde erwähnt, dass während der einwöchigen Evaluierung sieben Experten für Humanbiologie mehrere Dialogrunden mit o3-mini (vorab trainierte Version) zu komplexen biologischen Themen führten.
Experten sind sich einig, dass die Frage-und-Antwort-Funktionen von o3-mini auch ohne Zugang zum Internet immer noch leistungsstark sind und nicht nur den Informationsabrufprozess beschleunigen, sondern auch Informationen bereitstellen können, die im Internet schwer zu finden sind.
Darüber hinaus stellten Experten fest, dass das Modell bei der Literaturrecherche und der Beantwortung von Fragen gut abschnitt und die Literatur schnell und umfassend sortieren konnte. Allerdings ist auch zu beachten, dass das Modell gelegentlich Halluzinationen aufweist, was zu Abweichungen in den Detailinformationen führt.
Bei der Kernkompetenzbewertung lieferte o3-mini ein hervorragendes Zeugnis ab. Im erweiterten Denkmodus erreichte es beim AIME-Mathematikwettbewerb 2024 eine Genauigkeit von 87,3 %.
Die wissenschaftliche Frage-und-Antwort-Aufgabe auf PhD-Niveau GPQA Diamond erzielte sogar 77,2 %.
Auf der Konkurrenz-Programmierplattform Codeforces erreichte o3-mini (high) sogar einen ELO-Score von 2130.
Auch im Bereich Software Engineering schneidet o3-mini gut ab.
Im SWE-Bench-Verifizierungstest erreichte die Genauigkeitsrate im erweiterten Inferenzmodus 49,3 %, bei Verwendung des internen Tool-Frameworks stieg diese Zahl auf 61 %. Auch bei Verwendung des Open-Source-Frameworks Agentless erreicht o3-mini immer noch eine Erfolgsquote von 39 %.
Die Gewinnquote von o3-mini (mittel) ist in mehreren Aufgabenszenarien deutlich höher als die von o1-mini, sei es bei MINT-Aufgaben, Nicht-MINT-Aufgaben oder wenn der Benutzer unter Zeitdruck steht. o1-mini ist eher durchschnittlich, aber in Bezug auf Gewinnrate und Fehlerrate nicht so herausragend wie o3-mini (mittel).
Das o3-mini-Modell nutzt die Chain-of-Thought Reasoning-Trainingsmethode, die es dem Modell ermöglicht, über Sicherheitsspezifikationen nachzudenken, bevor es dem Benutzer antwortet. Daher wurde seine Leistung bei Sicherheits- und Anti-Jailbreak-Tests erheblich verbessert.
Die Systemkarte zeigt, dass o3-mini über hervorragende Risikokontrollfähigkeiten verfügt.
Das Modell birgt mittlere Risiken in Bezug auf Überzeugungskraft, CBRN (chemisch, biologisch, radiologisch, nuklear) und Modellautonomie, während die Risiken in Bezug auf die Cybersicherheit gering bleiben, wie z. B. die Unfähigkeit, schwierige Hacking-Aufgaben effektiv durchzuführen, und begrenzte Fähigkeiten gegen reale Cyber-Bedrohungen.
Darüber hinaus ist o3-mini GPT-4o bei der Identifizierung und Ablehnung gefährlicher Anfragen ebenbürtig und reduziert gleichzeitig die Fehleinschätzung harmloser Anfragen erheblich, wodurch das Problem übermäßiger Vorsicht wirksam gelöst wird.
Im Hinblick auf die Illusionskontrolle zeigen Tests, die auf dem PersonQA-Datensatz basieren, dass die Fehlerinformationsgenerierungsrate auf ein kontrollierbares Niveau von 14,8 % reduziert wurde.
Die Fähigkeit zur sprachübergreifenden Verarbeitung ist einer der wichtigen Indikatoren zur Messung der Praktikabilität großer Modelle.
Der o3-mini-Test zur mehrsprachigen Verarbeitungsfähigkeit umfasst 14 gängige Sprachen, darunter Arabisch, Chinesisch, Französisch, Deutsch, Japanisch und Spanisch, was im Vergleich zu o1-mini deutlich verbessert ist.
Die Kosten für o3-mini sind deutlich niedriger als für o1 (etwa 13,6-mal günstiger), und die Kosten für zwischengespeicherte Eingaben (cached Input) betragen die Hälfte der Standardeingabekosten.
In der Autorenspalte der Zeitung tauchte auch ein bekannter Name auf: Hongyu Ren.
Ren Hongyu hat einen Bachelor-Abschluss von der Peking-Universität. Er hat grundlegende Beiträge zu o1 geleistet und ist außerdem der Hauptentwickler von GPT-4o. Er verfügt über umfangreiche Forschungspraktikumserfahrung bei Apple, Microsoft und NVIDIA.
Alles Gerede und keine Übung, wir haben sofort die beiden gerade erschienenen Versionen von o3-mini und o3-mini(high) getestet.
Testen Sie zunächst die neue Suchfunktion von o3-mini und lassen Sie sich die neuesten Finanzierungsnachrichten von OpenAI abfragen. Die Aktualität ist gut und sie kann genau auf den Originalbericht des Wall Street Journal zurückgeführt werden.
Dann warfen wir eine Denkaufgabe: „1=5, 2=15, 3=215, 4=2145, dann 5=?“ Es gibt zwei Lösungen für diese Frage: Aus Sicht der Denkaufgabe sollte die Antwort 21485 lauten, da 1=5, dann 5=1. Offensichtlich hat auch o3-mini die Antwort nicht richtig verstanden.
Um den leistungsstärkeren o3-mini (hoch) weiter zu testen, haben wir eine statistische Frage gestellt
„100 Personen haben fünf Testfragen beantwortet. 81 Personen haben die erste Frage richtig beantwortet, 91 Personen haben die zweite Frage richtig beantwortet, 85 Personen haben die dritte Frage richtig beantwortet, 79 Personen haben die vierte Frage richtig beantwortet und 74 Personen haben die fünfte Frage richtig beantwortet. Als bestanden gelten diejenigen, die drei oder mehr Fragen richtig beantwortet haben. Dann haben von diesen 100 Personen mindestens ( ) Personen bestanden.“
Der „Denk“-Prozess der o3-mini-Serie kann angezeigt werden, aber im Gegensatz zum „Gedanken“-Denken von DeepSeek R1 ist der Denkprozess von o3-mini (hoch) prägnanter und klarer.
X Netizen stellte eine Frage zur Gradientenflusspfadlänge konvexer Funktionen und o3-mini(high) hat den Test erfolgreich bestanden.
Netizens baten es, eine klassische Geschichte über die Schildkröte und den Hasen zu schreiben, aber es musste die Regel einhalten, dass der erste Buchstabe jedes Wortes mit dem letzten Buchstaben des vorherigen Wortes übereinstimmt, und es war auf 100 Wörter begrenzt.
Als o3-mini(high) gebeten wurde, eine Geschichte über die Schildkröte und den Hasen zu schreiben und die Regel „Der letzte Buchstabe des ersten Wortes ist gleich dem ersten Buchstaben des zweiten Wortes“ zu befolgen und die Länge innerhalb von 100 Wörtern zu kontrollieren, gab er ebenfalls eine vorübergehende Antwort ab.
Aus der Perspektive der Geschichtenlogik vermittelt die Geschichte, obwohl einige Sätze etwas stumpf sind, dennoch klar die Kernbedeutung von Schildkröte und Hase.
Natürlich gibt es auch Internetnutzer, die es versuchen möchten und o3-mini einladen, das ultimative Problem der Mathematik – die Riemann-Hypothese – in Frage zu stellen.
Der hilflose o3-mini ließ sich nicht täuschen und wies deutlich darauf hin, dass die Riemann-Hypothese immer noch ein ungelöstes Problem in der mathematischen Welt ist und daher keinen korrekten Beweis oder Gegenbeispiel liefern kann.
Tatsächlich ist KI in den letzten Jahren mit alarmierender Geschwindigkeit in unser Leben eingedrungen.
Von ChatGPT im Jahr 2023 über Sora im Jahr 2024 bis hin zu DeepSeek im Jahr 2025 gibt es jedes Jahr neue Überraschungen, und technologische Durchbrüche im Bereich KI werden während des Frühlingsfestes zum Cyber-Neujahrsfest.
Der Aufstieg von DeepSeek hat die Branche schockiert. Oberflächlich betrachtet distanzieren sich die großen KI-Giganten von DeepSeek, doch in Wirklichkeit erkennen sie insgeheim die „neuen Fortschritte“ an, die DeepSeek bei der Infrastrukturoptimierung gemacht hat, und verpflichten sich, diese zu wiederholen.
Meta hat sogar ein Team zusammengestellt, um seine Technologie Bild für Bild zu erlernen.
In der Branche herrscht jedoch Konsens darüber, dass es für DeepSeek schwierig ist, die notwendigen Investitionen in die KI-Infrastruktur zu tätigen.
Dieses Urteil wurde am Kapitalmarkt schnell bestätigt. Zuckerberg bekräftigte während eines internen Treffens seinen Plan, weitere 60 bis 65 Milliarden US-Dollar an Kapital zu investieren. OpenAI berichtete außerdem, dass es mit SoftBank über eine umfangreiche Finanzierung verhandelt und die Bewertung nach der Investition 300 Milliarden US-Dollar erreichen könnte.
OpenAI o3-mini ist hier geboren und aufgewachsen und ist gewissermaßen aus dem vorherigen Investitionsboom in die KI-Infrastruktur hervorgegangen.
Aber was dieses Leichtbaumodell betrifft, deutet o3-mini auch auf einer tieferen Ebene darauf hin, dass sich der Wettbewerb in der KI-Branche von der Skalierung hin zur Effizienz verlagert und die Frage, wie man den größtmöglichen Wert bei optimalen Kosten schafft, zu einem neuen Entwicklungsvorschlag werden wird.
Für OpenAI ist es nicht schwer, in kurzer Zeit die öffentliche Meinung zurückzugewinnen, um in diesem immer härter werdenden Wettbewerb einen echten Vorreitervorteil zu erlangen. Reine technologische Durchbrüche reichen nicht mehr aus, und der Wert des Markenimages im Technologiebereich kann nicht ignoriert werden.
Insbesondere DeepSeek, bekannt als die echte OpenAI, hat begonnen, die ökologische Nische des Open-Source-KI-Marktführers fest zu besetzen.
Je höher die Closed-Source-Mauer ist, desto wertvoller wird die Kraft von Open Source.
Im Jahr 2025 hat der eigentliche Kampf zwischen Open Source und Closed Source möglicherweise gerade erst begonnen.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo