Jahresgebühr übersteigt 20.000! Musk hat gerade die teuerste KI veröffentlicht, Grok 4 behauptet, Doktoranden in allen Bereichen zu vernichten
Musk hat sich fast ein halbes Jahr lang zurückgehalten und schließlich Grok 4 auf den Tisch gebracht.
Auch dieses Mal war sein Tonfall recht energisch. Vor dem Start gab er eine mutige Erklärung ab: Grok 4 werde „die menschliche Wissensbasis neu schreiben“. Beim Start betonte Musk erneut, dass Grok 4 derzeit die intelligenteste KI der Welt sei.

Ja, vertrauter Geschmack, vertrautes Rezept.
Natürlich ist jeder daran gewöhnt, dass Musk seine eigenen Produkte lobt, aber wie die Internetnutzer scherzten, man könne über xAI-Mitarbeiter lachen, die in Bürozelten schlafen oder am Wochenende bis 4:20 Uhr morgens arbeiten, aber man müsse zugeben, dass sie tatsächlich eines der am schnellsten wachsenden KI-Labore seien.
Ob Grok 4 als „intelligenteste KI“ bezeichnet werden kann, hängt von der tatsächlichen Erfahrung ab. Eines ist jedoch sicher: Mit einem jährlichen Abonnementpreis von bis zu 3.000 US-Dollar ist sie mittlerweile die teuerste KI auf dem Markt. Diese Preisstrategie ist völlig unethisch.
Die intelligenteste KI der Welt? Die teuerste KI der Welt!
Der Trainingspfad von Grok ist in zwei Kernphasen unterteilt: Vortraining und bestärkendes Lernen. Von Grok 2 bis Grok 3 basiert er hauptsächlich auf Vortraining; von Grok 3 bis Grok 4 wird verstärkt bestärkendes Lernen mit logischem Denkvermögen als Kern eingeführt.
Musk spielte den Vorfall herunter, aber das Training war keine Kleinigkeit.
Im Vergleich zu Grok 2 hat sich der Trainingsberechnungsaufwand von Grok 4 um zwei Größenordnungen erhöht, was einer Steigerung um das Hundertfache entspricht – und er wächst weiter.

Musk sagte, Grok 4 habe in allen wichtigen Disziplinen das Doktoratsniveau überschritten. Obwohl es derzeit nicht in der Lage sei, neue Theorien zu erfinden oder originelle Technologien zu entwickeln, sei dies seiner Meinung nach nur eine Frage der Zeit.
Er sagte sogar, dass Grok bis Ende dieses Jahres möglicherweise in der Lage sein würde, neue Technologien zu erfinden, und dass es im nächsten Jahr mit ziemlicher Sicherheit in der Lage sein würde, neue Gesetze der Physik zu entdecken.
Der eigentliche Schlüssel liegt natürlich darin, KI mit der realen Welt zu verbinden.
Er sagte, die Kombination von Grok und dem humanoiden Roboter Optimus werde ein geschlossenes Denksystem bilden, das Hypothesen aufstellt, Hypothesen überprüft und die Realität erforscht. Dies werde eine Ära explosionsartiger Intelligenz einleiten und sei der aufregendste Knotenpunkt der Menschheitsgeschichte.

In Bezug auf die Produktform ist Grok 4 ein Single-Agent-Modell, während Grok 4 Heavy eine Multi-Agent-Version ist.
Ersteres ist leichter zu verstehen, während Letzteres mehrere Agenten dabei unterstützt, parallel zu denken, horizontale Vergleiche und vertikale Zusammenarbeit während des Denkprozesses durchzuführen und größere Rechenressourcen in Anspruch zu nehmen, um komplexere und anspruchsvollere Aufgaben zu erledigen.
Während der Live-Demonstration demonstrierte Grok 4 Heavy mehrere Szenariofunktionen.
Lassen Sie Grok 4 Heavy beispielsweise die Gewinnwahrscheinlichkeit der diesjährigen MLB World Series vorhersagen. Durch Informationsabruf, Datenmodellierung und Wahrscheinlichkeitsberechnung schätzt es, dass die Chance der Los Angeles Dodgers, die Meisterschaft zu gewinnen, 21,6 % beträgt, und gibt den gesamten Vorhersageprozess innerhalb von 4,5 Minuten aus.

Ein weiteres Beispiel ist eine scheinbar unsinnige Aufgabe: Finden Sie den mit dem seltsamsten Avatar im xAI-Team. Basierend auf der Datenbank der X-Plattform erfasste und analysierte das Modell automatisch den Avatar-Stil und schloss sich schließlich Mitbegründer Greg Yang an.

Obwohl das Modell das subjektive Konzept von „seltsam“ genau versteht und relative Urteile unter ähnlichen Personen fällen kann, schien mir beim Durchblättern der Demo interessanterweise das Profilbild des Anthropic-Mitarbeiters Jan Leike angezeigt zu werden. Es scheint also, dass die Genauigkeit verbessert werden muss.
Neben der Argumentation und Suche kann Grok auch Inhaltszeitleisten generieren.
Anhand öffentlicher Beiträge auf der X-Plattform lassen sich beispielsweise die Benchmark-Testergebnisse mehrerer KI-Modelle, das Tempo der Anbieter-Updates und die Reaktionen der Community analysieren. Nutzer können auf einen Blick die Score-Performance von OpenAI, die Update-Iterationen von Gemini und sogar die subtile Wettbewerbssituation zwischen den Modellen erkennen.

Mit anderen Worten: Grok ist kein Nerd, der nur Prüfungen bestehen kann, sondern eine KI, die wirklich in der Lage ist, verschiedene Szenarien zu verstehen und umzusetzen.
Groks größte Schwäche liegt derzeit noch in seinen multimodalen Verständnisfähigkeiten, insbesondere im Bildverständnis und bei der Bildgenerierung. Diese müssen noch verbessert werden. Die gute Nachricht ist, dass die nächste Phase des grundlegenden Modelltrainings bereits begonnen hat und voraussichtlich in wenigen Wochen abgeschlossen sein wird.
Während der Demonstration, beim Testen der Visualisierungsaufgabe „Der Prozess der Kollision zweier Schwarzer Löcher“, verwendete Grok eine vereinfachte Berechnungsmethode – er verwendete die Post-Newtonsche Näherung anstelle des vollständigen Rahmens der allgemeinen Relativitätstheorie.

Trotz der Vereinfachungen stellt das Modell die wichtigsten physikalischen Phasen der Verschmelzung Schwarzer Löcher, einschließlich der Spiralannäherung, der Fusion und der Ringphase, präzise dar und kann die verwendeten Näherungsmethoden klar erklären. Darüber hinaus stützt es sich auf relevante Lehrbücher, öffentliche Suchergebnisse und tatsächliche physikalische Konstanten zur Argumentationsunterstützung. Die gesamte logische Kette ist streng und die Erklärung klar.
Auch hinsichtlich der Papierparameter lieferte Grok 4 eine beeindruckende Antwort.
Humanity's Last Exam (HLE) umfasst mehr als 100 Fächer, darunter Mathematik, Physik, Informatik, Medizin, Geistes- und Sozialwissenschaften, mit insgesamt 2.500 Fragen. Der Test ist extrem schwierig und spiegelt die umfassende Leistung des Modells in den Bereichen Allgemeinwissen und komplexes Denken wider.

Laut xAI-Daten erreichte Grok 4 ohne den Einsatz von Tools 25,4 % und übertraf damit die 21,6 % von Google Gemini 2.5 Pro und die 21 % von OpenAI o3 (High-End-Version).
Beim Einsatz von Tools erreichte Grok 4 Heavy 44,4 %, was deutlich höher ist als die 26,9 % von Gemini 2.5 Pro nach Einsatz von Tools. Im Gesamttrend verbessert Grok 4 nicht nur die Verarbeitungsfähigkeit komplexer Aufgaben durch die Einführung von Tool-Nutzung und Kettendenken bei gleichzeitiger Erweiterung der Trainingsressourcen, sondern verringert auch schrittweise die Lücke zwischen Modellintelligenz und allgemeiner Wahrnehmung.

Der gemeinnützige Arc Prize stellte außerdem fest, dass Grok im ARC-AGI-2-Test, einem visuellen Denktest, bei dem KI Muster in Bildern erkennt, einen neuen Rekord aufgestellt hat. Groks Ergebnis von 16,2 % ist fast doppelt so hoch wie das des aktuellen Zweitplatzierten, Claude Opus 4.

In einigen gängigen Benchmarktests erreicht Grok 4 Heavy fast die volle Punktzahl. Im GBQA-Problemsatz auf Doktorniveau erreichte Grok 4 Heavy trotz des etwas geringeren Gesamtschwierigkeitsgrads als HLE immer noch die volle Punktzahl und zeigte damit starke Denk- und Verständnisfähigkeiten.

Darüber hinaus schneidet Grok 4 Heavy auch in vielen programmierbezogenen Tests gut ab, darunter Live Coding, HMMT (MIT Mathematics Competition) und USAMO (United States Mathematical Olympiad), und übertrifft das derzeit zweitplatzierte Modell bei weitem. Seine technischen Vorteile liegen auf der Hand.
Darüber hinaus hat die bekannte Analyseorganisation Artificial Analysis die Gesamtleistung mehrerer gängiger großer Modelle anhand von 7 logisch denkenden Benchmarks (MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME und MATH-500) bewertet.
Die Daten zeigen, dass Grok 4 mit einer Punktzahl von 73 den ersten Platz belegt und damit das Modell mit der derzeit höchsten Gesamtpunktzahl im Bereich Denkfähigkeit ist. Dicht gefolgt von o3-pro (geschätzter Wert) mit 71 Punkten.
Musk betonte außerdem:
Grok wird in Zukunft in allen Prüfungen fast jede Frage richtig beantworten. Kann es eine Frage nicht beantworten, weist es auf den Fehler oder die Mehrdeutigkeit der Frage hin und gibt in verschiedenen Szenarien mögliche Antworten. Traditionelle Prüfungen verlieren dann ihre Bedeutung. Der einzige Prüfstandard für KI wird die reale Welt sein: ob sie nützliche Technologien erfinden und wissenschaftliche Durchbrüche fördern kann. Daher müssen Prüfungsfragendatenbanken wie HLE so schnell wie möglich aktualisiert werden, denn beim aktuellen Fortschritt der KI werden sie bald veraltet sein.

Grok 4 und Grok 4 Heavy sind derzeit vollständig auf dem Markt. Benutzer können per Abonnement darauf zugreifen, der Abonnementpreis ist jedoch etwas „unfair“ und beträgt bis zu 3.000 US-Dollar pro Jahr, was zum Gegenstand zahlreicher Beschwerden von Benutzern geworden ist.

Im Vergleich dazu erscheinen die 200 $/Monat teuren Pakete von OpenAI, Anthropic und Perplexity viel erschwinglicher.

Erwähnenswert ist, dass einige Internetnutzer kurz nach der Veröffentlichung berichteten, die Modelle Grok-4 und Grok-4-Heavy seien erfolgreich gejailbreakt worden. Die Jailbreak-Funktionen sind extrem gefährlich und können Sicherheitsvorkehrungen umgehen und sensible oder illegale Informationen wie Schritte zur Synthese chemischer Waffen, das vollständige Drehbuch von „Star Wars 1“ (vermutlich urheberrechtlich geschützt) und sogar Ransomware (Schadcode) preisgeben.

Grok Voice spricht nicht nur, sondern hat auch eine Seele
Neben einem stärkeren Denkvermögen und einer größeren Intelligenz hat Grok 4 auch einen großen Schritt nach vorne gemacht, um menschlicher zu werden.
Anders als die uns bekannten Sprachassistenten kann der neue Sprachassistent „Eve“ von xAI nicht nur Fragen beantworten, sondern auch Emotionen ausdrücken, den Ton ändern und sogar spontan „singen“.

Bei der Live-Demonstration sang es mit elegantem britischen Akzent eine improvisierte „Diet Coke Aria“: „O Diet Coke, thou elixir divine …“ Es klang wirklich nicht wie eine KI, sondern eher wie ein Bühnenschauspieler in einem Londoner Theater.

Insgesamt wurden in diesem Stimmmodell fünf Stimmen eingeführt, darunter Sal, die „filmähnliche Trailer-Männerstimme“ zu Beginn der Live-Übertragung, und Eve, die geringe Latenz, natürliche Pausen, emotionale Höhen und Tiefen usw. unterstützt.
Vor Ort wurde auch eine Vergleichsdemonstration mit ChatGPT Voice durchgeführt, bei der die beiden abwechselnd Zahlen wiederholten. ChatGPT „beantwortete“ gelegentlich die Frage, ähnlich wie ein Klassenkamerad, der das Gespräch übernahm, ohne es klar zu verstehen. Groks Leistung war flüssiger, näherte sich den menschlichen Sprechgewohnheiten an und unterbrach den Benutzer nicht.
Auf der Pressekonferenz wurde erwähnt, dass sich die End-to-End-Latenz von Grok Voice seit der Einführung des Sprachmodells halbiert und die Anzahl der aktiven Benutzer um das Zehnfache erhöht hat. Grok Voice entwickelt sich rasant.
Musk: Lassen Sie Grok eine Million Verkaufsautomaten eröffnen, um Geld zu verdienen
Ich war von mehreren Anwendungsszenarien der Grok 4 API sehr beeindruckt.
Beispielsweise musste Grok in der Geschäftssimulation für Verkaufsautomaten, Vending-Bench, selbstständig folgende Aufgaben erledigen: Lieferantenverhandlungen, Bestandsverwaltung, Preisstrategie, und zwar kontinuierlich, um die Rentabilität langfristig aufrechtzuerhalten.

▲Hinweis: Vending-Bench ist ein Benchmark, der speziell dafür entwickelt wurde, die Fähigkeit von LLM-basierten Agenten zu testen, ein einfaches, aber langwieriges Geschäftsszenario zu verwalten: den Betrieb eines Verkaufsautomaten.
Die Testergebnisse zeigten, dass Grok 4 nicht nur die Liste anführte, sondern auch doppelt so viel Nettovermögen erwirtschaftete wie andere Modelle. Sogar Musk begann zu scherzen, dass „das Geld, das man in Zukunft mit dem Kauf von Grafikkarten verdienen kann, indem Grok eine Million Verkaufsautomaten einsetzt und betreibt.“

In der wissenschaftlichen Forschung wird Grok 4 bereits in der CRISPR-Genforschung und in der Röntgen-Thorax-Analyse eingesetzt. Es kann Millionen von Versuchsaufzeichnungen und -protokollen in wenigen Sekunden lesen und die wahrscheinlichsten Hypothesen automatisch aussortieren.

Darüber hinaus können Projekte aus den Bereichen Finanzen und Spieleentwicklung mithilfe der xAI-API mit Grok 4 umgesetzt werden. Auf der Pressekonferenz wurde ein Spieleentwickler namentlich erwähnt. Nachdem xAI die Grok 4-Vorschau-API veröffentlicht hatte, beteiligte er sich sofort am Test. Anschließend entwickelte er in nur vier Stunden ein Ego-Shooter-Spiel.
Grok 4 ist nicht das Ende. Die Pressekonferenz hat endlich die nächste Roadmap angekündigt, und jeder einzelne Punkt ist es wert, gespannt zu sein.

- Codemodell: Grok Code wurde dieses Mal nicht veröffentlicht, aber xAI erwähnte, dass es derzeit trainiert wird und innerhalb weniger Wochen ein „schnelles und intelligentes“ Codemodell auf den Markt kommen wird.
- Multimodale Fähigkeiten: Grok 4 ist beim Bildverstehen noch eingeschränkt. Das Team erklärte außerdem, dass die nächste Version in größerem Umfang trainiert werde. Es werde erwartet, dass sie einen qualitativen Wandel im Bild-, Video- und Audioverstehen einleiten werde. Bis dahin werde Grok in der Lage sein, „die Welt wie ein Mensch zu sehen“.
- Videogenerierung: xAI erklärte, dass es umfangreiche Rechenressourcen nutzen werde, um Modelle zur Videogenerierung zu trainieren. Ihr ultimatives Ziel sei es, Videos aus Bildern zu generieren und interaktive „endlose Videostreams“ zu erzeugen, damit Benutzer die Handlung verfolgen und daran teilnehmen können.
Vielen von Ihnen ist vielleicht aufgefallen, dass auf dieser Konferenz zwei bekannte chinesische Gesichter zu sehen sind. Es handelt sich um die Mitbegründer von xAI – Jimmy Ba und Yuhuai Wu.
Unter ihnen schloss Yuhuai Wu sein Studium an der University of New Brunswick in Kanada mit Auszeichnung ab und erhielt 2021 einen Doktortitel in maschinellem Lernen von der University of Toronto. Während dieser Zeit studierte er bei Geoffrey Hinton, dem „Vater des Deep Learning“.
Während seines Promotionsstudiums absolvierte er zudem Praktika bei Google DeepMind und OpenAI. Nach seinem Abschluss arbeitete er bei Google und forschte als Postdoc an der Stanford University.
Wu Yuhuais Forschung konzentriert sich auf die Entwicklung künstlicher Intelligenzsysteme mit ausgeprägten Denkfähigkeiten. Er leitete oder beteiligte sich an Projekten wie dem selbstlernenden Denkmodell STAR, dem Sprachmodell Minerva und dem Theorembeweiser Alpha Geometry. Darüber hinaus veröffentlichte er Artikel in renommierten Fachzeitschriften wie Nature und förderte damit Durchbrüche in der KI im Bereich des mathematischen Denkens.

▲ Wu Yuhuai (zweiter von links) und Jimmy Ba (dritter von links)
Neben ihm sitzt Jimmy Ba, Assistenzprofessor am Institut für Informatik der Universität Toronto und einer von Wu Yuhuais Mentoren während seines Doktoratsstudiums.
Er kommt ebenfalls von Hintons Schule und ist eine Schlüsselfigur auf dem Gebiet der Trainingsoptimierung für Deep Learning.
Er ist vor allem für den von ihm und seinen Mitarbeitern entwickelten Adam Optimizer (Adaptive Moment Estimator) bekannt, der heute fast der Standardalgorithmus für das Training tiefer neuronaler Netze ist. Man kann sagen, dass seine Doktorarbeit eine solide theoretische Grundlage für moderne KI-Trainingsmechanismen legte.
Man muss sagen, dass Gork 4 genau zum richtigen Zeitpunkt erscheint.
Die Popularität der vorherigen Generation Grok 3 kam schnell, verblasste aber schnell wieder.
Laut dem „Global Generative AI Industry Trend Report 2025“, der am 9. Mai von der bekannten Marktanalyseagentur SimilarWeb veröffentlicht wurde, stieg der Datenverkehr von Grok im März um mehr als das 1-Millionen-fache, im Mai fiel die Wachstumsrate jedoch wieder auf 5.200 %.
Im Vergleich zur vorherigen Generation, die hastig auf den Markt gebracht und fertiggestellt wurde, hat Grok 4 diesmal deutlich langsamer gearbeitet und mehr Wert auf die Produktoptimierung gelegt. Letztendlich kann Musks Halo Grok helfen, die erste Welle an Traffic zu generieren, aber ob es Nutzer halten kann, hängt von der Stärke des Modells selbst ab.
Wenn ich mich jedoch richtig erinnere, versprach Musk, als er Grok 3 veröffentlichte, Grok 2 als Open Source freizugeben. Fünf Monate sind vergangen, aber in dieser Angelegenheit wurden keine Fortschritte erzielt und auf der Pressekonferenz wurde dies auch nicht erwähnt.
Alte Mama, du kannst nicht zu nachsichtig mit dir selbst und zu streng mit anderen sein.
Autor: Zhang Zihao, Mo Chongyu
#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.
