Gerade hat OpenAI die ChatGPT-Version von Manus veröffentlicht! Ultraman: Spüren Sie den AGI-Moment

Juli 17, 2025 Eskere Guru

In den letzten sechs Monaten war Agent eines der am häufigsten erwähnten Konzepte in der KI-Branche.

Fast alle Hersteller sprechen über Agent. Es gibt zwar zahlreiche Konzepte und Demos, aber für eine wirkliche Implementierung auf Produktebene fehlt immer ein vollständiges Ausführungssystem – eines, das komplexe Ziele versteht, mehrere Tools zur Verknüpfung von Aufgabenprozessen nutzt und jederzeit Aufgabenunterbrechungen, -änderungen und -wiederherstellungen unterstützt und sich optimal an den Arbeitsablauf des Benutzers anpasst.

Gerade hat OpenAI die ChatGPT-Agent-Funktion offiziell veröffentlicht.

Durch die Integration von Operator + Deep Research + ChatGPT-Ontologie müssen Benutzer nur die Aufgabe beschreiben, und ChatGPT Agent kann selbstständig die erforderlichen Tools bestimmen, automatisch auf Webseiten zugreifen, Informationen extrahieren, Code ausführen, Folien oder Tabellen generieren usw. und kann Schritte in Echtzeit anzeigen, Unterbrechungen akzeptieren und Anweisungen während der Ausführung ändern.

Nach der Konferenz schrieb OpenAI-CEO Sam Altman in den sozialen Medien:

Als ich sah, wie der ChatGPT-Agent Computer zur Erledigung komplexer Aufgaben nutzte, war das für mich ein echter „AGI-Gefühl“-Moment. Es war etwas ganz Besonderes, einem Computer beim Denken, Planen und Ausführen zuzusehen.

Die Highlights sind wie folgt:

ChatGPT Agent kombiniert Operator, Deep Research und ChatGPT-Ontologie zu einem, um ein einheitliches intelligentes Agentensystem aufzubauen.
Integrierter Grafik-/Textbrowser, Terminal- und API-Aufrufer und andere Tools, Unterstützung der Mobiltelefonnutzung und automatisches Senden von Ergebnissen nach Abschluss der Aufgabe;
Kann eine Verbindung zu Anwendungen von Drittanbietern wie Gmail und GitHub herstellen und ist tief in den tatsächlichen Arbeitsablauf des Benutzers eingebettet.
Es ist in mehreren Benchmarktests führend und seine Gesamtleistung zählt zu den besten der Branche.
Pro-Nutzer haben ein monatliches Kontingent von 400 Anrufen, andere zahlende Nutzer haben ein monatliches Kontingent von 40 Anrufen. Das Kontingent kann bei Bedarf erweitert werden.

ChatGPT Agent ist offiziell gestartet, es kann PPT speichern und schreiben, Ihr Browser wird von AI übernommen

Ab heute können Sie diese Funktion in jeder Konversation aktivieren, indem Sie zum Dropdown-Menü „Tools“ in der unteren linken Ecke der Chat-Oberfläche gehen und „Agentenmodus“ auswählen.

Beschreiben Sie einfach die Aufgabe, die Sie erledigen möchten, und ChatGPT durchsucht die Site intelligent, filtert die Ergebnisse, fordert Sie bei Bedarf sicher zur Anmeldung auf, führt Code aus, führt Analysen durch und gibt sogar bearbeitbare Folien und Tabellen aus, die die Aufgabenergebnisse zusammenfassen.

Der gesamte Ausführungsprozess ist visuell – die Arbeitsschritte werden in Echtzeit auf dem Bildschirm angezeigt und Benutzer können den Vorgang jederzeit unterbrechen, Anweisungen ändern oder sogar manuell „über den Browser übernehmen“, um ihn fortzusetzen und so sicherzustellen, dass die Aufgabe immer Ihren Zielen und Anforderungen entspricht.

In einer Demonstration heute früh hat OpenAI die Anwendungsfähigkeiten von ChatGPT Agent in realen Szenarien demonstriert.

Beispielsweise war die Vorbereitung einer bevorstehenden Hochzeit schon immer ein schwieriges Problem. Jetzt genügt eine Anfrage, und der ChatGPT-Agent erstellt schnell eine virtuelle Umgebung. Er entscheidet selbstständig, ob ein Browser, ein Textparser oder ein Terminal aufgerufen werden soll, ruft das Hochzeitsdatum ab, prüft das Wetter am Veranstaltungsort, empfiehlt passende Anzüge und wählt Hotels aus. Während dieses Prozesses kann das Modell mit OpenAI-Forschern interagieren und an den entsprechenden Knotenpunkten eine Bestätigung der Anforderungen anfordern.

Noch wichtiger ist, dass Benutzer die Aufgabe jederzeit unterbrechen können.

Als der Agent beispielsweise einen Anzug empfahl, fügte ein OpenAI-Forscher vorübergehend die folgende Anfrage ein: „Helfen Sie mir, ein Paar schwarze Abendschuhe in Größe 9,5 zu finden.“ Das Modell unterbrach die aktuelle Aufgabe sofort und wandte sich der neuen Anfrage zu.

Ebenso fordert der Agent bei Bedarf proaktiv weitere Informationen von Ihnen an, um sicherzustellen, dass die Aufgabe stets Ihren Zielen entspricht. Dauert eine Aufgabe länger als erwartet oder gerät sie ins Stocken, können Sie sie pausieren, eine Fortschrittsübersicht anfordern oder sie einfach abbrechen und die bereits vorhandenen Teilergebnisse abrufen.

„Dieser unterbrechbare, mehrrunden Konversationsmechanismus ist einer der Kernpunkte unseres Modelltrainings dieses Mal“, erklärte der OpenAI-Forscher.

Hinter dieser Fähigkeit steht die einheitliche Integration von drei Hauptsystemen durch ChatGPT Agent: Operator bietet Funktionen zur Interaktion mit Webseiten und unterstützt automatisches Scrollen, Klicken und Ausfüllen von Formularen; Deep Research zeichnet sich durch Informationsintegration und -analyse aus; und die ChatGPT-Ontologie ist für das Verständnis natürlicher Sprache und intelligentes Denken verantwortlich.

Der ChatGPT-Agent wird durch bestärkendes Lernen für komplexe Aufgaben trainiert. Bisher hatten alle drei ihre eigenen Schwächen: Der erste war schwer gründlich zu analysieren, und der zweite konnte keine Webseiten bedienen. Der Agent vereint die Vorteile aller drei in einem und wird durch Tools wie Browser, Terminals und API-Aufrufer ergänzt, um ein vollständiges Ausführungssystem zu bilden.

Benutzer können den Agentenmodus nicht nur auf dem Desktop, sondern auch auf dem Mobiltelefon starten.

Nach Abschluss der Aufgabe wird automatisch eine Benachrichtigung über das Ergebnis gesendet. In der zweiten Demonstrationsaufgabe luden OpenAI-Forscher Stickermuster des Teammaskottchens Bernie Doodle in die ChatGPT-App hoch. Der Agent rief automatisch die API zur Bildgenerierung auf, um den Stickerstil zu entwerfen, griff über den Browser auf die E-Commerce-Plattform zu, um Preisvergleiche durchzuführen, Stile auszuwählen und den Warenkorb zu erweitern, und sortierte schließlich die Bestelldetails der individuellen Sticker.

Um einen sicheren, flexiblen, übersichtlichen und kontrollierbaren Ablauf zu gewährleisten, übernimmt der Nutzer bei der Zahlung von Beträgen selbstverständlich nur noch die manuelle Übernahme des Browsers zur Durchführung.

Über Konnektoren können Benutzer auch alltägliche Anwendungen wie Gmail und GitHub mit ChatGPT verbinden, sodass das Modell kontextbezogene Inhalte wie E-Mails, Kalender oder Code-Repositories lesen und Aufgaben wie das Zusammenfassen des Postfachinhalts von heute oder das Suchen nach freien Besprechungsterminen für die nächste Woche ausführen kann.

Ein typischeres Anwendungsszenario besteht darin, dass OpenAI-Forscher den ChatGPT-Agenten seine Leistung in mehreren Benchmarks zusammenfassen und in einer Diashow darstellen lassen können. Nach Erhalt des Befehls ruft der Agent den Google Drive-Connector auf, um die Datendatei zu lesen, Code zum Zeichnen von Diagrammen in das Terminal zu schreiben und eine vollständige PPT zu erstellen.

Diese Art der Automatisierungsfunktion spiegelt die tiefe Einbettung des Agenten in den Arbeitsablauf wider.

Es ist jedoch ersichtlich, dass die vom ChatGPT-Agenten generierte PPT im Hinblick auf die Designästhetik im Allgemeinen durchschnittlich ist, und obwohl Tabellenkalkulationen zum Bearbeiten von ChatGPT hochgeladen oder als Vorlagen verwendet werden können, unterstützt die generierte PPT derzeit keine sekundären Änderungen.

Es ist zu beachten, dass OpenAI dem Agenten nicht wie einem Menschen das Öffnen von PPT- oder Excel-Dateien und das Einfügen von Textfeldern und Formeln per Klick ermöglicht, sondern direkt Code zur Erstellung von Dokumenten generiert. Der Vorteil dieses Ansatzes besteht darin, dass er die natürlichen Vorteile des Modells beim Schreiben von Code nutzt, Ineffizienzen oder Fehler durch simulierte Klickvorgänge vermeidet und den Verbrauch von Rechenressourcen reduziert.

In den Informationen heißt es, dass ChatGPT, wenn es PPT- oder Excel-Dateien direkt bearbeiten möchte, eine „virtuelle Maschine“ (d. h. eine virtuelle Computerumgebung, die über ChatGPT ausgeführt wird) starten muss, was mehr Rechenressourcen beansprucht.

Die direkte Codegenerierung ist einfacher und effizienter. Obwohl sie großes Potenzial bietet, ist es schwierig, dass sich diese Funktion kurzfristig auf Microsoft Office oder Google Workspace auswirkt.

Pro-Benutzer erhalten heute Zugriff auf die ChatGPT-Agent-Funktion. Plus- und Team-Benutzer können in den nächsten Tagen darauf zugreifen. Die Enterprise- und Education-Versionen werden in den kommenden Wochen verfügbar sein.

Pro-Benutzer können 400 Nachrichten pro Monat verwenden, und andere zahlende Benutzer können 40 Nachrichten pro Monat verwenden und über den flexiblen Kreditplan mehr kaufen.

Die „laufenden Punktestände“ werden auf der ganzen Linie aktualisiert, und das Agenten-Schlachtfeld begrüßt den stärksten Gegner

Die Verbesserung der Fähigkeiten des ChatGPT-Agenten spiegelt sich auch im Link „Laufender Punktestand“ wider.

Im Humanity's Last Exam (HLE), einem Benchmark zur Bewertung der Fähigkeit von KI, fachübergreifende Probleme auf Expertenniveau zu lösen, stellte das ChatGPT-Modell mit einem Agenten mit einem Pass@1-Score von 41,6 einen neuen Rekord auf. Nach Aktivierung der parallelen Ausführungsstrategie verbesserte sich der Score weiter auf 44,4.

In FrontierMath, dem derzeit anspruchsvollsten Mathematik-Benchmark mit extrem schwierigen und noch nie zuvor veröffentlichten Fragen, erreichte ChatGPT Agent eine Genauigkeitsrate von 27,4 % und verfügte gleichzeitig über die Fähigkeit zur Ausführung von Terminalcode, was viel höher ist als bei vorherigen Modellen.

In internen Benchmarktests dieser komplexen und hochwertigen Wissensarbeitsaufgabe erreichte ChatGPT Agent bei etwa der Hälfte der Aufgaben eine Ausgabequalität, die dem menschlichen Niveau entsprach oder es übertraf, und schnitt deutlich besser ab als die Modelle o3 und o4-mini.

ChatGPT-Agenten schnitten auch in einem internen Benchmark für Investmentbanking-Modellierungsaufgaben deutlich besser ab als Deep Research- und o3-Modelle. Jede Aufgabe wird anhand von Hunderten von Bewertungskriterien wie Formelkorrektheit und Formatierung bewertet.

Darüber hinaus stellte Agent beim BrowseComp-Benchmark, einem öffentlichen Test zur Informationssuchfunktion von Modellen, mit einer Genauigkeit von 68,9 % einen neuen Rekord auf – 17,4 Prozentpunkte mehr als Deep Research. Auch bei der WebArena-Bewertung schnitt seine Fähigkeit zur Ausführung von Webseitenaufgaben besser ab als die des auf o3 basierenden CUA-Modells.

Aus Plattformsicht ist der Browser die zugrunde liegende Schnittstelle der Agent-Funktionen.

In einem aktuellen Interview sagte Aravind Srinivas, CEO von Perplexity AI, dass der Browser die „Killer-App“ für KI sein wird. Seiner Meinung nach bringt der Browser natürlich alle Voraussetzungen mit, um KI wirklich „auf die Beine zu stellen“.

Im Gegensatz zu herkömmlichen Chatbots besteht die ideale Form eines KI-Agenten nicht darin, Text in einem Dialogfeld zu generieren, sondern praktische Aktionen auszuführen – vom Zugriff auf Webseiten, dem Extrahieren von Informationen, dem Ausfüllen von Formularen bis hin zur Durchführung plattformübergreifender Operationen. Dafür verfügt der Browser über die erforderlichen Betriebsberechtigungen und Kontexterfassungsfunktionen.

Der Browser kann Seiten direkt lesen, Klicks simulieren und Aufgaben automatisch ausführen, fast ohne zusätzliche Autorisierung.

Dabei koexistieren Nutzer und KI im selben interaktiven Raum: KI kann Aufgaben automatisch ausführen, und Nutzer können jederzeit unterbrechen oder übernehmen, um die durch Blackbox-Operationen entstehende Unsicherheit zu vermeiden. Diese Kontrollierbarkeit und Transparenz ist eine Fähigkeit, die viele aktuelle kontextbezogene Protokolle noch immer nur schwer erreichen.

Mit der offiziellen Einführung der ChatGPT-Agent-Funktion müssen nun alle Hersteller, die behaupten, Agenten zu sein, ihre Produktpfade möglicherweise noch einmal überprüfen.

Als sich ChatGPT von einem Sprachinteraktionstool in ein Ausführungssystem mit Funktionen zur Zusammenarbeit, Planung und Aufgabenübernahme verwandelte und begann, sich mit den tatsächlichen Arbeitsabläufen der Benutzer zu verbinden, wurde die Benutzerfreundlichkeitsschwelle von Agent in diesem Moment erheblich angehoben.

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.

iFanr | Originallink · Kommentare anzeigen · Sina Weibo