Alles, was Sie über den browserbasierten Agenten von OpenAI, Operator, wissen müssen
Mit der Veröffentlichung seiner Operator AI im Januar ist OpenAI endlich in das Rennen um die Agenten-KI eingestiegen. Das Agentensystem ist so konzipiert, dass es autonom im Namen seines Benutzers arbeitet, und ist darauf vorbereitet, mit bereits etablierten Branchenkonkurrenten wie Claudes Computer Use API und Microsofts Copilot-Agenten zu konkurrieren – zumindest, sobald es seinen Status als „Forschungsvorschau“ verliert. Hier finden Sie alles, was Sie über den neuen Agenten von OpenAI wissen müssen und wann Sie ihn möglicherweise selbst ausprobieren können.
Was ist Betreiber?
Der Operator von OpenAI ist eine Agenten-KI , was bedeutet, dass er darauf ausgelegt ist, auf der Grundlage der ihm zur Verfügung stehenden Informationen autonome Maßnahmen zu ergreifen. Aber im Gegensatz zu herkömmlichen Programmen sind KI-Agenten in der Lage, sich ändernde Bedingungen in Echtzeit zu überprüfen und entsprechend zu reagieren, anstatt einfach vorgegebene Befehle auszuführen. Auf diese Weise sind KI-Agenten in der Lage, eine Vielzahl komplexer, mehrstufiger Aufgaben auszuführen, die von der Transkription, Zusammenfassung und Generierung von Aktionselementen eines Geschäftstreffens über die Buchung des Fluges, der Hotelunterkünfte und des Mietwagens für einen bevorstehenden Urlaub auf der Grundlage der verschiedenen Zeitpläne Ihrer Familie bis hin zur autonomen Recherche von Themen und der Zusammenstellung mehrseitiger Studien zu diesen Themen reichen.
Der Operator funktioniert etwas anders als andere derzeit verfügbare Agenten. Während Claudes Computer Use eine API ist und die KI-Agenten von Microsoft innerhalb der Copilot-Chat-Benutzeroberfläche selbst arbeiten, ist Operator so konzipiert, dass er in einem dedizierten Webbrowserfenster funktioniert, das auf den Servern von OpenAI läuft und seine Aufgaben remote ausführt. Ihr lokaler Webbrowser hat nichts mit dem Prozess zu tun und kann auch dann normal verwendet werden, wenn Operator ausgeführt wird.
Die Operator-App basiert auf einem neuen „ Computer-Using Agent “-Modell (CUA), das wiederum auf GPT-4o aufbaut und die multimodalen Fähigkeiten der App bereitstellt. Laut OpenAI wurde CUA auf ähnliche Weise trainiert wie seine Argumentationsmodelle o1 und o3. Daher zerlegt das CUA-Modell komplexe Aufgaben in ihre Teilprobleme, bevor es versucht, sie nacheinander zu lösen, und macht einen Rückzieher, wenn es auf logische Hindernisse stößt.
Wann wurde Operator veröffentlicht?
OpenAI hat Operator am 23. Januar 2025 veröffentlicht. Es ist derzeit nur für Pro-Benutzer für 200 $/Monat in den USA über die Website Operator.chatgpt.com verfügbar. „Unser Plan ist es, auf Plus-, Team- und Enterprise-Benutzer auszudehnen und diese Funktionen in Zukunft in ChatGPT zu integrieren“, schrieb das Unternehmen in seinem Ankündigungsbeitrag .
Wie funktioniert Operator?
Benutzer können den Agenten über den ChatGPT-Startbildschirm aktivieren, der in einem Seitenfenster eine spezielle Webbrowserseite öffnet, damit der Operator seine Aufgaben ausführen kann. Die KI liefert eine fortlaufende Erzählung darüber, was sie gerade tut, und der Benutzer kann den Prozess jederzeit übernehmen. Der Bediener bittet den Benutzer um Hilfe bei bestimmten Aufgaben, wie z. B. der Anmeldung bei bestimmten gesicherten Websites, und holt die Bestätigung des Benutzers ein, bevor er wichtige Aufgaben ausführt. Es kann sowohl visuell (z. B. durch Screenshots) als auch taktisch mit Websites interagieren, indem es die Tastatureingaben und Mausklicks des Benutzers nachahmt.
Was kann der Betreiber und wie gut kann er das?
Da es auf den Browser beschränkt ist, kann der Betreiber derzeit nur einfache internetbasierte Aufgaben ausführen, z. B. Konzertkarten reservieren, DoorDash bestellen oder Instacart-Bestellungen ausfüllen. Das Unternehmen behauptet außerdem, dass der Agent in der Lage sein wird, Aufgaben wie die Buchung von Hotels und Fluggesellschaften, die Tischreservierung in Restaurants und sogar den Online-Einkauf zu automatisieren.
OpenAI hat Operator in einer Reihe von Branchen-Benchmarks gegen Anthropics Computer Use sowie den Mariner-Agenten von Google DeepMind antreten lassen und behauptet, dass Operator sie auf ganzer Linie geschlagen hat. Beim OSWorld-Benchmark , der misst, wie gut ein Agent Aufgaben wie das Zusammenführen von PDF-Dateien erledigen kann, übertraf CUA die Computernutzung um 38,1 % bis 22,0 % – als Vergleich: Menschen erzielen bei diesen Aufgaben durchschnittlich etwa 72 % Erfolg. Im WebVoyager-Benchmark übertraf CUA Mariner mit 87 % zu 83,5 %. Die Computernutzung erzielte nur lächerliche 56 %.
Die ersten Reaktionen der Benutzer auf den KI-Agenten waren jedoch gemischt. Kevin Roost, Kolumnist der New York Times, schrieb beispielsweise: „Alles in allem habe ich festgestellt, dass die Verwendung von Operator normalerweise mehr Mühe bereitete, als es sich lohnte.“ Das meiste, was es für mich bewirkt hat, hätte ich selbst schneller und mit weniger Kopfschmerzen erledigen können.“
„Selbst als es funktionierte“, fuhr er fort, „hat es vor dem Handeln so viele Bestätigungen und Zusicherungen erfordert, dass ich nicht das Gefühl hatte, einen virtuellen Assistenten zu haben, sondern eher das Gefühl, den unsichersten Praktikanten der Welt zu beaufsichtigen.“
Wie kann ich Operator selbst ausprobieren?
Um Zugriff auf den Operator-Agenten von OpenAI zu erhalten, müssen Sie sich für das Pro-Tier-Abonnement von OpenAI anmelden und dann über die Website „operator.chatgpt.com“ darauf zugreifen.