Gerade hat OpenAl das Agent-Toolkit veröffentlicht. Netizen: Vielen Dank, Manus AI
OpenAI hat gerade eine Reihe neuer Tools und APIs veröffentlicht, die für die Erstellung von KI-Agenten entwickelt wurden und Entwicklern dabei helfen sollen, KI-Agenten (intelligente Agenten) einfacher zu erstellen, die Aufgaben automatisch erledigen können.
OpenAI ist davon überzeugt, dass die im vergangenen Jahr eingeführten fortschrittlichen Argumentationen, multimodalen Interaktionen und anderen Modellfunktionen zwar den Grundstein für Agent gelegt haben, Entwickler jedoch beim Erstellen von Agenten auf Produktionsebene immer noch auf viele Schwierigkeiten stoßen werden.
Zu diesem Zweck umfassen die dieses Mal veröffentlichten Kernprodukte eine neue Responses-API, drei integrierte Tools und ein Open-Source-Agents-SDK.
Die flusssparende Version sieht wie folgt aus:
- Responses API: Eine neue API-Schnittstelle, die die Einfachheit der Chat Completions API mit der Leistungsfähigkeit des Assistants API-Tools kombiniert
- Web-Suchtool: Ein Tool, mit dem Models auf das Internet zugreifen können, um die neuesten Informationen abzurufen
- Dateisuchtool: Erweitertes Tool zum Abrufen relevanter Informationen aus großen Dokumentenmengen
- Computer Use Tool: Ein Tool zur Automatisierung des Computerbetriebs, das vom Computer-Using Agent (CUA)-Modell unterstützt wird und es der KI ermöglicht, die Computerschnittstelle wie ein Mensch zu bedienen
- Agenten-SDK: Auf Basis des Swarm-Frameworks aktualisiert, einem Open-Source-Framework, das die Orchestrierung von Multi-Agent-Workflows vereinfacht
Insbesondere kombiniert die Responses API die Einfachheit der Chat Completions API (wird hauptsächlich zum Generieren von Konversationsantworten verwendet) und die Tool-Nutzungsfunktionen der Assistants API (die es der KI ermöglicht, externe Funktionen aufzurufen, wie z. B. das Überprüfen von Informationen und das Bedienen von Dingen), und bildet so eine neue Grundlage für die Erstellung von Agentenanwendungen.
Was die integrierten Tools betrifft, unterstützt das Websuchtool die Modelle GPT-4o und GPT-4o-mini, um die neuesten Informationen im Web abzurufen und klare Referenzen bereitzustellen. Im SimpleQA-Benchmarktest erreichten die Suchvorschauversionen dieser beiden Modelle beeindruckende Genauigkeitsraten von 90 % bzw. 88 %.
Das aktualisierte Dateisuchtool ist noch leistungsfähiger, unterstützt mehrere Dateiformate, optimiert Abfragen, filtert Metadaten und passt die Sortierung an, sodass Entwickler schnell wichtige Informationen aus Bergen von Dokumenten finden können.
Das Computernutzungstool basiert auf demselben CUA-Modell (Computer-Using Agent) wie Operator, das vom Modell generierte Maus- und Tastaturoperationen erfasst und in den Benchmarks OSWorld, WebArena und WebVoyager jeweils Werte von 38,1 %, 58,1 % und 87 % erreicht.
OpenAI hat außerdem das Open-Source-Agents-SDK auf den Markt gebracht, das speziell darauf ausgelegt ist, die Orchestrierung von Multi-Agent-Workflows zu vereinfachen.
Im Vergleich zum im letzten Jahr veröffentlichten experimentellen Swarm-Framework wurde dieses neue SDK erheblich verbessert. Es bietet eine einfach zu konfigurierende LLM-Integration mit integrierten Tools, intelligenter Übergabekontrolle zwischen Agenten, konfigurierbaren Sicherheitsprüfungen, visueller Nachverfolgung und anderen Funktionen. Es eignet sich für die Automatisierung des Kundensupports, die Generierung von Inhalten in mehreren Schritten.
Einige frühe Testanwender machen bereits echte Fortschritte mit diesen neuen Tools.
In den auf der offiziellen Website aufgeführten Fällen nutzt Hebbia Web-Suchtools, um Vermögensverwaltern und Rechtsanwälten dabei zu helfen, umsetzbare Erkenntnisse aus riesigen Datenmengen zu gewinnen;
Unify und Luminai verwenden Computertools, um komplexe Betriebsprozesse zu automatisieren, insbesondere für herkömmliche Systeme, denen APIs fehlen. Box verwendet Agents SDK, um schnell Anwendungen für die Datensuche für Unternehmen zu erstellen und bereitzustellen.
Nach der Veröffentlichung des Produkts machten Internetnutzer auch Witze im Kommentarbereich von OpenAI, und einige Internetnutzer hinterließen sogar spezielle Nachrichten, um Manus AI zu danken.
Während der Live-Übertragung heute um 1 Uhr morgens zeigte uns der Moderator auch einen Anwendungsfall des Agenten „Personal Stylist“, um die Fähigkeiten verschiedener neuer Tools zu demonstrieren.
Beispielsweise nutzten sie zunächst ein Dateisuchtool, um die Kleidungspräferenzdaten der Benutzer (z. B. „Kevin“) zu durchsuchen, und das System konnte die Kleidungsstile dieser Personen problemlos aussortieren.
In Kombination mit dem Web-Suchtool kann das System dann anhand des Standorts des Benutzers nach verwandten Geschäften in der Nähe suchen („Tokio“ wird in der Demonstration als Kevins Standort verwendet) und empfiehlt Kevin Patagonia-Geschäfte in Tokio.
Dann kam das Computer Use Tool und bediente automatisch die Webschnittstelle, um eine schwarze Patagonia-Jacke für Kevin zu kaufen. Der gesamte Prozess verlief reibungslos und reibungslos – klicken Sie, ziehen Sie die Informationen und geben Sie sie ein, genau wie eine echte Person, die sie steuert.
Abschließend wird auch die Übergabefunktion zwischen Agenten demonstriert. Ein Agent übergibt die Rückgabeanfrage nahtlos an den Kundendienstmitarbeiter, der Funktionen wie das Abrufen von Passwörtern und das Einreichen von Rückerstattungsanträgen aufrufen kann, um Benutzern bei der Abwicklung der Rückgabe von Patagonia-Jacken zu helfen.
Man kann sagen, dass diese KI-Agenten durch die stillschweigende Zusammenarbeit mit neuen Tools und APIs nicht nur Benutzerpräferenzen verstehen, Echtzeitinformationen erhalten und komplexe Vorgänge ausführen können, sondern auch flexibel zwischen verschiedenen Aufgaben wechseln können und so den gesamten Prozess von der Empfehlung über den Kauf bis zur Rückgabe perfekt abdecken.
Was die Anordnung der bestehenden API betrifft, erklärte OpenAI, dass es die Chat Completions API weiterhin vollständig unterstützen wird, um neue Modelle und Funktionen für Entwickler bereitzustellen, die keine integrierten Tools benötigen.
Basierend auf dem Feedback aus der Betaversion der Assistants API haben sie wichtige Verbesserungen in die Responses API integriert. Sie planen, die Assistants API Mitte 2026 nach der Angleichung der Funktionen offiziell zu deaktivieren, und werden einen detaillierten Migrationsleitfaden bereitstellen.
Die Preise für neue Tools werden ebenfalls neu veröffentlicht. Die Websuche beträgt 30 US-Dollar für die GPT-4o-Suche und 25 US-Dollar für die GPT-4o-Mini-Suche pro 1.000 Abfragen und der Dateispeicher beträgt 0,1 US-Dollar pro GB und Tag (das erste GB ist kostenlos).
OpenAI gab an, dass die Modellfunktionen immer agentenähnlicher werden und die Integration zwischen APIs weiter vertiefen und neue Tools bereitstellen werden, die bei der Bereitstellung, Bewertung und Optimierung von Agenten in Produktionsumgebungen helfen.
Jensen Huang, CEO von Nvidia, sagte einmal, dass in Zukunft die IT-Abteilung jedes Unternehmens in die „HR-Abteilung“ von AI Agent umgewandelt wird.
Von der Verwaltung von Menschen bis hin zur Verwaltung von KI werden Agenten bald zu einem wichtigen Bestandteil der Belegschaft werden und die Produktivität in verschiedenen Branchen verbessern. Das dieses Mal veröffentlichte Toolset ist nur ein wichtiger Schritt, um Entwicklern und Unternehmen beim Aufbau, Einsatz und Ausbau zuverlässiger und effizienter KI-Agenten zu helfen.
Bisher mussten Entwickler verschiedene APIs kombinieren und komplexe Koordinationslogiken schreiben, um KI-Agenten zu erstellen. Neue Tools vereinfachen diesen Prozess jedoch erheblich.
Die Responses API integriert mehrere Funktionen in einer einfachen Schnittstelle, während die integrierten Tools der KI die Fähigkeit verleihen, „wahrzunehmen“ und zu „handeln“, und das Agents SDK ein Standard-Framework für die Koordinierung mehrerer Agenten bereitstellt.
Durch die Senkung der technischen Schwelle können mehr Unternehmen schnell KI-Agenten entwickeln und einsetzen. Dies könnte die wahre Bedeutung dessen sein, was OpenAI das „erste Jahr der Agenten“ nennt – die Möglichkeit, dass KI nicht mehr auf Chatboxen beschränkt ist, sondern in reale Arbeitsabläufe integriert werden kann und zu Ihrem „digitalen Assistenten“ oder sogar „digitalen Kollegen“ wird.
Im Anhang finden Sie die AMA-Fragen und Antworten:
F: Welches Betriebssystem eignet sich am besten für die Computernutzung: Linux, Mac oder Windows? Ist eine grafische Oberfläche (UI), ein Terminal oder andere Methoden besser? Welche Anwendungen funktionieren auf Ihrem Computer am besten oder spielt das keine Rolle?
A: Das CUA-Modell wurde in erster Linie für Webaufgaben trainiert, aber erste Benutzer haben festgestellt, dass es auch bei Desktop-Anwendungen überraschend gut funktioniert. Allerdings steht es noch am Anfang und es gibt noch viel zu verbessern!
F: Werden Sie TypeScript SDK bereitstellen?
A: Ja! Wir werden das TypeScript SDK bald veröffentlichen, also bleiben Sie dran!
F: Werden wir in Zukunft o1 pro in der API sehen?
A: Ja, wir planen, es bald in der Antwort-API zu veröffentlichen!
F: Müssen wir die Docker-Umgebung selbst verwalten, um Computerfunktionen nutzen zu können?
A: Wenn Sie möchten, können Sie die Docker-Umgebung selbst verwalten, Sie können aber auch einen Cloud-Dienst wie @browserbasehq oder @scrapybara nutzen.
F: Wann wird Operator in der API verfügbar sein?
A: Ab heute können Sie die gleiche Funktionalität wie Operator in der API nutzen! Wir haben das CUA-Modell bereitgestellt, das den Operator in der neuen Responses-API steuert.
F: Erwägen Sie die Bereitstellung integrierter virtueller Maschinen (VMs) zur Unterstützung der „Computernutzung“ oder arbeiten Sie mit Partnern zusammen, um die Notwendigkeit des Aufbaus einer Umgebung zu verringern?
A: Es gibt noch keine Pläne dafür, aber Sie können sich die CUA-Beispiel-App ansehen, die einige Beispielumgebungen, darunter @scrapybara und @browserbasehq, für Remote-Hosting enthält.
F: Wie kann die Privatsphäre während des gesamten Agentenübergabeprozesses gewährleistet werden? Gibt es eine Möglichkeit, den Datenschutz der Benutzer bei der Interaktion mit Agent zu verbessern?
A: Wir verfügen über mehrere Datenschutzmechanismen. Das Agenten-SDK unterstützt vom Entwickler definierte Sicherheitsmaßnahmen (Leitlinien) für die Eingabe-/Ausgabevalidierung. Darüber hinaus können Sie input_filter verwenden, um den während der Übergabe übergebenen Nachrichtenkontext einzuschränken.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo