„Der Sieg der Technik“ liegt nicht nur bei Manus selbst, sondern auch darin, das gesamte Ökosystem intelligenter Agenten auf die Bühne zu bringen.
Seit seiner Einführung befindet sich Manus auf einer Achterbahnfahrt.
Vom Erstaunen am Anfang über die Beförderung zu großen Höhen bis hin zur Kritik, weil man überrumpelt und vermarktet wurde, geschah alles in nur einer Woche.
Unter den verschiedenen Stimmen haben wir eine Gruppe von Menschen gefunden, die am meisten mit Manus zu tun haben: Entwickler, die an Agenten und unterstützenden Einrichtungen beteiligt sind und in ihren Augen über Manus gesprochen haben – nicht über Marketing und Kontroversen, sondern nur über den technischen Aspekt.
Das Fazit ist nicht kompliziert: Manus ist zweifellos ein hervorragendes Produkt. Manus mit der Begründung des „Beschusses“ abzulehnen, ist eine unvernünftige Katastrophe.
Gleichzeitig ist das Wort „Naht“ unfair. Die Fähigkeiten und das Potenzial eines Allzweckagenten spiegeln sich nicht nur in der Anzahl der Tools wider, mit denen er verknüpft ist, sondern auch im Verständnis des Agenten selbst.
Die Kontroverse um Marketing und Beschuss wirft eine Frage auf: Welchen Wert hat Manus?
Die „Weltneuheit“ entstand aus dem Nichts
Freunde, die das große Ereignis der letzten Woche fast vergessen haben, hier ein kurzer Rückblick: Am späten Abend des 5. März ging Manus für interne Tests online. In der offiziellen Videopräsentation wurden mehrere wunderbare Anwendungsfälle veröffentlicht, die ursprünglich nur in PPT zu sehen waren und die alle Manus‘ einzigartiges Aufgabenverständnis und seine Ausführungsfähigkeiten demonstrierten.
Um ehrlich zu sein, ist Agent (intelligent) nicht neu, aber Manus‘ Aussage vom „ersten universell einsetzbaren intelligenten Agenten der Welt“ löste eine beispiellose Diskussionswelle aus und rückte den „Universalagenten“ in den Vordergrund.
Da für interne Tests die Beantragung eines Einladungscodes erforderlich ist und die Ausgabegeschwindigkeit langsam ist, löste dies einen Ansturm darauf aus, sich den Code zu schnappen – egal wie erstaunlich die Anwendungsfälle sind, Menschen, die sie nicht verwenden können, werden besorgt sein.
Dieser Einladungscode-Mechanismus brachte Manus versehentlich auf eine fast unheimliche Popularität und wurde sogar als „ein weiterer DeepSeek-Moment“ bezeichnet.
DeepSeek ist ein Model und Manus ist ein Agent. Es sind zwei völlig unterschiedliche Produkte. Allerdings sind die beiden Prozesse in gewisser Weise tatsächlich ähnlich.
DeepSeek erstellt Modelle, fängt jedoch nicht bei Null an, sondern erzielt technische Erfolge auf der Grundlage einer Reihe bestehender Open-Source-Arbeiten.
Ebenso ist Manus nicht der erste, der ein Allzweckwirkstoffprodukt herstellt. Im Jahr 2023 kam eine Reihe ähnlicher Produkte auf den Markt. Manus selbst erhält auch Hilfe durch viele Open-Source-Arbeiten. Das Team hat zuvor Monica, einen integrierten KI-Assistenten, entwickelt und umfangreiche Erfahrung im Agenten-Engineering gesammelt. Daher gilt Manus auch als technischer Triumph.
Was genau ist ein technischer Sieg?
Diese Frage muss auf die grundlegende Quelle dessen zurückgehen, was ein „universeller Agent“ ist.
Der Unterschied zwischen Menschen und Tieren liegt in der Herstellung und Verwendung von Werkzeugen. Diese Aussage gilt auch für Agenten – der Unterschied zwischen gewöhnlichen Agenten und Allzweckagenten besteht darin, dass letztere Werkzeuge aktiv aufrufen können.
„Viele Leute denken, dass ein Agent der ursprüngliche Gesprächsroboter ist. Wenn er mit einer Datenbank verbunden ist, wird er als Agent bezeichnet. Tatsächlich war die Definition eines Agenten immer, dass er in der Lage sein muss, Tools zu verwenden und tatsächlich Maßnahmen ergreifen zu können.“
Im Hinblick auf die spezifische Produktnutzung kann der Tool-Aufruf die Grenzen der Fähigkeiten des Agenten weiter verschieben. Jian Bai, der in der Agentenentwicklungs-Community aktiv ist, hat die Ausführungsfähigkeiten von Manus gesehen: das Schneiden von Videos.
„Die Wirkung des Schneidens ist eine andere Sache, aber es kann getan werden, es kann abgeschlossen werden und es wird Sie nicht ablehnen.“
Das Prinzip ist nicht kompliziert: Die Bearbeitungsaktion kann bis zu einem gewissen Grad im Code implementiert werden. Alternativ können einige Online-Tools aufgerufen werden, um den Bearbeitungsvorgang abzuschließen.
Die auf diese Weise abgeschlossene Bearbeitung ist natürlich grob und das fertige Produkt kann nicht mit der manuellen Bearbeitung verglichen werden, aber wie Jianbai sagte, wird Manus diese Anfrage nicht ablehnen, sondern aktiv nach Werkzeugen suchen, um sie abzuschließen. „Bei früheren Bewerbungen empfahl Ihnen der Agent möglicherweise eine Website oder ein Tool zum Schneiden von Videos, aber es gab kein solches End-to-End-Ergebnis.“
Er glaubt, dass dies das Verständnis des Manus-Teams widerspiegelt, das eine höhere Position einnimmt. „Ich denke, sie betrachten Code, einschließlich der gesamten Ausführungsumgebung des Codes, eher als Werkzeug denn als Ziel.“
In der Vergangenheit war es bei einigen ähnlichen Projekten das ultimative Ziel, einen Codeabschnitt bereitzustellen oder eine virtuelle Maschine einzurichten. Nach Manus‘ Verständnis ist das Entwerfen virtueller Maschinen zum Ausführen von Code nur eine Implementierungsmethode und dient dazu, einen bestimmten Zweck zu erfüllen .
„Ich denke, sie haben einen kognitiven Vorsprung“, sagte Jianbai. „Alle reden davon, den Agenten als Mensch zu behandeln, aber sie haben wirklich sorgfältig darüber nachgedacht, wie der Agent ein Subjekt ist.“
Schlüsseldifferenzierung
Ist die virtuelle Maschine also das Design, das Manus auszeichnet?
„Virtuelle Maschinen sind kein kreatives Design“, erklärte Zheng Qian, der ebenfalls an einem Allzweck-Agentenprodukt arbeitet.
Zheng Qians Unternehmen Convergence.ai brachte im Januar Proxy auf den Markt, ein Produkt, das auch als Allzweckagent fungiert, und schlug OpenAI im Webvoyage-Benchmark-Test knapp.
Vor nicht allzu langer Zeit stand Proxy auf der Produktsuche-Liste und Zheng Qian war damit beschäftigt, das Engineering-Team zu leiten, um den plötzlichen Zustrom an Datenverkehr zu bewältigen. Was sie vor sich haben, ist der Überseemarkt. Es zeigt sich, dass Allzweckagenten große Hoffnungen im In- und Ausland haben.
„OpenAI Operator ist eine virtuelle Maschine. Manus fügt dem Browser nach seiner Verwendung eine Codierungsausführung hinzu und fügt sie dann in eine virtuelle Maschine ein, um sie zu implementieren.“
Die Verwendung des Browsers ist ein Open-Source-Projekt mit 40.000 Sternen auf Github. Es entspricht dem Vorlegen eines Webbrowsers vor die „Augen“ des Agenten und kombiniert große Sprachmodelle mit visueller Erkennung . Benutzer müssen lediglich natürliche Sprache verwenden, damit der Agent tatsächliche Vorgänge an den Elementen auf der Webseite ausführen kann.
Early Proxy hat auch einen Weg ausprobiert, der der Browsernutzung ähnelt. „Auf diese Weise unterstützt es Benutzer beim Klicken, Ziehen usw. Das Ganze ist relativ einfach und direkt. Der Benutzer muss lediglich eine Aufgabe angeben und diese wird Schritt für Schritt ausgeführt.“
Diese Form ist relativ linear und kann komplexere Aufgaben nicht bewältigen. Mit anderen Worten: Wenn die Komplexität der Aufgabe zunimmt und der Benutzer detailliertere Anweisungen geben muss, wird sie zu einer Herausforderung für den Benutzer.
„Unser Unternehmen startete relativ früh und wir kommunizierten mehr mit OpenAI und H Company. Später, als OpenAI Operator herauskam, wurde der Agent sofort populär. Alle gingen schnell zu einer neuen Sache über, nämlich Agent Orchestrator.“
Der Aufbau eines gewöhnlichen Agenten kann einfach und grob durch „Stitching“ zusammengefasst werden. Um jedoch einen Generalagenten zu erstellen, muss es sich um ein Systemprojekt handeln.
„Sie können sich einen Agenten als eine Person vorstellen. Der komplexeste Teil ist das zentrale Entscheidungssystem – das Gehirn und die neuronale Übertragung. Der zweitkomplexeste Teil ist die Ausführungskonstruktion, die menschlichen Gliedmaßen und Terminals entspricht. Bei den Funktionsmodulen wie Berichtserstellung, Browser-Interaktion und Codeausführung, die Sie gerade erwähnt haben, handelt es sich im Wesentlichen um Fähigkeiten auf der Ebene der Toolkette.“
Menschen werden nicht mit der Fähigkeit zum Gehen geboren. Sie können nur willkürlich mit den Armen und Beinen winken, dann können sie krabbeln, stehen, stolpern, laufen lernen und schließlich lernen, ihre Gliedmaßen genau zu kontrollieren.
Der gesamte Lernprozess ist auch ein Prozess der allmählichen Reifung des Gehirns. Der Großteil der Arbeit von Proxy dreht sich um dieses „Gehirn“. Konkret ist es die dynamische Planung, für die der Planer verantwortlich ist.
„Es gibt den Witz, dass Planung die Zukunft nicht vorhersagen kann: Planung kann sehr gut durchgeführt werden, aber man weiß nicht, was in der Zukunft passieren wird. Das Gleiche gilt, wenn es auf einem Agenten platziert wird. Wenn es beispielsweise eine bestimmte Website durchsucht und auf eine Situation stößt, die nicht geöffnet werden kann, z. B. eine Revision oder ein Ablauf des Domänennamens oder ein direktes Herunterfahren usw., was sollte der Agent dann zu diesem Zeitpunkt tun? Dies erfordert dynamische Planung.“
▲ Während des eigentlichen Tests von Manus sind wir auf Probleme bei der Anmeldung und Verifizierung der Website gestoßen.
Ein typisches Szenario sind Verifizierungscodes. Proxy und Manus können einige einfache Verifizierungscodes lösen, aber diejenigen, die zu komplex sind, müssen dennoch an den Benutzer zurückgegeben werden oder können direkt übersprungen werden.
Zheng Qian erklärte, dass die Schwierigkeit im Detail liege: „Es sind alles Details und die Situationen sind sehr unterschiedlich. Wie man komplexe Aufgaben in der Planung umsetzt und gleichzeitig in der Lage ist, Informationen zurückzusenden – die Benutzerbasis ist riesig und es gibt alle möglichen seltsamen Dinge. Wie man verschiedene Szenarien abdeckt, ist eine große Schwierigkeit.“
Manus ist zu diesem Zeitpunkt noch nicht perfekt, aber es ist eine technische Offenbarung. „Der größte Erfolg liegt in der Tat im Engineering.“ William stimmt diesem Punkt zu. „Es kombiniert bestehende Modelle auf dem Markt, verbindet sie gut mit Tools und ermöglicht es Benutzern, zum ersten Mal zu sehen, welche Effekte ein Agent erzielen kann, der das Tool tatsächlich aufrufen kann. Ich denke, das ist ein hundertprozentiger technischer Sieg.“
Der wahre Sieg gehört der Ökologie
Manus ist wie das Kleinkind, das laufen lernt. Es kann große Diskussionen auslösen, nicht weil es wie weit gehen oder wie hoch es springen kann, sondern weil es genug Potenzial zeigt.
Dies ist möglicherweise sein größter Beitrag: Die Popularität von Manus hat nach und nach eine Reihe allgemeiner Agentenanwendungen und sogar Infrastrukturarbeiten zum Vorschein gebracht.
Die neueste Entwicklung ist, dass OpenAI die Responses API eingeführt hat, eine neue Version für Entwickler, nämlich Agentenentwickler.
In der Entwickler-Community hat Manus viele Ideen inspiriert. Jianbai arbeitete an einem Projekt zum Thema Agentenspeicher. Das Erscheinen von Manus veranlasste ihn, das Paradigma im Zusammenhang mit der Speicherspeicherung zu überdenken.
Die Speicherung des Gedächtnisses ist für die tatsächliche Arbeit des Agenten von entscheidender Bedeutung. Sie beeinflusst nicht nur, ob der Agent Erfahrungen aus früheren Aufgaben lernen und nutzen kann, sondern auch, ob er ein Gedächtnis über die Nutzungsgewohnheiten des Benutzers bilden und tatsächlich eine Personalisierung erreichen kann.
Darüber hinaus verfügen Allzweckagenten theoretisch über den größten Freiheitsgrad und können jedes Tool verknüpfen und aufrufen – sofern Latenz, Schnittstellenstandardisierung etc. gut genug sind. Das ist genau der Service, den Mittelklasseprodukte wie ACI bieten wollen.
Dies ist möglicherweise der erfolgreichste Punkt von Manus: Als derzeit ungewöhnlichster Fall von Allzweckagenten eröffnet es Raum für Fantasie und Erkundung einer Reihe unterstützender Einrichtungen .
„Tatsächlich können wir an Manus sehen, dass das Modell dem Projekt jetzt weit voraus ist.“ William glaubt, dass es in der Technik noch viel Raum für Erkundungen gibt. „Wir können im Projekt weiterhin etwas tun, um die Leistung dieses KI-Agentenprodukts zu verbessern. Meiner persönlichen Meinung nach ist die aktuelle Agenteninfrastruktur noch recht unausgereift, einschließlich Tool-Calling-Plattformen wie unserer oder dieser Art von Speicherschicht. Es gibt immer noch viele Richtungen in der Technik, die optimiert werden können.“
Dies ist auch das größte Gefühl, das wir haben, wenn wir mit der Entwickler-Community Kontakt aufnehmen: Sie sind aufgeregt und wollen es unbedingt versuchen. Die im Wort „universal“ enthaltenen Möglichkeiten sind lebendiger denn je .
Proxy wird bald eine iterative Version auf den Markt bringen, die auf der neuen Idee des Parallelagenten basiert. Zheng Qian hat das Feedback der Community beobachtet. Er hat gesehen, dass viele Benutzer Proxy auf eine Weise nutzen, an die sie nie gedacht hätten, und dass ständig neue Möglichkeiten entdeckt werden.
„Der endgültige Verwendungszweck der meisten Produkte ist wahrscheinlich nicht der Zweck, für den sie ursprünglich entwickelt wurden. Möglicherweise sind es die Benutzer, die Verwendungsmöglichkeiten entdecken, die wir noch nicht entdeckt haben. Wir warten auch darauf, dass dieser Moment kommt.“
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo