Dieses chinesische KI-Produkt kam über Nacht auf den Bildschirm! Das gesamte Internet fragt nach Einladungscodes, was nach DeepSeek möglicherweise die größte Überraschung ist
Fast zur gleichen Zeit, als Apple gestern Abend neue Produkte herausbrachte, wurde der gesamte Technologiekreis von einem Produkt namens Manus mitgerissen.
Im Vergleich zu Agenten wie Claude's Computer Use, die auch Multitasking durchführen oder Ihnen bei der Bestellung von Essen zum Mitnehmen und der Buchung eines Hotels helfen können, kann Manus mehr Bereiche abdecken und eine höhere Ausführungsqualität erzielen.
Manus stellte im maßgeblichen GAIA-Benchmark-Test einen neuen Rekord auf und seine Leistung übertrifft die ähnlicher Produkte von OpenAI bei weitem.
Der Name Manus kommt aus dem Lateinischen, Mens et Manus, was Geist und Hand bedeutet, also beide Hände und das Gehirn nutzen. Dies ist auch das Motto des Massachusetts Institute of Technology, das Studierende dazu ermutigt, ihre Ideen in praktische Ergebnisse umzusetzen.
Wenige Stunden vor der Veröffentlichung von Manus veröffentlichte Gründer Xiao Hong einen Beitrag auf der Instant-Plattform „The climax iscoming“ und teilte einen Auszug aus Shakespeares Buch:
Es ist schwer zu sagen, dass die Geburt von Manus ein Meilenstein für AGI ist, aber es ist sehr wahrscheinlich, dass sie die Ära der Agenten (Intelligenz) tatsächlich zu einem „Höhepunkt“ führen wird.
Link zur Manus Experience-Anwendung :
https://manus.im/invitation
Kann Manus bei der Prüfung von Lebensläufen, der Immobilienauswahl und dem Aktienhandel wirklich gut „arbeiten“?
Beamte behaupten, dass Manus nicht nur ein Konversations-KI-Tool ist, das nur chatten kann, sondern ein wirklich autonomer Agent.
Während andere KIs vielleicht damit aufhören, Ideen zu generieren, ist Manus in der Lage, eigenständig zu denken und zu handeln. Beamte betrachten es als ein neues Paradigma der Mensch-Maschine-Zusammenarbeit und könnten sogar ein Fenster zu AGI sein.
Parallel zu Manus gibt es auch eine vierminütige Demo. In diesen Fällen hat Manus den gesamten Prozess von der Planung bis zur Ausführung völlig autonom abgeschlossen und dabei echte Agentenfähigkeiten statt einfacher Assistenzfunktionen demonstriert.
Beginnen Sie beispielsweise mit einer allgemeinen HR-Aufgabe – dem Screening von Lebensläufen.
Die Demonstration begann mit einem großen Trick. Der Beamte schickte Manus eine komprimierte Datei mit 10 Lebensläufen, mit denen Manus genauso effizient arbeiten konnte wie ein professioneller Personalvermittler.
Zuerst wird die Datei entpackt, dann wird jeder Lebenslauf Seite für Seite durchgegangen und wichtige Informationen werden aufgezeichnet. Manus kann Dateien auch asynchron verarbeiten, was bedeutet, dass Sie Ihren Computer jederzeit herunterfahren können und er Sie benachrichtigt, wenn die Aufgabe abgeschlossen ist.
Selbstverständlich können Sie ihm während dieses Vorgangs auch jederzeit neue Anweisungen geben.
Fahren Sie als Nächstes mit dem Hochladen von 5 Lebensläufen auf Manus fort. Nachdem er alle 15 Lebensläufe sorgfältig gelesen hatte, gab Manus Ranking-Empfehlungen ab und stellte Kandidatenprofile und Bewertungskriterien als Referenz bereit.
Das ist noch nicht alles, wir können Manus auch bitten, eine Tabelle zu erstellen.
Aufgrund des Wissens und der Gedächtnisfähigkeiten von Manus werden die Ergebnisse bei der nächsten Ausführung einer ähnlichen Aufgabe direkt in Form einer Tabelle geliefert.
In einem weiteren Demonstrationsfall wird Manus gebeten, eine sichere Gemeinde mit geringer Kriminalität in New York auf der Grundlage des Familieneinkommens und der Schulbildungsanforderungen der Kinder zu überprüfen und Immobilien zu erwerben, die die Kriterien erfüllen.
Angesichts solch komplexer Aufgaben gliedert Manus diese auch methodisch in mehrere Schritte und erstellt detaillierte To-Do-Listen.
- Suchen und lesen Sie Artikel über die sichersten Viertel New Yorks.
- Erforschen Sie High Schools in New York.
- Schreiben Sie ein Python-Programm zur Berechnung des Budgets.
- Basierend auf Ihrem Budget prüfen Sie geeignete Angebote auf Immobilien-Websites.
- Integrieren Sie alle Informationen, schreiben Sie detaillierte Berichte und organisieren Sie relevante Materialien
Im dritten Fall verwandelte sich Manus in einen professionellen Aktienanalysten.
Lassen Sie es die Korrelation zwischen den Aktienkursen von Nvidia, Marvell Technology und TSMC in den letzten drei Jahren analysieren. Manus kann über APIs auf maßgebliche Datenquellen zugreifen. Nach der Validierung der Daten wird mit dem Schreiben von Code für die Datenanalyse und -visualisierung begonnen.
Nach Abschluss der Datenanalyse und Visualisierung kann Manus auch eine Website auf Basis der Daten erstellen. Mit der Autorisierung des Benutzers kann die Website online bereitgestellt werden und es wird ein gemeinsam nutzbarer Link bereitgestellt.
Beamte gaben an, dass der oben angezeigte Inhalt nur die Spitze des Eisbergs von Manus‘ Fähigkeiten sei.
Beim GAIA-Benchmark, der zur Bewertung der Fähigkeit allgemeiner KI-Assistenten zur Lösung realer Probleme verwendet wird, erreichte Manus SOTA-Leistungen auf allen drei Schwierigkeitsgraden.
Um die Reproduzierbarkeit der Ergebnisse sicherzustellen, wurde Manus mit der exakt gleichen Konfiguration wie seine offizielle Version evaluiert.
Zusätzlich zum Benchmarking löst Manus reale Probleme auf Plattformen wie Upwork und Fiverr und hat sein Können bei Kaggle-Wettbewerben unter Beweis gestellt.
All dies ist untrennbar mit der hervorragenden Open-Source-Community verbunden, daher hofft der Beamte auch, der Community etwas zurückzugeben.
Manus verwendet ein Multi-Signatur-System (Multisig), das von mehreren unabhängigen Modellen gesteuert wird. Später in diesem Jahr planen die Verantwortlichen, einige dieser Modelle als Open Source bereitzustellen, insbesondere den Argumentationsteil (Poster) von Manus.
Chinesisches Team, zwei Erfolgsprodukte, Millionen von Benutzern
Wer steckt also hinter diesem branchenerschütternden Produkt?
Es wird berichtet, dass Xiao Hong, der Gründer von Manus AI, 2015 Absolvent des Studiengangs Software Engineering an der Huazhong University of Science and Technology ist.
Nach seinem Abschluss gründete er weiterhin Unternehmen. Im Jahr 2015 gründete er Nightingale Technology, startete „Yiban Assistant“ und „Weiban Assistant“, bediente mehr als 2 Millionen B-End-Benutzer und erhielt Investitionen von Tencent, ZhenFund und anderen.
Es gibt auch ein markanteres KI-Produkt, das auf Xiao Hong zurückbleibt – Monica.
Dabei handelt es sich um einen KI-Assistenten namens All-in-One, der ursprünglich als Browser-Plug-in eingeführt wurde.
Durch die Integration gängiger großer Modelle (wie Claude 3.5, DeepSeek usw.) bietet Monica Funktionen wie Chat, Übersetzung, Copywriting-Verarbeitung usw. Benutzer können benutzerdefinierte Tools in natürlicher Sprache erstellen und diese auf Tool Plaza teilen.
Monica konzentrierte sich in seinen Anfängen auch auf ausländische Märkte mit einer Benutzerbasis von über einer Million und entwickelte sich zu einem führenden Produkt im Bereich der KI-Plug-ins.
Im Februar dieses Jahres begann die chinesische Version von Monica (monica.cn) mit internen Tests und steht inländischen Benutzern derzeit kostenlos zur Verfügung. Diese Version basiert auf den Modellen DeepSeek R1 und V3, verfügt über tiefgreifende Argumentations- und Denkfähigkeiten und unterstützt Speicherfunktionen und Echtzeit-Internetsuche.
Die technische Philosophie von Manus: weniger Struktur, mehr Intelligenz
Auch die von Manus verfolgte technische Philosophie unterscheidet sich etwas vom Mainstream: „Weniger Struktur, mehr Intelligenz“.
Sie glauben, dass, wenn die Daten von hoher Qualität, das Modell leistungsstark genug, die Architektur flexibel genug und die Technik solide genug sind, Fähigkeiten wie Computernutzung, tiefgreifende Forschung und Codierungsagenten auf natürliche Weise entstehen, ohne dass sie als spezifische Produktfunktionen konzipiert sind.
Als einer der Vertreter der harten Arbeit, um Wunder zu erreichen, liegt der durchschnittliche Wert von GPT-4-Turbo im öffentlichen GAIA-Ranking bei weniger als 7 %, und selbst Lösungen, die komplexe Multi-Agenten-Systeme nutzen, erreichen nur 40 %. Die Leistung von Manus kann als „weit voraus“ bezeichnet werden.
In einem aktuellen Interview mit Zhang Xiaojun sprach Gründer Xiao Hong vorab auch über das damals noch unveröffentlichte Agent-Produkt Manus.
„Es sieht wirklich so aus, als ob es ein Chatbot sein sollte. Das entspricht jedermanns Vorstellung, ist aber gleichzeitig von der Anwendungsseite her sehr kompliziert. Im Gegensatz zu Monica ist es schon ziemlich kompliziert, verschiedene Modelle zu verwenden.“
Xiao Hong hat die aktuellen KI-Anwendungen auch in zwei Kategorien unterteilt: Eine dient dazu, die Lücken in den Hauptanwendungsprodukten zu schließen, und die andere besteht darin, einzigartige Lösungen für bestimmte Szenarien bereitzustellen. Perplexity (Bereitstellung einer Netzwerksuchfunktion) und Monica (Browser-Plug-in-Formular) fallen beispielsweise in diese Kategorie und füllen die Lücken, die bestehende Produkte hinterlassen.
Anwendungen wie modellgesteuerte neue Szenen erscheinen hauptsächlich in den Bereichen Bilder und Videos und werden direkt durch die Weiterentwicklung der Modelltechnologie vorangetrieben. Produkte wie Pika und Runway nutzen Modellfunktionen, um neue Anwendungsszenarien zu erstellen.
Einige Benutzer verspotteten Manus als „die ultimative Shell ist großartig.“ Tatsächlich scheut sich Xiao Hong nicht, Benutzer wissen zu lassen, dass seine Produkte Modelle anderer Leute verwenden. Bereits letztes Jahr verglich er Monica mit Unterhaltungselektronik und platzierte das ChatGPT-Logo auf der offiziellen Website.
Eine neue Ära der Mensch-Computer-Interaktion ist angebrochen, aber beeilen Sie sich nicht, Manus auf den Altar von AGI zu legen.
Anfang 2024 machte APPSO eine Prognose: Große Modelle werden zum neuen Betriebssystem für Smartphones und eine natürliche Benutzeroberfläche (NUI) wird nach und nach die bestehende grafische Benutzeroberfläche (GUI) ersetzen.
Der wichtige Eingang zur Realisierung dieser neuen Interaktion ist Agent.
Ähnliche Fälle haben wir letztes Jahr bei vielen Mobiltelefoneinführungen gesehen. Die Pressekonferenz von Vivo zeigte „Phone GPT“, das Essen mit KI, Huawei Hongmengs Xiaoyi und Intent Framework, Honors YOYO Smart Body und Zhipu’s AutoGLM bestellen kann. Der Kern ist derselbe:
Lassen Sie die KI den menschlichen Plan-Do-Check-Act-Zyklus (Plan-Do-Check-Act) nachahmen, um die Geräte wie Menschen zu bedienen.
Zhang Peng, CEO von Zhipu AI, erwähnte zuvor, dass die aktuellen Agentenfunktionen eher dem Hinzufügen einer intelligenten Planungsebene zwischen Benutzern und Anwendungen ähneln, um alle Anwendungen und sogar alle Geräte zu verknüpfen.
Dies kann als Prototyp des großen Modells des allgemeinen Betriebssystems LLM-OS angesehen werden, das einen großen Einfluss auf die Form der Mensch-Computer-Interaktion haben wird. OpenAI-Gründungsmitglied und KI-Technologie-Guru Andrej Karpathy hat auch schon oft über das Large Language Model Operating System (LLM OS) gesprochen.
Er glaubt, dass das große Modell gewissermaßen ein neuer Computer und ein neues Betriebssystem ist, das verschiedene Software und Hardware sowie Peripheriegeräte, die aus allen modalen Informationen bestehen, verbinden und über Funktionsaufrufe verschiedene Aufgaben ausführen kann.
In einem herkömmlichen Betriebssystem müssen Sie eine Reihe von Peripheriegeräten rund um die CPU aufbauen, z. B. Maus und Tastatur, Festplattenspeicher und Cache-Speicherplatz.
Im LLM-Betriebssystem ist das große Modell selbst die zentrale Verarbeitungseinheit. I/O-Peripheriegeräte bestehen nicht mehr aus Maus und Tastatur, da LLM mit mehr Modi der Dateneingabe und -ausgabe kompatibel sein kann. Gleichzeitig werden auch externe Tools, die von großen Modellen aufgerufen werden, von herkömmlicher Software auf intelligente Agenten-Tools aktualisiert.
Unter diesen ist der anwendungsübergreifende Betrieb eine sehr wichtige Verbindung, was bedeutet, dass der Agent komplexere autonome und kohärente Vorgänge erreichen und möglicherweise auch zu einer echten Kommerzialisierung übergehen kann. Die Frage, ob die von verschiedenen Internetunternehmen bereitgestellten Dienste miteinander verbunden werden können, dürfte das größte Hindernis für die zukünftige Realisierung dieser Art von Interaktion sein.
Allerdings implementieren viele KI-Assistenten mittlerweile Proxy-Vorgänge, indem sie tatsächlich die Eingabehilfen des Telefons aufrufen, um Bildschirmklicks zu steuern.
Das Aufkommen von Manus bedeutet, dass die KI im Agentenmodus die Anforderungen verstehen und selbstständig arbeiten kann, bis die Aufgabe abgeschlossen ist. Dies ist zweifellos ein großer Schritt im Bereich der Mensch-Computer-Interaktion und ermöglicht es uns, das Potenzial der KI zu erkennen, sich von einem Werkzeug zu einem Partner zu entwickeln.
Aber es ist noch zu früh, um zu sagen, dass wir mit einem Fuß in der Tür von AGI stehen. Xiao Hong selbst erwähnte auch, dass der frühe Agent eher einer „funktionellen Maschine“ ähnelte und eine ständige Iteration und Verbesserung erforderte. Der aktuelle Agent muss sich weiterhin auf die Verbesserung der Modellfunktionen und eine umfassendere Unterstützung virtueller Umgebungen verlassen, um tatsächlich in der Lage zu sein, verschiedene Long-Tail-Aufgaben zu bewältigen.
Im Vergleich zum intelligenten Fahren entspricht dies wahrscheinlich einem Upgrade vom unterstützten Fahren auf L2-Niveau auf L3-Niveau. Obwohl Manus im GAIA-Benchmark gut abgeschnitten hat, bedeutet dies nicht, dass es alle Merkmale allgemeiner künstlicher Intelligenz aufweist. Der Weg zur AGI ist noch lang und erfordert die Lösung zahlreicher Herausforderungen wie Modellfähigkeiten, autonomes Lernen und Aufgabengeneralisierung.
Aber aufgrund des Durchbruchs von Manus in Sachen Autonomie und Vielseitigkeit gibt es einen weiteren Stern, der uns auf der großen Reise zu AGI erleuchtet.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo