Erste Veröffentlichungserfahrung |. KI lernt, rote Umschläge zu versenden! Inländischer Agent kontrolliert Mobiltelefone und Computer mit nur einem Satz, ich sehe eine Zukunft der „Freiheit zum Fischen“

November 29, 2024 Eskere Guru

Im Jahr 2024 ist das beliebteste Schlüsselwort im KI-Kreis kein geringerer als Agent.

Von den einfachen GPTs von OpenAI über die autonom agierende Computernutzung von Anthropic bis hin zum jüngsten KI-Startup /dev/agents, das mit seinem Agent-Betriebssystem einen Wert von 500 Millionen US-Dollar erzielte, versuchen Hersteller, die nächste klare Richtung für KI zu finden.

In China brachte Zhipu AI letzten Monat auch seine eigene Antwort auf den Markt: AutoGLM.

Wenn Sie Ihr Telefon herausnehmen, eine App öffnen, auf „Suchen“ klicken, Schlüsselwörter eingeben … sind normalerweise vier oder fünf Schritte erforderlich, um diese Vorgänge abzuschließen, aber mit KI werden diese Vorgänge zu einer Sache von nur einem Satz.

Heute hat Zhipu AI außerdem eine Reihe von Agent-Produkten auf den Markt gebracht, die mehrere Terminals in Peking abdecken.

Benutzer müssen lediglich Anweisungen eingeben, und GLM kann die Anweisungen verstehen, Aufgaben planen und dann Fenster, Grafiken, Texte usw. in der Benutzeroberfläche identifizieren und automatische Vorgänge realisieren, genau wie der Beginn des Navigationszeitalters, wenn KI die Ausrüstung übernimmt .

Beim Agent OpenDay nutzte Zhang Peng, CEO von Zhipu AI, AutoGLM, um persönliche Gruppen zu gründen und verschickte rote Umschläge für WeChat und Online-Passwörter an Hunderte von Teilnehmern. Wenn Sie Freunde haben, die rote Umschläge erhalten haben, teilen Sie Ihre Freude bitte im Kommentarbereich mit.

AutoGLM: Mobiles Terminal (vorübergehend für Android geöffnet), kann unabhängig langstufige Vorgänge mit mehr als 50 Schritten ausführen und eignet sich für komplexe Vorgänge wie Preisvergleich, Navigation und Super-Calling.
GLM-PC: PC-Version (vorübergehend offen für Mac-Systeme), ein Produktivitätstool, mit dem Mitarbeiter ihre Hände frei haben und Computer auch fernsteuern können.
AutoGLM-Web: Webversion, die autonomes Fahren auf Dutzenden von Websites wie Baidu Search, Zhihu, Github usw. unterstützt.

Die anschaulichste Fußnote ist wahrscheinlich, dass KI überall ist, von Chat bis Act, aber auch Agenten sind überall. Mit anderen Worten: Vom „Denken“ für uns zum „Tun“ für uns definiert Agent intelligente Geräte neu.

Im Anhang finden Sie den Experience-Jump-Link:

AutoGLM: https://agent.aminer.cn/
GLM-PC: https://cogagent.aminer.cn/home
AutoGLM-Web: https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

Die KIs anderer Leute chatten nur, aber diese KIs können mir beim Angeln helfen.

KI hilft mir beim Fischen? Mit AutoGLM kann ich mich hinlegen, Supercalls nutzen und Kaffee kaufen

In früheren Artikeln haben wir erlebt, wie AutoGLM unsere Mobiltelefone übernimmt.

Vollautomatisch WeChat-Nachrichten senden, Taobao durchsuchen … Dinge, die wir früher selbst erledigen mussten, werden jetzt von AutoGLM abgedeckt. Darüber hinaus wurde dieser KI-Mitarbeiter heute aufgerüstet und ist sehr gut in dem, was er tut.

Auch wir haben diese neuesten KI-Tools vorab kennengelernt.

Unser Konsumverständnis ist, dass man teure Dinge kaufen kann, aber nicht teuer.

Zum Beispiel hat Yuval Harari, der Autor von „A Brief History of Humankind“, vor nicht allzu langer Zeit sein neuestes Buch „Beyond Homo Sapiens“ veröffentlicht. Warum lasse ich mir dann nicht helfen, Pinduoduo und Taobao zu durchsuchen, um zu sehen, wo ich kann? Finden Sie sie? Ein gutes Geschäft.

Ich muss nur meinen Mund bewegen, und die KI hilft mir, zu rennen und mir die Beine zu brechen. Wenn man jedoch genau hinschaut, gibt es immer noch einen kleinen Fehler in der Verwechslung des Buchtitels.

Wenn es schwierig ist, in einer lauten Umgebung zu sprechen, machen Sie sich keine Sorgen.

AutoGLM ist außerdem mit einem „Silent-Modus“ ausgestattet, der es Ihnen ermöglicht, Befehle durch Eingabe zu erteilen, und vor der Ausführung einer Aufgabe lässt AutoGLM dem Benutzer außerdem eine 3-sekündige „Bedauernszeit“ ein, sodass Sie die Ausführung anhalten und anpassen können die Aufgabe jederzeit erledigen.

Es gibt gute Nachrichten für die Sternenjäger: Das neu aufgerüstete AutoGLM kann sogar Check-Ins und Clock-Ins verstehen.

Nehmen Sie als Beispiel den Super-Call-Check-in von Li Xingliang. Ich muss nur meine Anweisungen in das schwebende AutoGLM-Fenster eingeben, und die KI erledigt den gesamten Vorgang für mich. Ich muss nur dann „auftauchen“, wenn ich auf vertrauliche Informationen stoße , und verabschieden Sie sich mit einem Klick von der Angst vor „verpasstem Check-in“.

Übrigens können Sie für diese täglichen Aufgaben auch Tastenkombinationen festlegen und diese mit einem Klick erledigen.

Unterschätzen Sie diese Funktion nicht. Als Alltagsbeschäftigter kann man den Kaffee, den man regelmäßig nachmittags bestellt, nicht als „lebenserhaltendes Werkzeug“ bezeichnen Sie müssen die Anweisungen zur Kaffeebestellung aufbewahren, was viel Aufwand erspart.

Wählen Sie den Casual-Modus und lassen Sie die KI alle Entscheidungen für Sie treffen, indem Sie die Blind-Coffee-Box öffnen. Wenn es jedoch um wichtige Vorgänge wie Senden, Bestellen und Bezahlen geht, überlässt Ihnen AutoGLM aktiv die Wahl.

Die anwendungsübergreifende Zusammenarbeit ist ein großes Highlight dieses Upgrades.

Apple AI hat uns gezeigt, wie wichtig KI auf Systemebene ist, um die Anwendungsmauer zu durchbrechen, und jetzt können wir mit Hilfe von AutoGLM auch ähnliche Effekte erzielen. Ich habe die KI beispielsweise gebeten, nach einem Tutorial zu Knoblauch zu suchen Kohl in Xiaohongshu, und es ist gelungen.

Sehr nützlich ist auch die neue KI-Navigationsfunktion. Möchten Sie zum Canton Tower gehen? Sprechen Sie einfach sanft mit AutoGLM und AI wird es klar für Sie arrangieren.

Leider unterstützt AutoGLM nur Android-Systeme.

Allerdings wird Zhipu ab sofort auch die benutzerinterne Testquote von AutoGLM freigeben und die Funktionen und das Benutzererlebnis weiter optimieren. Es wird erwartet, dass es so bald wie möglich auf den Markt kommt und ein Produkt wird, das der Mehrheit der C-End-Benutzer wirklich offen steht .

Das Plug-in AutoGLM-Web von Zhipu Qingyan startete von nun an auch die AutoGLM-Funktion.

Berichten zufolge unterstützt AutoGLM-Web autonomes Fahren auf Dutzenden von Websites wie Baidu Search, Weibo, Zhihu und Github.

In der offiziellen Demo vervollständigt AutoGLM-Web automatisch „Suche nach Mango TV auf Baidu, öffne Goodbye Lover, spiele die neueste Folge ab und poste Kommentare“. Während des gesamten Prozesses erfolgt kein Benutzereingriff.

▲Bildbeschreibung. Bild von: xxx

Von Mobiltelefonen bis hin zu Computern – lassen Sie die KI als Arbeitskraft für mich arbeiten

Im Vergleich zu AutoGLM bietet GLM-PC mehr Funktionserfahrung für Arbeitsplatzszenarien auf der Computerseite.

GLM-PC ist derzeit für Mac-Computer konzipiert, die mit Chips der M-Serie ausgestattet sind, wobei Geräte der M1- und M3-Serie am meisten empfohlen werden. Geben Sie im Dialogfenster die Aktion ein, die Sie durchführen möchten, und GLM-PC bewertet das Tool und entscheidet über einen Aktionsplan.

Bei sensiblen Vorgängen hält GLM-PC natürlich automatisch an und wartet auf Benutzervorgänge oder eine Bestätigung.

Möchten Sie die beliebten Inhalte auf Station B erfahren? GLM-PC hilft Ihnen dabei, durch dreimaliges, fünfmaliges und zweimaliges Benutzen die erste „Must-Pinsel beim Betreten der Website“ zu finden, und erspart Ihnen viel ziellose Paddelzeit.

Möchten Sie Zhang San um ein Treffen bitten? Überlassen Sie das Versenden von WeChat-Nachrichten der KI. Selbst wenn die Seite blockiert ist, kann sie im WeChat-Suchfeld genau positioniert werden.

Es kann Ihnen auch dabei helfen, Tencent-Meetings zu buchen und Meeting-Einladungen an die Teilnehmer zu versenden. Es wird empfohlen, nach Abschluss der Arbeit diesen Satz „Operation Cheats“ einzusammeln, um die Arbeitseffizienz durch den Arbeitsablauf zu verbessern.

Als Redakteur ist es meine persönliche Lieblingsfunktion, mir dabei helfen zu lassen, KI-Nachrichten aus dem Ausland zu sortieren. Nach Erteilung des Befehls öffnet die KI den Browser, gibt die URL ein und erhält eine klare Zusammenfassung der Nachrichten.

Übrigens, wenn Sie ein Neuling sind, der gerade vom Win- auf das Mac-System umgestiegen ist, werden Sie aufgrund der Systemänderungen etwas verwirrt sein.

Jetzt ist GLM-PC Ihr „lebensrettender Strohhalm“. Ob Sie den Anzeigemodus oder andere Einstellungen anpassen, überlassen Sie ihm alle Ihre Anforderungen. Überlassen Sie schwierige Dinge der KI und behalten Sie das Glück für sich. Dies ist der richtige Weg, um im Leben zu gewinnen.

GLM-PC verfügt auch über eine Funktion, die als „Königsbombe“ bezeichnet werden kann.

Aktivieren Sie zunächst den „Suspend-Modus“ in den GLM-PC-Einstellungen und melden Sie sich dann über den Bestätigungscode auf Ihrem Mobiltelefon bei „https://cogagent.aminer.cn/m“ an. Ihr Mobiltelefon kann den Computer sogar fernsteuern .

Insbesondere können Sie Befehlsnachrichten aus der Ferne an GLM-PC senden und GLM-PC Computeroperationen ausführen lassen. Jedes Mal, wenn GLM-PC einen Schritt ausführt, gibt es einen Screenshot des Vorgangs zurück. Wenn es sich um einen sensiblen Vorgang handelt, wartet er vor der Ausführung auf die Bestätigung des Benutzers.

Während der Demonstration vor Ort erteilte Zhang Peng dem Cogagent auch Anweisungen über die GLM-PC-Webseite auf seinem Mobiltelefon und versendete erfolgreich Dateien über WeChat auf dem Computer.

Wenn KI anfängt, wirklich zu „arbeiten“ statt nur zu „sprechen“, bedeutet das auch, dass KI-Anwendungen in ein „bodenständiges“ und pragmatisches Stadium eingetreten sind. Man kann sagen: Wenn KI wirklich beginnt, alltägliche Aufgaben zu lösen, wird sie sich von einem Spielzeug in ein echtes Produktivitätswerkzeug verwandeln.

So könnte KI-Technologie aussehen.

Telefonnutzungszeit

In den letzten zwei Monaten hat die Mobiltelefonindustrie intensiv eine Reihe neuer Produkte auf den Markt gebracht. Obwohl KI-Mobiltelefone von den Verbrauchern noch nicht allgemein anerkannt wurden, ist sie zum Höhepunkt geworden Tatsächlich ist dies auch ein Vorläufer der Popularisierung von Agenten.

Ob es sich um das Blue Heart V von vivo und das „Phone GPT“ handelt, das für die KI-Bestellung auf der Pressekonferenz verwendet werden kann, um das Xiaoyi and Intent Framework von Huawei Hongmeng oder den intelligenten Agenten YOYO von Honor, sie sind im Wesentlichen alle gleich dem von veröffentlichten Agenten Zhipu heute:

Lassen Sie die KI den menschlichen Plan-Do-Check-Act-Zyklus (Plan-Do-Check-Act) nachahmen, um die Geräte wie Menschen zu bedienen.

Wie Zhang Peng, CEO von Zhipu AI, in der heutigen Pressekonferenz erwähnte, ähneln die aktuellen Agent-Funktionen eher dem Hinzufügen einer intelligenten Planungsebene zwischen Benutzern und Anwendungen, um alle Anwendungen und sogar alle Geräte zu verknüpfen.

Dies kann als Prototyp des großen Modells des allgemeinen Betriebssystems LLM-OS angesehen werden. Zhipu nennt diese Gruppe von Agenteninteraktionen auch die Konstruktion von GLM-OS, die einen großen Einfluss auf die Form der Mensch-Computer-Interaktion haben wird.

OpenAI-Gründungsmitglied und KI-Technologie-Guru Andrej Karpathy hat auch schon oft über das Large Language Model Operating System (LLM OS) gesprochen. Er glaubt, dass das Large Language Model Operating System in gewisser Weise ein neues Computer- und Betriebssystem ist, das verschiedene Software und Hardware verbinden kann sowie Peripheriegeräte, die aus allen modalen Informationen bestehen, führen über Funktionsaufrufe verschiedene Aufgaben aus.

In einem herkömmlichen Betriebssystem müssen Sie eine Reihe von Peripheriegeräten rund um die CPU aufbauen, z. B. Maus und Tastatur, Festplattenspeicher und Cache-Speicherplatz.
Im LLM-Betriebssystem ist das große Modell selbst die zentrale Verarbeitungseinheit. I/O-Peripheriegeräte bestehen nicht mehr aus Maus und Tastatur, da LLM mit mehr Modi der Dateneingabe und -ausgabe kompatibel sein kann. Gleichzeitig werden auch externe Tools, die von großen Modellen aufgerufen werden, von herkömmlicher Software auf intelligente Agenten-Tools aktualisiert.

Unter diesen ist der anwendungsübergreifende Betrieb eine sehr wichtige Verbindung, was bedeutet, dass der Agent komplexere autonome und kohärente Vorgänge erreichen und möglicherweise auch zu einer echten Kommerzialisierung übergehen kann.

Zu Beginn des Jahres gingen wir davon aus, dass das große Modell das neue Betriebssystem für Smartphones werden würde und die natürliche Benutzeroberfläche (NUI) nach und nach die bestehende grafische Benutzeroberfläche (GUI) ersetzen würde.

Die Frage, ob die von verschiedenen Internetunternehmen bereitgestellten Dienste miteinander verbunden werden können, dürfte das größte Hindernis für die zukünftige Realisierung dieser Art von Interaktion sein. Aber egal, ob es sich um ein Smartphone oder eine Anwendung handelt, es wird irgendwann ein stufenweises Produkt in der Geschichte der menschlichen Entwicklung sein.

Die aktuelle Agenteninteraktion befindet sich noch in einem frühen Stadium. Wie kann Agent angesichts der Engpässe in der Branche zu einem echten Produktivitätstool werden und einen größeren Anteil an Arbeitsentscheidungen übernehmen?

Liu Xiao, der technische Direktor von AutoGLM, sagte in einem Interview mit APPSO, dass das Vortraining definitiv fortgesetzt wird, es jedoch eine neue Logik für das Algorithmus- und Datentraining geben wird.

Zhang Peng, CEO von Zhipu AI, erklärte gegenüber APPSO außerdem, dass das Team hinsichtlich des Raums der Skalierungsgesetze relativ optimistisch sei und hoffe, mehr Möglichkeiten im neuen Paradigma und Ökosystem zu erkunden.

In diesem Jahr haben viele Hersteller ausnahmslos das autonome Fahren verwendet, um die Intelligenz von KI-Terminals zu beschreiben. OpenAI unterteilt die KI außerdem in fünf Ebenen: L1-L5.

Im Gegensatz zu OpenAI definiert Zhipu die fünf Phasen der Entwicklung großer Modelle als: L1-Sprachfähigkeit, L2-Logikfähigkeit (multimodale Fähigkeit), L3-Fähigkeit zur Verwendung von Werkzeugen, L4-Selbstlernfähigkeit und L5-Erforschung wissenschaftlicher Gesetze.

Zhang Peng glaubt, dass große Modelle ursprünglich über die Fähigkeit des Menschen verfügten, mit der realen physischen Welt zu interagieren. „Der Agent wird die Fähigkeit von L3, Tools zu verwenden, erheblich verbessern und gleichzeitig die Erforschung der Selbstlernfähigkeit von L4 eröffnen.“

Von der Telefonnutzung, der Computernutzung, der Autonutzung bis hin zur Nutzung aller Geräte: Die Denkfähigkeit großer Modelle und die Interaktion mit Agenten wirken sich nach und nach auf die Art und Weise aus, wie wir intelligente Geräte nutzen.

Das Senden von WeChat-Nachrichten und Likes durch KI scheint derzeit nur von begrenzter praktischer Bedeutung zu sein, aber genau wie AlphaGo wird es, egal wie gut es im Schach ist, keine großen Auswirkungen auf die Gesellschaft haben. AlphaFold von Google DeepMind kann die Struktur fast aller Proteine vorhersagen. Unterstützung bei der Behandlung und Erforschung einer Vielzahl von Krankheiten.

Der Paradigmenwechsel dahinter ist der Hebel, der die Erneuerung des menschlichen Lebensstils nutzt, um dem großen Modell den Übergang von Chat zu Act zu ermöglichen, und die Form des sogenannten KI-Terminals entsteht nach und nach, anstatt nur eine Namensänderung.

Autor: Li Chaofan, Mo Chongyu

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo