Claude von Anthropic kann jetzt Computer steuern, wie es Menschen tun

Oktober 23, 2024 Eskere Guru

Anthropisch

Anthropics ohnehin schon beeindruckendes Claude 3.5 Sonnet erhält am Dienstag einen deutlichen Leistungsschub, da das generative KI-Startup neben dem neuen, leichten Claude 3.5 Haiku eine verbesserte und aktualisierte Version des Modells auf den Markt bringt. Das Sonnet-Update enthält eine öffentliche Beta-Funktion, die der KI grundlegende Kontrolle über den Computer gibt, auf dem sie ausgeführt wird.

Claude 3.5 Sonnet war bereits ein Leistungsführer, wenn es um Codierungsaufgaben geht, aber die neue Version zeigt deutliche allgemeine Verbesserungen gegenüber dem Vorgänger und übertrifft sowohl Gemini 1.5 als auch GPT-4o bei einer Reihe von Branchen-Benchmarks kontinuierlich. Gemini 1.5 Pro war das einzige Modell, das das neue 3.5 Sonnet in allen Tests übertraf, und zwar beim MATH-Benchmark .

Auch das neue 3.5 Haiku ist trotz seiner geringen Größe ein echter Hingucker. 3.5 Haiku soll später in diesem Monat auf den Markt kommen und übertrifft Claude 3.0 Opus, das größte Modell der letzten Generation des Unternehmens. Wie seine größere Version beherrscht auch das neue Haiku äußerst kompetent Codierungsaufgaben und erzielte beim SWE-Benchmark Verified eine Punktzahl von 40,6 % – mehr als sowohl GPT-40 als auch das ursprüngliche 3.5 Sonnet.

Neues Claude 3.5-Sonett-Leistungsdiagramm — Anthropisch

Noch beeindruckender ist, dass das neue Claude 3.5 Sonnet jetzt über die „Computer Use“-API mit Desktop-Apps interagieren kann. Die KI kann die notwendigen Tastenanschläge, Mausklicks und Bewegungen erzeugen, die zur Nachahmung des menschlichen Benutzers erforderlich sind. Das Unternehmen weist darauf hin, dass das System derzeit noch recht experimentell und fehleranfällig sei. Der grundlegende Zweck der öffentlichen Betaversion besteht darin, Feedback von Entwicklern einzuholen, um die Leistung der API schnell zu verbessern.

„Wir haben Claude darin geschult, zu sehen, was auf einem Bildschirm passiert, und dann die verfügbaren Softwaretools zu verwenden, um Aufgaben auszuführen“, schrieb Anthropic in einem Blogbeitrag . „Wenn ein Entwickler Claude mit der Verwendung einer Computersoftware beauftragt und ihr den erforderlichen Zugriff gewährt, schaut sich Claude Screenshots dessen an, was für den Benutzer sichtbar ist, und zählt dann, wie viele Pixel vertikal oder horizontal erforderlich sind, um einen Cursor zu bewegen, um hineinzuklicken der richtige Ort.“

Im Wesentlichen handelt es sich um einen KI-Agenten. Das heißt, es handelt sich um eine KI, die andere Softwareprozesse automatisieren kann, sei es die Generierung und Qualifizierung von Marketing-Leads, das Aufdecken von Mustern und Trends in medizinischen Daten oder einfach das Navigieren zu einer bestimmten Website und das Ausfüllen eines benötigten Formulars. Betrachten Sie sie als eine weiterentwickelte Version bestehender Robotic Process Automation- Systeme.

Das Unternehmen nennt Asana, Canva, Cognition, DoorDash, Replit und The Browser Company als erste Anwender der neuen Funktion. Replit beispielsweise nutzt Computer Control, um „eine Schlüsselfunktion zu entwickeln, die Apps bewertet, während sie für ihr Replit Agent-Produkt erstellt werden“, heißt es in der Ankündigung.

Wie Anthropic erklärt, besteht (noch) kein Grund zur Sorge, dass die KI ganz Skynet auf uns überträgt. „Menschen behalten die Kontrolle, indem sie spezifische Aufforderungen geben, die Claudes Aktionen steuern, wie zum Beispiel ‚Verwenden Sie Daten von meinem Computer und online, um dieses Formular auszufüllen‘“, sagte ein Anthropic-Sprecher gegenüber TechCrunch . „Menschen ermöglichen den Zugriff und beschränken den Zugriff nach Bedarf. Claude zerlegt die Eingabeaufforderungen des Benutzers in Computerbefehle (z. B. Bewegen des Cursors, Klicken, Tippen), um diese spezifische Aufgabe auszuführen.“

Anthropic räumt außerdem ein, dass Computersteuerung missbraucht werden könnte, um Spam zu generieren, Fehlinformationen zu verbreiten oder Betrug zu begehen. Als Reaktion darauf hat das Unternehmen neue Klassifikatoren entwickelt , die erkennen, wann die API verwendet wird und ob diese Verwendung „Schaden verursacht“.