Das wettbewerbsfähigste Produkt von OpenAI wurde aktualisiert! Die Simulation der menschlichen Nutzung von Computern in einem Satz, ein großer Durchbruch vor dem Erwachen von KI-Agenten

Oktober 23, 2024 Eskere Guru

Die Welt leidet seit langem unter Zahnpasta.

Wenn man sich in Yunei umsieht, gibt es nur eine Handvoll Konkurrenten, die mit dem Claude-Modell von OpenAI konkurrieren können, das zumindest ein verlässlicher Rivale ist.

Ich freute mich auf die Sterne und den Mond und wartete nicht auf das Erscheinen des „supergroßen Bechers“ Opus, sondern glücklicherweise auch auf den neu aufgerüsteten großen Becher Claude 3.5 Sonnet.

Eine kurze Zusammenfassung der Highlights dieses Updates:

Mit GPT-4o und Gemini 1.5 Pro liegt die neue Version von Claude 3.5 Sonnet weit vorne
Claude 3.5 Haiku hat die schnellste Reaktionsgeschwindigkeit und seine Leistung ist vergleichbar mit GPT-4o mini
Erstellen Sie eine API, um Claude beizubringen, wie man Computer spielt

Bringen Sie Claude das Computerspielen bei. Ist der KI-Tastaturkrieger hier?

Das Highlight dieses Updates ist eigentlich nicht das neue Modell, sondern wie man der KI das Spielen am Computer beibringt.

Anthropic hat eine revolutionäre Funktion „Computernutzung“ zum öffentlichen Testen eingeführt: Claude wird über die API beigebracht, den Computer wie ein Mensch zu bedienen. Er kann den Bildschirm sehen, den Cursor bewegen, auf Schaltflächen klicken, tippen …

Einfach ausgedrückt: Claude kann jetzt von Menschen entwickelte Standardtools und Software verwenden. Entwickler können dies nutzen, um einige langweilige, sich wiederholende Prozessaufgaben zu entlasten und sogar offene Aufgaben wie Recherche durchzuführen.

Um Claude mit dieser Fähigkeit auszustatten, verwendet Anthropic eine API, die es Claude ermöglicht, die Computerschnittstelle wahrzunehmen und mit ihr zu interagieren.

Insbesondere integrieren Entwickler diese API während des Interaktionsprozesses und ermöglichen es Claude, Anweisungen (z. B. „Verwenden Sie Daten auf meinem Computer und kombinieren Sie sie mit Online-Informationen, um ein Formular auszufüllen“) in Computeranweisungen (z. B. „Ein Formular überprüfen“, bewegen Bewegen Sie die Maus, um einen Browser zu öffnen, navigieren Sie zur entsprechenden Webseite und füllen Sie dann die Tabelle mit Daten aus dem Internet.

OSWorld ist eine Benchmark-Plattform, mit der die Fähigkeit multimodaler Agenten getestet wird, offene Aufgaben in realen Computerumgebungen auszuführen. Sie wird normalerweise verwendet, um zu bewerten, ob KI-Modelle in der Lage sind, Computer wie Menschen zu verwenden.

Das Claude 3.5 Sonnet erzielte in der Testkategorie „Nur Screenshots“ eine Punktzahl von 14,9 % und lag damit deutlich über dem zweiten Platz von 7,8 %. Unter Berücksichtigung weiterer Schritte erreichte Claude 22,0 %.

Die Produkte einiger Unternehmen nutzen diese Funktion bereits im Vorfeld.

Replit nutzt beispielsweise die Computerbedienungs- und Schnittstellennavigationsfähigkeiten von Claude 3.5 Sonnet, um eine Schlüsselfunktion seines Replit-Agentenprodukts zur Bewertung von in der Entwicklung befindlichen Anwendungen zu entwickeln.

Natürlich ist dieser Ansatz nicht neu.

Denn zuvor haben Asana, Canva, Cognition, DoorDash, Replit und The Browser Company begonnen, diese Möglichkeiten zu erkunden und Aufgaben auszuführen, die Dutzende oder sogar Hunderte von Schritten erfordern.

Allerdings ist das Ideal sehr voll und die Realität sehr dürftig.

Der Beamte gab außerdem zu, dass sich diese Funktion noch im experimentellen Stadium befindet, langsam ist und bei der Bedienung des Computers häufig Fehler auftreten. Einige einfache Vorgänge – wie Scrollen, Ziehen und Zoomen, die scheinbar von Menschen mit einer Handbewegung erledigt werden – stellen für Claude immer noch eine große Herausforderung dar.

Bei der Aufnahme dieser Demos sind wir auf einige interessante Episoden gestoßen. Einmal brach Claude versehentlich eine laufende lange Bildschirmaufnahme ab und das gesamte Filmmaterial ging verloren.
Später machte Claude zwischen unseren Coding-Demos eine Pause, um sich Fotos vom Yellowstone-Nationalpark anzusehen.

Darüber hinaus erfasst Claude statische Bilder des Bildschirms und kombiniert diese Bilder dann, um zu verstehen, was auf dem Bildschirm passiert. Aus diesem Grund ist es jedoch möglicherweise nicht in der Lage, kurze Aktionen oder Benachrichtigungen auf dem Bildschirm wie Pop-ups usw. zu erfassen sich schnell änderndes Symbol.

Der Beamte sagte auch, dass der Grund für die Veröffentlichung eines experimentellen Produkts darin besteht, Feedback von Entwicklern einzuholen. Es wird erwartet, dass diese Funktion im Laufe der Zeit schrittweise verbessert wird.

Alex Albert, Director of Developer Relations bei Anthropic, teilte ebenfalls eine interessante Erfahrung.

Bei der Entwicklung der Funktion „Computernutzung“ organisierten sie eine technische Fehlerbehebungssitzung, um mögliche Probleme in der API zu identifizieren.

Mehrere Ingenieure versammelten sich in einem Raum, um ein paar Stunden lang zu arbeiten, wurden aber schnell hungrig. Eine der ersten „Computernutzungs“-Aufforderungen der Ingenieure bestand also darin, dass Claude zur Essenslieferplattform DoorDash navigieren und genug Essen bestellen sollte, um alle zu ernähren .

Claude dachte etwa eine Minute darüber nach und bestellte schließlich Pizza für die Ingenieure.

Internetnutzer haben auch schnell eine Liste von Dingen ausgegraben, die die Computernutzungsfunktion nicht tun möchte:

Erstellen Sie ein Konto in sozialen Medien oder anderen Plattformen
E-Mail oder Nachricht senden
Veröffentlichen Sie einen Kommentar in den sozialen Medien
Machen Sie einen Kauf
auf private Informationen zugreifen
Vollständiger Bestätigungscode (CAPTCHA)
Bilder erstellen, bearbeiten oder modifizieren
Aufrufen
Zugriff auf eingeschränkte Inhalte
Führen Sie Aktionen aus, die eine persönliche Authentifizierung erfordern

Als König der echten Inferenzmodelle ist die Codierung neuer Modelle weit vorne

Werfen wir einen Blick auf das von Claude 3.5 Sonett eingereichte Transkript.

Obwohl die Glaubwürdigkeit der großen Modellliste nicht mehr so gut ist wie früher, können wir auf der Grundlage der Logik derselben Reihe von Testfragen dennoch ein vorläufiges Verständnis der neu veröffentlichten Modelle erlangen.

Claude 3.5 Sonnet schlug GPT-4o und schlug Gemini 1.5 Pro. In einer Reihe von Benchmark-Tests wie GPQA, MMLU Pro und HumanEVal schnitt Claude 3.5 Sonnet hervorragend ab, und man kann sagen, dass es weit vorne liegt.

Insbesondere im Bereich Codierung hat Claude 3.5 Sonnet seinen Vorsprung weiter ausgebaut. Vielleicht sind Sie neugierig, warum es im Benchmark-Test keinen Vergleich mit dem OpenAI o1-Modell gibt.

Keine Sorge, Anthropic hat Ihre Vorhersage vorhergesagt. Die offizielle Erklärung lautet:

Der Grund, warum die o1-Modellfamilie von OpenAI nicht in unserer Bewertungstabelle enthalten ist, liegt darin, dass sie im Gegensatz zu den meisten Modellen viel Rechenzeit benötigen, bevor sie reagieren. Dieser wesentliche Unterschied erschwert Leistungsvergleiche.

Um zu übersetzen, wollen wir vergleichen, aber es ist nicht möglich, zu vergleichen.

Im SWE-Bench-Verified-Coding-Test stieg die Leistung von Claude 3.5 Sonnet jedoch von 33,4 % auf 49,0 % und übertraf damit alle öffentlich verfügbaren Modelle – einschließlich Inferenzmodelle wie OpenAI o1-preview und verschiedene Agenten-Codierungssysteme.

Claude 3.5 Sonnet ist der König der echten Inferenzmodelle.

Darüber hinaus schnitt Claude 3.5 Sonnet auch im TAU-Bench-Agent-Tool-Test gut ab.

TAU-bench bietet hauptsächlich eine Evaluierungsumgebung, die näher an realen Anwendungsszenarien ist.

Im Einzelhandel verbesserte sich die Punktzahl des Claude 3.5 Sonnet von 62,6 % auf 69,2 %, während im Luftfahrtbereich die Punktzahl ebenfalls von 36,0 % auf 46,0 % stieg.

Darüber hinaus erhöhen diese Verbesserungen weder den Preis noch verringern sie die Geschwindigkeit, und das Claude 3.5 Sonnet behält immer noch das gleiche Preis-Leistungs-Verhältnis wie sein Vorgänger.

Im offiziellen Blog wurde erwähnt, dass die Verbesserung der Codierungsfunktionen das größte Highlight von Claude 3.5 Sonnet ist.

GitLab-Tests ergaben, dass sich seine Argumentationsfähigkeiten ohne zusätzliche Verzögerungen um 10 % steigerten, wodurch es sich sehr gut für mehrstufige Softwareentwicklungsprozesse eignet. Die Browser Company stellte außerdem fest, dass das Claude 3.5 Sonnet alle von ihnen getesteten Vorgängermodelle bei der Automatisierung von Web-Workflows übertraf.

Als Vorzeigeunternehmen, das extrem hohe Sicherheitsfaktoren anstrebt, hat Anthropic natürlich eine katastrophale Risikobewertung für das Claude 3.5 Sonnet durchgeführt und die Ergebnisse entsprachen dem ASL-2-Standard. .

ASL-2 bezieht sich auf Systeme, die frühe Anzeichen gefährlicher Fähigkeiten zeigen (z. B. die Fähigkeit, Anweisungen zur Herstellung biologischer Waffen zu geben), aber die Informationen sind aufgrund unzureichender Zuverlässigkeit oder Unfähigkeit, über das hinauszugehen, was eine Suchmaschine bietet, von geringem Nutzen bereitstellen kann.

Kurz gesagt, egal wie mächtig das Claude 3.5-Sonett ist, es stellt noch keine Bedrohung für die Menschheit dar.

Nachdem wir über das leistungsstärkste Modell gesprochen haben, ist das nächste das neue, verbesserte Modell mit der schnellsten Reaktionsgeschwindigkeit – Claude 3.5 Haiku.

Allein von den Papierparametern her ist der mittelgroße Claude 3.5 Haiku dem GPT-4o mini fast nicht unterlegen. Man kann sogar sagen, dass er einen kleinen Vorsprung hat und die Gesamtleistung mit der Vorgängergeneration Claude 3 vergleichbar ist Opus.

Der Preis hat sich jedoch nicht geändert und die Reaktionsgeschwindigkeit hat sich nicht verlangsamt. Es besteht die falsche Erfahrung, „die Menge zu erhöhen, ohne den Preis zu erhöhen“.

Ebenso schneidet Claude 3.5 Haiku bei Kodierungsaufgaben besonders gut ab. Beispielsweise liegt sein Wert im SWE-Bench Verified bei 40,6 % und übertrifft damit viele sogenannte hochmoderne Agenten, darunter Claude 3.5 Sonnet (Original) und GPT-4o.

Geringe Latenz, verbesserte Befehlsausführungsmöglichkeiten und eine präzisere Tool-Nutzung machen Claude 3.5 Haiku besonders geeignet für Szenarien, die personalisierte Dienste erfordern.

Beispielsweise kann es Ihnen Produkte basierend auf Ihren bisherigen Einkaufsgewohnheiten empfehlen, Ihnen dabei helfen, den Preis von Produkten zu bestimmen oder Ihnen sogar dabei helfen, den Lagerbestand im Lager zu verwalten.

Endlich ist die aktualisierte Version von Claude 3.5 Sonnet jetzt für alle Benutzer verfügbar. Claude 3.5 Haiku wird noch in diesem Monat veröffentlicht. Zunächst wird es nur die Texteingabe unterstützen, die Bildeingabefunktion wird später eingeführt.

Wenn Sie in letzter Zeit auf den KI-Kreis achten, werden Sie feststellen, dass mehrere wichtige Persönlichkeiten der Branche „vorausschauend“ gespielt haben.

Demis Hassabis, Yann LeCun, Sam Altman und Dario Amodei von Anthropic behaupten alle, dass AGI innerhalb der nächsten Jahre implementiert wird, wobei der Zeitrahmen zwischen 2025 und 2030 liegt.

Sie haben einen AGI-Entwurf entworfen, der mit einer Utopie vergleichbar ist, etwa die Heilung der meisten Krankheiten, die Lösung von Klimaproblemen, die Beseitigung der Armut usw. Fasst man die Kerngedanken mehrerer langer Artikel zusammen, ist KI fast zu einem Wundermittel gegen alle Krankheiten geworden.

Allerdings muss Vertrauen durch echte Produkte bewiesen werden.

In Ermangelung eines verlässlichen und nachhaltigen Geschäftsmodells kann sich die Branche nur auf „blindes Vertrauen“ in AGI verlassen, um hohe Investitionen und Ausgaben aufrechtzuerhalten, genau wie das Zuckerbrot vor dem Esel.

Mit anderen Worten: Eine Reihe von Produktfunktionen wie das heute veröffentlichte Claude-Modell stellen auch unser Vertrauen wieder her. Gemäß dem vorherigen Produktveröffentlichungsrhythmus wird OpenAI voraussichtlich bald auf den Markt kommen.

Der Unterschied besteht darin, dass das Arsenal von OpenAI offensichtlich umfangreicher ist. Vielleicht wird als nächstes die offizielle Version von OpenAI o1 oder die „Zukunft“ Sora vorgestellt.

Als nächstes werden wir abwarten, wie OpenAI „sein Schwert zeigt“.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo