Es gilt als die stärkste Alternative zu ChatGPT. Wie funktioniert es nach dem großen Update? Im Anhang finden Sie einen Testlink.

November 24, 2023 Eskere Guru

Wenn Sie fragen, welcher derzeit der leistungsstärkste KI-Assistent ist? Es besteht kein Zweifel, dass es sich definitiv um ChatGPT handelt.

Vor nicht allzu langer Zeit brach ChatGPT unerwartet zusammen, was zu einem explosionsartigen Anstieg der Zahl intensiver Online-Nutzer führte. Die Schüler, die darauf angewiesen waren, um ihre Hausaufgaben zu erledigen, waren eine Zeit lang nicht in der Lage, ihre Hausarbeiten zu schreiben, und die Wanderarbeiter, die darauf angewiesen waren, um „ihr Leben zu sichern“, wollten nicht einmal zum Unterricht gehen.

Seit diesem Jahr ist ChatGPT von Zeit zu Zeit „plötzlich gestorben“. Claude, bekannt als sein stärkster Ersatz, ist möglicherweise Ihre zuverlässigste Alternative.

Verdoppeln Sie den Kontext, Claude 2.1 großes Update

Zufälligerweise hat Claude kürzlich eine Welle großer Updates erhalten. In der Vergangenheit konnte Claude nur 100.000 Token verarbeiten (ein Token ist die kleinste Einheit in der Textverarbeitung, beispielsweise ein Wort oder eine Phrase). Jetzt kann die Pro-Version von Claude 2.1 bis zu 200.000 Kontexte verarbeiten.

Anthropic-Beamte sagen, dass 200.000 Kontext etwa 150.000 Wörtern oder 500 Seiten Text entsprechen, was bedeutet, dass Sie Codebibliotheken, Finanzberichte oder lange literarische Werke hochladen können, damit Claude zusammenfasst, Fragen und Antworten gibt, Trends vorhersagt und mehrere Dokumente vergleicht und gegenüberstellt.

Wie gut kommt es also mit Chinesisch zurecht? Eine einfache Erklärung können wir mit der bisher umstrittenen Yi-34B geben. Außerdem wurde eine Version veröffentlicht, die 200.000 ultralange Kontextfenster unterstützt. Yi-34B kann ultralange Texteingaben von etwa 400.000 chinesischen Zeichen verarbeiten, was ungefähr der Länge eines Buches „The Scholars“ entspricht.

In Bezug auf Sprachmodelle kann ein langer Kontext eine präzisere Verwendung und Bedeutung liefern, dazu beitragen, Mehrdeutigkeiten zu beseitigen und dem Modell dabei helfen, kohärenten und genauen Text zu generieren. Beispielsweise erscheint das Wort „Apfel“ in „Früchte pflücken“ oder „neues iPhone“. die Bedeutung ist völlig anders.

Es ist erwähnenswert, dass der kostenlose Claude vor der Wiederherstellung der Echtzeit-Netzwerkfunktion durch GPT-4 in Echtzeit auf Weblinks zugreifen und Webinhalte zusammenfassen konnte. Dies ist selbst jetzt ein Vorteil, den GPT-3.5 nicht hat.

Die kostenlose Version von Claude kann auch die von Ihnen hochgeladenen Dokumente lesen, analysieren und zusammenfassen. Auch wenn es auf das „kostenpflichtige“ GPT-4 stößt, ist die Leistung von Claude bei der Verarbeitung von Dokumenten überhaupt nicht schlecht.

Außerdem haben wir die aktuelle Webversion von Claude und GPT-4 mit einem 90-seitigen VR-Branchenbericht „gefüttert“ und die gleichen Fragen gestellt.

Es gibt keinen Unterschied in der Antwortgeschwindigkeit zwischen den beiden, aber die kostenlosen Antworten von Claude sind flüssiger und die Qualität der Antworten ist etwas höher. Die Suchfunktion von GPT-4 ist aufgrund von Paging und Ansichten ebenfalls eingeschränkt, was ziemlich unpassend ist -spirituell.

Die Suche ist nur ein „Kinderspiel“. Als Werkzeug zur Verbesserung der Lern- oder Arbeitseffizienz benötigen wir ein „intelligenteres“ Modell. Als ich sie bat, die sich verändernde Landschaft der VR-Branche in fünf Jahren zu analysieren, gewann Claude mit einer logischen und sachlichen Antwort, obwohl sie alle ähnliche Ansichten äußerten.

Entscheidend ist, ob Sie die Frage richtig beantworten können oder nicht. Im vergangenen Jahr haben wir viele traurige Fälle erlebt, in denen große Models getäuscht wurden, indem sie „über den Zug redeten“. Anthropic behauptete, dass Claude 2.1 falsche oder halluzinatorische Aussagen um das Zweifache reduzierte, lieferte jedoch keine klaren Daten, so sehr, dass der NVIDIA-Wissenschaftler Jim Fan hinterfragte: „Die einfachste Lösung, um 0 % Halluzinationen zu erreichen, besteht darin, die Antwort auf jede Frage zu verweigern.“ ”

Anthropic hat auch viele Fallenfragen entworfen, um die Ehrlichkeit von Claude 2.1 zu testen. Mehrere Ergebnisrunden zeigen, dass Claude 2.1, wenn er auf blinde Wissenslücken stößt, unsichere Ausdrücke bevorzugt, anstatt Benutzer durch die Erstellung fadenscheiniger Antworten zu täuschen.

Ein einfaches Verständnis ist, dass, wenn die Wissenskarte von Claude 2.1 nicht über eine Reserve wie „Die Provinzhauptstadt von Guangdong ist nicht Harbin“ verfügt, stattdessen aufrichtig „Ich bin nicht sicher, ob die Provinzhauptstadt von Guangdong Harbin ist“ heißt abschließend heißt es: „Guangdong ist nicht Harbin.“ Die Provinzhauptstadt ist Harbin.“

Ein Abonnement für Claude Pro kostet etwa 20 US-Dollar und kann fünfmal so oft genutzt werden wie die kostenlose Version. Die Anzahl der Nachrichten, die ein durchschnittlicher Benutzer senden kann, hängt von der Länge der Nachricht ab. Claude sendet eine Erinnerung, wenn noch 10 Nachrichten übrig sind.

Wenn Sie davon ausgehen, dass Ihre Konversation etwa 200 englische Sätze mit jeweils 15 bis 20 Wörtern umfasst, können Sie alle 8 Stunden mindestens 100 Nachrichten senden. Wenn Sie ein so großes Dokument wie „Der große Gatsby“ hochladen, können Sie in den nächsten 8 Stunden möglicherweise nur 20 Nachrichten senden.

Zusätzlich zu normalen Benutzern hat Claude 2.1 auch eine Betaversion namens „Tool Usage“ herausgebracht, die auf den Anforderungen von Entwicklern basiert und es Entwicklern ermöglicht, Claude in die vorhandenen Prozesse, Produkte und APIs der Benutzer zu integrieren.

Mit anderen Worten: Claude 2.1 kann vom Entwickler definierte Programmfunktionen aufrufen oder von Drittanbieterdiensten bereitgestellte API-Schnittstellen verwenden, Informationen von Suchmaschinen abfragen, um Fragen zu beantworten, eine Verbindung zu privaten Datenbanken herstellen und Informationen aus der Datenbank abrufen.

Sie können eine Reihe von Tools definieren, die Claude verwenden und Anforderungen spezifizieren kann. Claude wird dann entscheiden, welche Tools erforderlich sind, um die Aufgabe zu erledigen und in seinem Namen Aktionen auszuführen, z. B. die Verwendung von Taschenrechnern zur Durchführung komplexer numerischer Überlegungen, die Umwandlung natürlicher Sprachanforderungen in strukturierte API-Aufrufe usw.

Anthropic hat außerdem eine Reihe von Verbesserungen vorgenommen, um Claude-API-Entwicklern besser zu dienen. Die Ergebnisse sind wie folgt

Die Entwicklerkonsole optimiert das Erlebnis und die Benutzeroberfläche, um die Entwicklung auf Basis der Claude API komfortabler zu gestalten
Einfacheres Testen neuer Eingabeaufforderungen (Eingabeaufforderungen/Fragen), was der kontinuierlichen Verbesserung des Modells förderlich ist
Ermöglichen Sie Entwicklern, verschiedene Eingabeaufforderungen in einer Sandbox-Umgebung zu iterieren und auszuprobieren
Für verschiedene Projekte können mehrere Eingabeaufforderungen erstellt und schnell umgeschaltet werden
Änderungen an der Eingabeaufforderung werden automatisch gespeichert, um eine einfache Rückverfolgung zu ermöglichen.
Unterstützt die Integration generierten Codes in das SDK und dessen Anwendung auf tatsächliche Projekte

Darüber hinaus führt Claude 2.1 auch die Funktion „System Prompt“ ein, mit der Claude Kontext und Anweisungen bereitgestellt werden können, sodass Claude seine Persönlichkeit während des Rollenspiels stabiler bewahren und gleichzeitig seine Persönlichkeit und Kreativität im Dialog bewahren kann. Im Gegensatz zu einfachen Prompt-Anwendungen ist diese Funktion natürlich hauptsächlich für Entwickler und fortgeschrittene Benutzer gedacht und wird in der API-Schnittstelle und nicht auf der Webseite verwendet.

Wie Claude 2.0 kostet Claude 2.1 8 US-Dollar pro Eingabe von 1 Million Token, was 2 US-Dollar weniger als GPT-4 Turbo ist, und die Ausgabe beträgt 24 US-Dollar, was 6 US-Dollar weniger als GPT-4 Turbo ist. Die Claude Instant-Version, die für niedrige Latenz und hohen Durchsatz geeignet ist, kostet 1,63 US-Dollar pro 1 Million Token-Eingabe und 5,51 US-Dollar für die Ausgabe.

ChatGPT-Killer oder Ersatz?

Obwohl Claude 2.1 sehr leistungsfähig ist, kann es vorerst nur als Ersatz für ChatGPT dienen, wenn es ausgefallen ist. Es ist noch ein langer Weg, bis es ChatGPT untergraben kann. Um eine lockere Analogie zu verwenden: Claude 2.1 ist wie eine Bettlerversion von GPT-4.

Nehmen wir als Beispiel 200K, bei dem Claude 2.1 Pro am besten ist. Obwohl Claude 2.1 Pro theoretisch über eine höhere Rechenleistung verfügt als 128K GPT-4 Turbo, zeigen die tatsächlichen Ergebnisse, dass Claude 2.1 im Hinblick auf die Fähigkeit, sich an Kontexte zu erinnern und diese genau zu verstehen, besser ist Pro ist immer noch besser. Weitaus schlechter als GPT-4 Turbo.

Nach der OpenAI-Entwicklerkonferenz testete der Internetnutzer Greg Kamradt die Kontextrückruffähigkeit von GPT-4-128K. Indem er 218 Artikel von Paul Graham (einem berühmten amerikanischen Programmierer) verwendete, um 128 KB Text zusammenzukratzen, fügte er zufällig eine sachliche Aussage an verschiedenen Stellen dieser Artikel ein (von 0 % oben bis 100 % unten): „Auf a sonniger Tag Ein Sandwich im Dolores Park zu essen ist heutzutage das Beste, was man in San Francisco tun kann.“

Anschließend forderte er das GPT-4-Turbo-Modell auf, die Faktenaussage abzurufen und verwandte Fragen zur Faktenaussage zu beantworten, und verwendete schließlich die in der Branche häufig verwendete LangChain-KI-Bewertungsmethode, um die gegebenen Antworten auszuwerten.

▲Grün steht für eine höhere Abrufgenauigkeit, Rot für eine geringere Abrufgenauigkeit. Bild von: @LatentSpace2000

Die Bewertungsergebnisse sind in der Abbildung oben dargestellt. GPT-4 Turbo kann eine hohe Speichergenauigkeit innerhalb der Tokenlänge von 73 KB aufrechterhalten. Befinden sich die Informationen am Anfang des Dokuments, können sie immer abgerufen werden, egal wie lang der Kontext ist. Erst wenn die abzurufenden Informationen im Bereich von 10–50 % des Dokuments liegen, beginnt die Genauigkeit von GPT-4 Turbo abzunehmen.

Zum Vergleich: Dieser Internetnutzer hat sich vorab auch für interne Tests von Claude 2.1 Pro qualifiziert und einen „Nadel im Heuhaufen“-Test durchgeführt. Den Bewertungsergebnissen zufolge ist in einem Dokument mit einer Länge von 200.000 Token (ca. 470 Seiten) wie GPT-4 Turbo der Erinnerungseffekt der Informationen auf der Vorderseite des Dokuments von Claude 2.1 Pro schlechter als auf der Rückseite.

▲Grün steht für eine höhere Abrufgenauigkeit, während Rot für eine geringere Abrufgenauigkeit steht.

Der Bereich, in dem Claude 2.1 Pro einen besseren Kontextlängeneffekt hat, liegt jedoch vor 24 KB, was viel niedriger ist als die 73 KB von GPT-4 Turbo. Nach dem Überschreiten von 24 KB beginnt die Speicherleistung von Claude 2.1 Pro deutlich zu sinken. Nach 90 KB wird der Effekt schlimmer und die Fehlerrate steigt deutlich an.

Es ist ersichtlich, dass mit zunehmender Kontextlänge die Erkennungsgenauigkeit von GPT-4 Turbo und Claude 2.1 Pro allmählich abnimmt. Obwohl der Test von Claude 2.1 Pro eine größere Kontextlänge abdeckt, muss GPT-4 Turbo im Vergleich zu Claude 2.1 Pro im Vergleich zu mehr praktischer Genauigkeit noch aufholen.

Claude ist vielleicht eines der stärksten großen Models in der kostenlosen Version. Wenn Sie als Texter arbeiten und ChatGPT abstürzt, kann Claude, das mit GPT-3.8 vergleichbar ist, Ihre dringenden Anforderungen erfüllen oder sogar eine bessere Leistung erbringen.

Allerdings sind personalisierte GPTs, DALL·E3 zur einfachen Bilderzeugung, Sprachkommunikation und andere Funktionen die seltenen Vorteile von ChatGPT. Gegen den leistungsstarken GPT-4 Turbo muss sich auch die aktualisierte Claude 2.1 Pro-Version geschlagen geben.

Abschließend ist hier der Link zu Claudes Erfahrung: https://claude.ai/login. Wenn ChatGPT erneut abstürzt, entspannen Sie sich, zumindest haben Sie noch Claude.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo