Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 3333

Gerade wurde Claude 3.7 Sonnet offiziell veröffentlicht.

Als Claudes intelligentestes Modell aller Zeiten nutzt es einen hybriden Argumentationsansatz, der sowohl schnell Antworten generieren als auch detaillierte Schritt-für-Schritt-Argumentation durchführen kann.

Ein Modell, zwei Denkweisen.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 1 11

Darüber hinaus veröffentlichte Anthropic auch ein intelligentes Programmiertool – Claude Code.

Beamte sagen, dass Claude 3.7 Sonnet und Claude Code einen wichtigen Schritt hin zu einer echten Verbesserung der menschlichen Fähigkeiten durch KI darstellen. Sie können nicht nur tiefgründig denken und Aufgaben selbstständig erledigen, sondern auch effizient zusammenarbeiten, wodurch die KI in der realen Welt einen größeren Wert entfalten kann.

Es ist zu lang zum Lesen, deshalb hier die gespeicherte Version:

  • Claude 3.7 Sonnet: Das weltweit erste Dual-Mode-Hybrid-Argumentationsmodell mit schneller Reaktion im Standardmodus und erweitertem Denkmodus für tiefgreifende Selbstreflexion. Es bietet eine gute Leistung bei komplexen Aufgaben wie Mathematik, Physik und Programmierung. Es konzentriert sich auf die praktische Orientierung, reduziert unnötige Ablehnungen um 45 % und stärkt die Fähigkeiten zur Code-Zusammenarbeit.
  • Claude Code: Versteht und betreibt die Codebibliothek direkt auf dem Terminal, kann manuelle Programmieraufgaben erledigen, die mehr als 45 Minuten am Stück dauern, ist auf testgetriebene Entwicklung, komplexes Debugging und groß angelegte Coderekonstruktion spezialisiert und unterstützt Kernentwicklungsprozesse wie Codebearbeitung und Testausführung vollständig.

Das weltweit erste Hybrid-Inferenzmodell wird offiziell veröffentlicht, Ihr Claude wird denken können

Das neu veröffentlichte Claude 3.7 Sonnet führt nicht nur eine detaillierte Schritt-für-Schritt-Überlegung ein, sondern legt auch den „Denk“-Prozess offen. Dank der Weiterentwicklung von DeepSeek wurde die Verbesserung der Branchentransparenz gefördert.

So wie Menschen dasselbe Gehirn nutzen können, um schnell zu reagieren und tiefgründig zu denken, ist Anthropic auch davon überzeugt, dass Denkfähigkeiten nicht auf separaten Modellen beruhen sollten.

Am besten ist es, wenn ein Modell alle Szenarien abdeckt.

Benutzer können frei wählen, ob sie das Modell schnell antworten lassen oder es über einen längeren Zeitraum intensiv nachdenken lassen möchten.

Im Standardmodus handelt es sich um eine aktualisierte Version von Claude 3.5 Sonnet; im erweiterten Denkmodus führt es vor der Antwort eine Selbstreflexion durch und verbessert so seine Leistung bei komplexen Aufgaben wie Mathematik, Physik, Unterrichtsverständnis und Programmierung erheblich.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 2 12

Den Benchmark-Testergebnissen zufolge eignet sich Claude 3.7 Sonnet (Expanded Mind Edition) für starkes logisches Denken und mathematische Aufgaben, während Grok 3 Beta und DeepSeek R1 bei bestimmten Aufgaben (Argumentation, mathematische Wettbewerbe) besser abschneiden.

DeepSeek R1 weist die stärkste Fähigkeit zur Lösung mathematischer Probleme auf (97,3 %) und schneidet auch bei anderen Aufgaben gut ab.

Im Zuge der Optimierung des Inferenzmodells reduzierte Anthropic seinen Fokus auf Wettbewerbsprobleme in Mathematik und Informatik und konzentrierte sich mehr auf die Erfüllung der tatsächlichen Anwendungsanforderungen von Unternehmen für LLM.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 3 15

Im SWE-Bench Verified-Benchmark-Test, der speziell die Fähigkeit von KI bewertet, echte Softwareprobleme zu lösen, erreichte Claude 3.7 Sonnet das branchenführende Niveau. Gleichzeitig schnitt das Modell auch im TAU-Bench-Test hervorragend ab und stellte seine hervorragende Fähigkeit zur Interaktion mit Benutzern und Tools unter Beweis.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 4 9

Erwähnenswert ist, dass Claude 3.7 Sonnet im internen Pokémon-Spieletest von Anthropic alle Modelle der vorherigen Generation übertraf und bessere Entscheidungs- und Planungsfähigkeiten demonstrierte.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 5 11

Das Modell ist jetzt für alle Claude-Abonnementpläne verfügbar, einschließlich Free, Pro, Team und Enterprise, und ist auch über die Anthropic API, Amazon Bedrock und Vertex AI von Google Cloud zugänglich.

Es ist erwähnenswert, dass mit Ausnahme der kostenlosen Version alle Plattformen den Extended Thinking Mode unterstützen.

Unabhängig davon, welches Modell Sie verwenden, bleiben die Preise dieselben wie beim Vorgängermodell. Die Gebühr für die Eingabe von 1 Million Token beträgt 3 US-Dollar und die Gebühr für die Ausgabe von 1 Million Token (einschließlich der im Denkprozess verwendeten Token) beträgt 15 US-Dollar.

Claudes Programmierkenntnisse haben es in der Vergangenheit für viele Entwickler zum Modell der Wahl gemacht, und jetzt verstärkt Claude 3.7 Sonnet seine Vorteile.

Unternehmen wie Cursor, Cognition, Vercel, Replit und Canva haben bestätigt, dass das Modell sich durch die Handhabung komplexer Codebasen, die Verwendung erweiterter Tools, die Planung von Codeänderungen und die Handhabung von Full-Stack-Updates auszeichnet.

Um die Benutzererfahrung zu optimieren, wurde die GitHub-Integration für alle Abonnementpläne geöffnet, sodass Entwickler ihre Codebasis für eine effizientere Zusammenarbeit direkt mit Claude verbinden können. Ob es darum geht, Fehler zu beheben, neue Funktionen zu entwickeln oder die Dokumentation zu verbessern, Claude 3.7 Sonnet kann persönliche Projekte und GitHub-Codebasen auf Unternehmensebene besser unterstützen.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 6 11

Was die Sicherheit betrifft, kann Claude 3.7 Sonnet durch die Zusammenarbeit mit externen Experten genauer zwischen böswilligen Anfragen und normalen Anfragen unterscheiden als das Modell der vorherigen Generation, wodurch unnötige Ablehnungen um 45 % reduziert werden und ein reibungsloseres interaktives Erlebnis geboten wird.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 8 8

▲Von der Claude 3.7 Sonnet-Systemkarte abgefangen

Möchten Sie mitten im Schreiben des Codes aufgeben? Überlassen Sie komplexe Probleme Claude Code

Anthropic hat außerdem Claude Code auf den Markt gebracht, ein Tool für intelligente Programmierung, das derzeit als begrenzte Forschungsvorschau geöffnet ist. Entwickler können Claude direkt im Terminal eine große Anzahl von Engineering-Aufgaben übergeben.

Der neu eingeführte Claude Code kann Code suchen und lesen, Dateien bearbeiten, Tests schreiben und ausführen, Code an GitHub übermitteln und pushen sowie Befehlszeilentools verwenden.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 9 10

Laut Anthropic-Verantwortlichen war Claude Code in frühen Tests in der Lage, manuelle Aufgaben, die normalerweise mehr als 45 Minuten dauerten, auf einmal zu erledigen, was die Entwicklungszeit und den Arbeitsaufwand erheblich reduzierte. Besonders hervorzuheben war die Leistung bei der testgetriebenen Entwicklung (TDD), beim Debuggen komplexer Probleme und beim Refactoring in großem Maßstab.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 10 9

Als intelligenter Programmierassistent, der auf dem Terminal läuft, kann Claude Code die Codebasis des Entwicklers direkt verstehen und Benutzern helfen, durch Befehle in natürlicher Sprache effizienter zu programmieren. Es lässt sich nahtlos in Entwicklungsumgebungen integrieren, ohne dass zusätzliche Server oder komplexe Konfigurationen erforderlich sind, was die Arbeitsabläufe erheblich vereinfacht.

Zu seinen Kernfunktionen gehören das Bearbeiten von Dateien, das Beheben von Fehlern, das Beantworten von Fragen zur Codearchitektur und -logik, das Ausführen von Tests, das Beheben von Testfehlern, das Durchführen von Codeformatprüfungen sowie das Durchsuchen des Git-Verlaufs, das Lösen von Zusammenführungskonflikten, das Erstellen von Commits und Pull-Requests usw.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 11 10

Anthropic sagte, dass sie in den nächsten Wochen planen, Claude Code weiter zu optimieren. Zu den wichtigsten Verbesserungen gehören die Verbesserung der Stabilität von Tool-Aufrufen, die Unterstützung lang laufender Befehle, die Verbesserung von In-App-Rendering-Effekten und die Verbesserung von Claudes Verständnis seiner eigenen Fähigkeiten.

Mit dieser Veröffentlichung der Vorschau-Forschungsversion soll außerdem ein tieferes Verständnis dafür gewonnen werden, wie Entwickler Claude zum Programmieren verwenden, und so eine Referenz für die weitere Optimierung zukünftiger Modellversionen bereitgestellt werden.

Interessierte Entwickler können relevante Themen überprüfen und Anweisungen auf der offiziellen Website geben
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

Entwickelt sich die KI so schnell, dass sie nicht einmal mit der Benennung mithalten kann?

X Netizen hat es tatsächlich verwendet, aber seine Aufmerksamkeit war etwas falsch. Die vor einem Jahr geschriebenen Jailbreak-Eingabeaufforderungen können immer noch verwendet werden.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 12 5

Auf die Frage, wie viele Rs es in der Erdbeere gibt, antwortete Claude Sonnet 3.7 falsch, aber der Beamte schien in dieser Frage ein Osterei vergraben zu haben. Ich muss sagen, dass der Beamte weiß, wie man Streiche spielt.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 13 7

Der bekannte Blogger @rowancheung nutzte im Vorfeld Claude 3.7 Sonnet und lobte das Modell als das beste programmierende KI-Modell der Welt. Nach Erhalt eines einfachen Befehls wurde ein Minecraft-ähnliches Spiel generiert, das sofort ausgeführt werden kann.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 14 5

Je mehr Denkmarker verbraucht werden, desto besser ist die Wirkung des von Claude 3.7 Sonett gezeichneten „Regenbogen-Einhorns“.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 15 3

Wir haben auch kurz Claude 3.7 Sonnet erlebt.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 16 2Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 16 4Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 16 3Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 16 1

„Es dauert eine Stunde, ein unebenes Seil zu verbrennen. Wie kann man daraus eine halbe Stunde abschätzen? Es dauert insgesamt eine Stunde, um ein unebenes Seil vom Anfang bis zum Ende zu verbrennen. Jetzt gibt es mehrere Seile aus dem gleichen Material. Wie kann ich die Methode des Verbrennens eines Seils anwenden, um eine Stunde und fünfzehn Minuten zu messen?“

Eine einfache Frage zur Begründung hätte die CPU von Claude 3.7 Sonnet fast ausgebrannt.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 18

Ich glaube, Sie haben bemerkt, dass der von Claude 3.7 Sonnet offenbarte Denkprozess im Vergleich zum Denkprozess von DeepSeek R1 objektiver ist und es ihm an personalisiertem Ausdruck mangelt. Dies ist ein absichtliches Design.

Anstelle einer Standard-Charakterschulung über den Denkprozess des Models wollte Anthropic Claude maximale Freiheit zum selbstständigen Denken geben, das, wie der menschliche Geist, Ideen enthalten kann, die nicht ganz richtig oder noch ausgereift sind.

Darüber hinaus ist Anthropic der Ansicht, dass der vom Modell dargestellte Denkprozess nicht unbedingt seine interne Entscheidungslogik widerspiegelt. Daher überlegt Anthropic, ob Claudes Denkprozess in zukünftigen Versionen weiterhin offengelegt werden soll, und bewertet seine Vor- und Nachteile. Weitere Anpassungen werden auf der Grundlage des Benutzerfeedbacks und des Forschungsfortschritts vorgenommen.

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 18

Interessanterweise haben wir bereits erwähnt, dass bei der Veröffentlichung neuer Modelle nacheinander auch die verschiedenen Versionsnummern und Namensregeln erstaunlich sind.

Als Sam Altman, CEO von OpenAI, letztes Jahr nach der Namensstrategie für die Produkte des Unternehmens gefragt wurde, gab er auch zu, dass dies ziemliche Kopfschmerzen bereitete.

Amodei, CEO von Anthropic, sagte auch, dass, obwohl Claudes Benennungsmethode in den frühen Tagen gut aussah, mit der schnellen Iteration und Aktualisierung des Modells auch das immer noch verwendete Benennungssystem überfordert sei.

Er wies darauf hin, dass derzeit kein KI-Unternehmen wirklich „das Problem der Benennung gelöst“ habe und alle hart daran arbeiten, einfachere und klarere Benennungsmethoden zu finden. Dies könnte auch ein seltener Konsens unter KI-Giganten sein.

Mike Krieger, Chief Product Officer von Anthropic, gab außerdem hinter den Kulissen die Namensgebung von Claude 3.7 Sonnet für die X-Plattform bekannt.

Der innere Kampfprozess ist wahrscheinlich so

Late-Night-Bombe! Das weltweit erste hybride Inferenzmodell wird veröffentlicht, Claude kann „denken“ und tatsächliche Messungen offenbaren diese Details - 19 1

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo