Lassen Sie sich nicht mehr von der lokalen Bereitstellung von DeepSeek R1 täuschen, ich helfe Ihnen, alle Fallstricke zu überwinden |
Kaufen Sie es! Nutzen Sie das chinesische Neujahr, um es zu lernen, wenn Sie Zeit haben.
Bei diesem Frühlingsfest ist DeepSeek wie ein Wels, der die Herzen unzähliger Menschen im In- und Ausland berührt. Während das Silicon Valley immer noch unter dem Schock von DeepSeek leidet, dringt allmählich ein massiver KI-„Goldrausch“ in die heimischen Mainstream-E-Commerce-Plattformen ein.
Intelligente Tastaturen, die angeblich über integriertes DeepSeek verfügen, verkaufen sich fast eine Million pro Tag, und Blogger verkaufen Kurse, mit denen man leicht 50.000 pro Tag verdienen kann. Es sind sogar 2.650 gefälschte Websites aufgetaucht, was zur offiziellen Notstandserklärung von DeepSeek geführt hat.
Es waren ängstliche Menschen, Goldgräber und noch erwartungsvollere Beobachter in der Menge. Als sie nach dem Workers’ Day endlich Zeit hatten, sich zu beruhigen und dieses KI-Artefakt zu erleben, bekamen sie eine kühle Antwort von DeepSeek R1:
Der Server ist ausgelastet. Bitte versuchen Sie es später erneut.
Dank der Open-Source-Strategie von DeepSeek wurde das Tutorial für die lokale Bereitstellung von DeepSeek R1 trotz des ungeduldigen Wartens schnell im gesamten Internet populär und entwickelte sich sogar zu einer neuen Runde von KI-Cheats für die Lauchernte.
Heute geben wir Ihnen ein Tutorial zur lokalen Bereitstellung von DeepSeek R1, ohne 998 oder 98 zu verwenden.
Das KI-Modell von DeepSeek hat gerade den brandheißen US-Strommarkt auf den Kopf gestellt – Bloomberg
Es wurde zwar bereitgestellt, aber nicht vollständig bereitgestellt.
Obwohl viele Kursblogger behaupten, dass sie die Vollversion von DeepSeek R1 problemlos ausführen können, liegen die Parameter des Vollblut-R1-Modells bei bis zu 671 B. Allein die Modelldatei erfordert 404 GB Speicherplatz und für die Ausführung sind etwa 1.300 GB Videospeicher erforderlich.
Für normale Spieler ohne Karten sind die Betriebsbedingungen hart und die Schwelle extrem hoch. Auf dieser Grundlage könnten wir unsere Aufmerksamkeit genauso gut auf die vier kleinen Destillationsmodelle von DeepSeek R1 richten, die Qwen und Llama entsprechen:
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
Blogger aus Übersee haben relevante Konfigurationen als Referenz zusammengestellt. Beachten Sie, dass das Modell immer noch auf einer GPU mit niedrigeren Spezifikationen laufen kann, solange die GPU den VRAM-Anforderungen entspricht oder diese übertrifft. Das Setup ist jedoch nicht optimal und erfordert möglicherweise einige Anpassungen.
https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
Stellen Sie das kleine R1-Modell lokal bereit, zwei Methoden, und lernen Sie es auf einmal
Das Gerät, das wir dieses Mal erleben, ist das M1 Ultra 128 GB Speicher Mac Studio. Tutorial zur lokalen Mainstream-Bereitstellung von DeepSeek, zwei Methoden, die Sie auf einmal erlernen können.
LM Studio
Als erstes erscheint die minimalistische Version von Xiaobai gemäß dem PC-Modell auf der offiziellen Website (lmstudio.ai). Zur Vereinfachung der Verwendung wird dann empfohlen, die Sprache auf vereinfachtes Chinesisch zu ändern.
Suchen Sie dann nach deepseek-r1 und wählen Sie die entsprechende Version zum Herunterladen aus. Als Beispiel habe ich das aus dem Ali Qwen-Modell destillierte 7B-Kleinmodell als Basis ausgewählt.
Nachdem die Konfiguration abgeschlossen ist, kann diese mit einem Klick gestartet werden.
Der Vorteil der Verwendung von LM Studio besteht darin, dass es keine Codierung erfordert und über eine benutzerfreundliche Oberfläche verfügt. Beim Ausführen großer Modelle ist jedoch eine hohe Leistung erforderlich, sodass es für Anfänger besser geeignet ist, Grundfunktionen zu verwenden.
Ollama
Natürlich haben wir auch erweiterte Pläne für Benutzer vorbereitet, die ein tieferes Erlebnis anstreben.
Laden Sie Ollama zunächst von der offiziellen Website (ollama.com) herunter und installieren Sie es.
Öffnen Sie nach dem Start das Befehlszeilentool. Mac-Benutzer verwenden die Tastaturbefehlstaste+Leertaste, um das „Terminal“-Tool zu öffnen. Windows-Benutzer verwenden die Tastatur, um Win+R auszuführen und cmd einzugeben, um das „Eingabeaufforderungstool“ zu öffnen.
Geben Sie den Codebefehl (ollama run deepseek-r1:7b) in das Fenster ein, um den Download zu starten. Bitte achten Sie auf die englische Statuseingabe, überprüfen Sie die Leerzeichen und Bindestriche und geben Sie nach dem Doppelpunkt den gewünschten Versionsnamen ein.
Sobald die Konfiguration abgeschlossen ist, können Sie im Befehlszeilenfenster eine Konversation starten.
Diese Methode stellt sehr geringe Leistungsanforderungen, erfordert jedoch Kenntnisse über Befehlszeilenoperationen und ist auch in der Kompatibilität des Modells eingeschränkt. Sie eignet sich eher für fortgeschrittene Entwickler, um erweiterte Operationen zu implementieren.
Wenn Sie eine besser aussehende interaktive Oberfläche wünschen, können Sie das Plug-in auch im Chrome-Browser installieren, PageAssist suchen und installieren.
Wählen Sie ein lokal installiertes Modell aus, um zu beginnen.
Ändern Sie die Sprache in den Einstellungen in der oberen rechten Ecke, wählen Sie das Modell auf der Startseite aus, um die Konversation zu starten, und unterstützen Sie grundlegende Internetsuchen, und das Gameplay wird vielfältiger.
Wenn du rennen kannst, kannst du rennen, aber…
Für dieses Erlebnis haben wir LM Studio verwendet.
Mit seinen hervorragenden Optimierungsfunktionen ermöglicht LM Studio die effiziente Ausführung von Modellen auf Hardware der Verbraucherklasse. Beispielsweise unterstützt LM Studio die GPU-Offloading-Technologie, die das Modell in Blöcken auf die GPU laden kann, um eine Beschleunigung zu erreichen, wenn der Videospeicher begrenzt ist.
Genau wie beim Tuning eines Rennwagens wirkt sich jeder Parameter auf die endgültige Leistung aus. Bevor Sie ihn erleben, wird empfohlen, die Inferenzparameter entsprechend den Anforderungen in den Einstellungen von LM Studio anzupassen, um die Qualität der Modellgenerierung und die Zuweisung von Rechenressourcen zu optimieren.
- Temperatur: Steuert die Zufälligkeit des generierten Textes.
- Kontextüberlaufbehandlung: Bestimmt, wie mit überlangen Eingaben umgegangen wird.
- CPU-Thread: Beeinflusst die Generierungsgeschwindigkeit und die Ressourcennutzung.
- Stichprobenstrategie: Stellen Sie die Rationalität und Vielfalt des generierten Textes durch mehrere Stichprobenmethoden und Strafmechanismen sicher.
DeepSeek-Forscherin Daya Guo hat ihren internen Tuning-Leitfaden für die X-Plattform geteilt. Die maximale Generationslänge ist auf 32768 Token festgelegt, der Temperaturwert wird auf 0,6 gehalten und der Top-P-Wert ist auf 0,95 festgelegt. Jeder Test generiert 64 Antwortproben.
Detaillierte Konfigurationsempfehlungen lauten wie folgt:
1. Stellen Sie die Temperatur zwischen 0,5 und 0,7 ein (empfohlene Einstellung ist 0,6), um zu verhindern, dass das Modell endlos sich wiederholende oder inkohärente Inhalte ausgibt.
2. Vermeiden Sie das Hinzufügen einer Systemaufforderung. Alle Anweisungen sollten in der Benutzeraufforderung enthalten sein.
3. Bei mathematischen Fragen wird empfohlen, Anweisungen in die Eingabeaufforderung einzufügen, zum Beispiel: „Bitte begründen Sie Schritt für Schritt und geben Sie die endgültige Antwort in boxed{} ein.“
4. Bei der Bewertung der Modellleistung wird empfohlen, mehrere Tests durchzuführen und die Ergebnisse zu mitteln.
5. Darüber hinaus haben wir festgestellt, dass das Modell der DeepSeek-R1-Serie bei der Beantwortung bestimmter Abfragen möglicherweise den Denkmodus umgeht (d. h. „nn“ ausgibt), was sich auf die Leistung des Modells auswirken kann. Um sicherzustellen, dass das Modell eine ausreichende Inferenz durchführt, empfehlen wir, das Modell zu zwingen, seine Antwort mit „n“ am Anfang jeder Ausgabe zu beginnen.
▲Bewertung und Vergleich des destillierten Versionsmodells durch DeepSeek-Beamte
Eine größere Anzahl von Parametern führt nicht unbedingt zu besseren Ergebnissen. Bei den kleinen Modellen, die wir erlebt haben, ist der Gesamtstärkeunterschied zwischen Modellen mit benachbarten Parametermengen nicht so hierarchisch. Wir haben auch einige einfache Tests durchgeführt.
„Wie viele e gibt es in deekseeeek?“
Die Reaktionsgeschwindigkeit des 8B-Modells ist sehr hoch und erreicht im Grunde 60 Token/s, aber eine schnelle Antwort bedeutet nicht, dass die Antwort richtig ist. Ein kleiner Unterschied kann einen großen Unterschied machen. Der Denkprozess zeigt, dass das Modell eher einer Antwort ähnelt, die auf den „DeepSeek“-Wörtern in der Wissensdatenbank basiert.
Auch Modell 14B hat die Antwort nicht richtig verstanden. Erst mit dem Erscheinen des 32B-Modells sahen wir endlich eine verlässliche Antwort. Modell 70B zeigte eine sorgfältigere Argumentation, gab aber auch falsche Antworten.
In Bezug auf die Qualität der Antworten auf diese Frage haben 32B und 70B jeweils ihre eigenen Vorzüge, da 32B eine bessere Kontrolle über die Details der Drehbuchszenen hat, während 70B einen Antwortbogen mit vollständigen Charakteren und einer vollständigen Handlung lieferte.
„Jemand nimmt ein Flugzeug irgendwo auf der Nordhalbkugel und fliegt 2.000 Kilometer genau nach Osten, genau nach Norden, genau nach Westen und genau nach Süden. Kann er am Ende an denselben Ort zurückkehren?“
▲ DeepSeek-R1-Distill-Qwen-32B
▲DeepSeek-R1-Distill-Llama-70B
Natürlich gilt: Je kleiner die Parameter, desto geringer die Antwortgenauigkeit. Selbst wenn der Denkprozess reibungslos verläuft, werden aufgrund mangelnder Festigkeit spätere Fehler gemacht. Im Bereich der mathematischen Berechnungen wird der Unterschied in der Stärke zwischen Modellen unterschiedlicher Größe deutlicher.
Die lokale Bereitstellung hat drei große Vorteile: Sie müssen nicht in die Cloud hochgeladen werden, und die API-Aufrufgebühren entfallen, was sie besonders für Unternehmen, Entwickler und Benutzer geeignet macht, die auf Privatsphäre achten.
Aber die Nichtunterstützung des Internets hat auch Nachteile. Wenn Sie es nicht mit „Daten“ versorgen und die Wissensdatenbank nicht rechtzeitig aktualisieren, stagniert auch sein Informationserkennungsniveau. Wenn die Wissensdatenbank beispielsweise bis 2024 reicht, kann sie Ihre neuesten KI-Nachrichten nicht beantworten.
Die am häufigsten verwendete Funktion der lokalen Bereitstellung besteht darin, eine eigene Wissensdatenbank aufzubauen. Die Methode besteht darin, nach der Installation von LM Studio einen mit Anything LLM verknüpften Bereitstellungsschritt hinzuzufügen.
In Anbetracht der Wirkung und Anwendbarkeit haben wir das 32B-Modell als Verknüpfungsmodell verwendet und die Ergebnisse zeigten, dass die Wirkung auch sehr allgemein war. Die größte Herausforderung bestand in der Einschränkung des Kontextfensters.
Ich habe nacheinander einen Artikel mit nur 4.000 Wörtern und einen mit etwa 1.000 Wörtern eingegeben. Die Antwort des ersteren war immer noch sehr verwirrend, während die Antwort des letzteren etwas nutzlos war, um mit Artikeln mit etwa 1.000 Wörtern umzugehen, also war es als Spielzeug in Ordnung, aber die Produktivität war kaum interessant.
Es sollte auch betont werden, dass es einerseits äußerst schwierig ist, den Mund dieser vier Modelle aufzubrechen. Andererseits empfehlen wir Ihnen nicht, einen „Jailbreak“ zu versuchen. Obwohl im Internet viele neue Versionsmodelle im Umlauf sind, die angeblich leicht zu „jailbreaken“ sind, empfehlen wir aus Sicherheits- und ethischen Gründen keine zufällige Bereitstellung.
Da wir nun jedoch an diesem Punkt angelangt sind, können wir genauso gut dem Grundsatz folgen, alles zu wissen und versuchen, einige kleine Modelle herunterzuladen und bereitzustellen, die über formelle Kanäle veröffentlicht werden.
Gibt es zusätzlich zur lokalen Bereitstellung kleiner R1-Destillationsmodelle ein schlechtes Paket für die Vollblut-R1-Version?
Matthew Carrigan, ein Ingenieur bei Hugging Face, demonstrierte kürzlich ein Hardware- und Software-Setup, das das vollständige DeepSeek-R1-Modell, Q8-Quantifizierung und keine Destillation auf der X-Plattform ausführt, was etwa 6.000 US-Dollar kostet.
Im Anhang finden Sie den vollständigen Konfigurationslink:
https://x.com/carrigmat/status/1884244369907278106
Müssen wir näher an der Heimat wirklich eine destillierte Version von DeepSeek R1 lokal bereitstellen?
Mein Vorschlag ist, diese kleinen R1-Modelle nicht als Teslas zu betrachten. Sie ähneln im besten Fall eher Wuling Hongguang, aber ihre Leistung ist ganz anders, oder es fehlen ihnen Arme und Beine.
Nach den Erfahrungen mit der lokalen Bereitstellung der am häufigsten verwendeten benutzerdefinierten Wissensdatenbankfunktionen ist der Effekt nicht zufriedenstellend. Wenn es mit spezifischen Problemen konfrontiert wird, kann es nicht genau „herausfinden, was das Problem ist“ oder es einfach nur erfinden, und seine Genauigkeit ist besorgniserregend.
Für die überwiegende Mehrheit der Benutzer besteht die beste Lösung darin, die offizielle Version zu verwenden oder eine Plattform eines Drittanbieters zu verwenden. Dies erfordert keine teuren Hardwarekosten oder Sorgen über eine eingeschränkte Leistung.
Selbst nach langem Kampf werden Sie feststellen, dass es besser ist, nach der Arbeit ein gutes Essen zu sich zu nehmen, anstatt viel Zeit, Energie und Geld in den Einsatz dieser kleinen Modelle vor Ort zu investieren.
Für Unternehmensbenutzer, Entwickler oder Benutzer mit besonderen Anforderungen an den Datenschutz ist die lokale Bereitstellung immer noch eine erwägenswerte Option, aber nur, wenn Sie verstehen, warum Sie sie benötigen und welche verschiedenen Einschränkungen sie mit sich bringt.
Im Anhang finden Sie Xiaobais QA-Fragen und Antworten:
- F: Kann ich DeepSeek auf einem normalen Computer bereitstellen?
Antwort: Die Vollversion von DeepSeek stellt höhere Computeranforderungen. Wenn Sie sie jedoch nur für einfache Vorgänge verwenden möchten, können Sie einige kleine Destillationsmodelle auswählen, müssen aber trotzdem tun, was Sie können. - F: Was ist die destillierte Version von DeepSeek R1?
Antwort: Das destillierte Modell ist eine „vereinfachte“ Version mit geringeren Hardwareanforderungen und höherer Laufgeschwindigkeit. - F: Kann ich DeepSeek ohne Internet nutzen?
A: Wenn Sie DeepSeek lokal bereitstellen, können Sie es ohne Internet nutzen. Wenn Sie es über die Cloud oder eine Drittanbieterplattform nutzen, benötigen Sie für den Zugriff eine Internetverbindung. - F: Sind meine persönlichen Daten bei der Nutzung von DeepSeek sicher?
Antwort: Wenn Sie DeepSeek lokal bereitstellen, werden Ihre Daten nicht in die Cloud hochgeladen, was sicherer ist. Wenn Sie die Online-Version nutzen, achten Sie darauf, eine vertrauenswürdige Serviceplattform zu wählen, um die Privatsphäre zu schützen.
Autor: Mo Chongyu, Lin
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo