Test der lokalen DeepSeek-Grafikkarte: Unzureichender Grafikspeicher und unzureichende Rechenleistung sind nutzlos

Die lokalisierte Bereitstellung von DeepSeek ist heutzutage eine beliebte Anwendungsmethode. Neben der Vermeidung ausgelasteter Server kann der lokale Betrieb auch die Privatsphäre der Benutzer weitgehend schützen. Derzeit gibt es viele Versionen von DeepSeek, und der Unterschied in der Modellkapazität kann Dutzende Male betragen. Die Auswahl der für die eigene Hardware geeigneten Version für die Bereitstellung bereitet Benutzern seit jeher Kopfzerbrechen.

Heute werden wir RTX5090D, RTX5080, RTX5070Ti und RTX5070, insgesamt vier Grafikkarten der RTX50-Serie, verwenden, um den Leistungsunterschied zwischen verschiedenen Grafikkarten tatsächlich zu messen.

Lassen Sie uns zunächst die Testplattform vorstellen. Zusätzlich zu den vier diesmal getesteten Grafikkarten ist der Prozessor AMDR79800X3D und der Speicher 48 GBDDR56000 MHz.

Ich werde hier nicht zu viel über die Schritte der lokalen Bereitstellung erklären. Interessierte Benutzer können unsere vorherigen Artikel lesen.

Der Test verwendet zum Vergleich LMStudio ohne Beschleunigungsframework und verlässt sich vollständig auf die eigene Rechenleistung der Grafikkarte. Denn unterschiedliche Beschleunigungs-Frameworks optimieren Grafikkarten verschiedener Hersteller unterschiedlich und die Testvariablen sind zu groß.

Hier wählen wir zunächst das Modell [DeepSeekR1DistillQwen32B] aus.

Die GPU ist vollständig entlastet, was bedeutet, dass das DeepSeek-Modell vollständig von der GPU berechnet wird und andere Parameter voreingestellt werden können. Da die Antworten des KI-Modells jedes Mal anders ausfallen, werden hier drei Fragen gestellt und der Durchschnitt gebildet.

Zu beachten ist außerdem, dass die von uns gestellten Fragen den Umfang so festlegen, dass die KI beim Nachdenken über Antworten nicht zu stark divergiert. Wenn Sie eine unbestimmte Frage stellen wie „Was ist Philosophie?“ Die Ergebnisse jeder Antwort sind nicht quantifizierbar.

Beim 32B-Modell sieht man, dass die tok/sec der RTX5090D immer noch sehr schnell ist. Schließlich ist der 32 GB große Videospeicher als Flaggschiffprodukt dieser Generation für das KI-Training geeignet.

Beim Test der RTX5080 trat jedoch ein Problem auf. Es ist ersichtlich, dass die Denkzeit bei der Beantwortung der Frage durch den RTX5080 348 Sekunden erreichte, was fast 6 Minuten entspricht.

An dieser Stelle muss erwähnt werden, dass es eine grobe Formel zur Umrechnung des Videospeicherbedarfs für verschiedene Modelle gibt, nämlich:

(32) B÷2×1,15=Videospeicher

Daher beträgt der für das 32B-Modell erforderliche Mindestvideospeicher etwa 18,4 GB, was den 16 GB Videospeicher des RTX5080 übersteigt. Die überfüllten 2 GB Videospeicher werden durch den internen Speicher ausgeglichen.

Unabhängig davon, wie viel Speicher nach der Explosion des Videospeichers „ausgeliehen“ wird, arbeitet das Modell jedoch mit der langsamsten Geschwindigkeit.

Beim Ausführen des 32B-Modells auf der RTX2060 meines Kollegen beträgt die Bedenkzeit immer noch etwa 5 Minuten, obwohl diese über mehr „geliehenen“ Speicher verfügt.

Das Explodieren des Videospeichers hat für diesen Test keine große Bedeutung, daher haben wir ihn durch ein kleineres 8B-Modell ersetzt, damit nachfolgende Modelle den Test vollständig mit Videospeicher absolvieren können.

Aus der obigen Formel lässt sich schließen, dass das 8B-Modell nur etwa 4,6 GB Videospeicher benötigt, um den Rechenbedarf zu decken.

Nach einem Modellwechsel können alle Grafikkarten normal getestet werden und die Ergebnisse werden wie oben zusammengefasst.

Den Ergebnissen zufolge hat tok/s einen größeren Zusammenhang mit dem Grafikkartenspeicher und der Rechenleistung und zeigt die richtige Beziehung zum Leistungsverlauf. Es gibt keine große Regel für das erste Token und die Bedenkzeit. Nachfolgend haben wir die Tok/Sek.-Ergebnisse jeder Grafikkarte in einem Histogramm zusammengefasst, damit jeder klarer sehen kann.

Die RTX5090D, die über einen großen Videospeicher und eine hohe Rechenleistung verfügt, hat ohne große Überraschung die Nase vorn, während die RTX5080 und RTX5070Ti über den gleichen Videospeicher verfügen und der Abstand nicht groß ist. Entsprechend der KI-Rechenleistung zwischen verschiedenen Grafikkarten:

RTX5090D (AITOPS: 2375);

RTX5080(AITOPS:1801);

RTX5070Ti (AITOPS: 1406);

RTX5070 (AITOPS: 988)

Zumindest die Anforderungen des DeepSeek-Großsprachenmodells an die KI-Rechenleistung sind nicht die wichtigsten, sondern der Videospeicher. Solange der Videospeicher groß genug ist, bietet er einen überwältigenden Vorteil bei Inferenzoperationen.

Lassen Sie uns abschließend die wichtigsten Punkte dieses DeepSeek-Tests zusammenfassen, damit sich jeder schnell daran erinnern kann:

1. Nachfrage des DeepSeek-Großsprachenmodells nach GPU: Videospeicher > Rechenleistung

2. Umrechnungsformel für den Videospeicherbedarf des Modells(x)B÷2×1,15=Videospeicher

3. Wenn der Videospeicher die Mindestanforderungen des Modells nicht erfüllen kann, hilft keine noch so große KI-Rechenleistung.

4. Die Denkzeit hat keinen absoluten Zusammenhang mit der GPU, sondern die Offenheit des Problems

Der Zweck des für diesen Test ausgewählten LMStudios besteht darin, die tatsächliche Rechenleistung der Grafikkarte ohne Beschleunigung zu nutzen. Mittlerweile gibt es jedoch viele Beschleunigungs-Frameworks für unterschiedliche Architekturen, und selbst Laptops können große Modelle mit vollem Funktionsumfang ausführen. Vielleicht möchten Sie sie selbst ausprobieren, wenn Sie sie verwenden.

(9647699)