Das SuperCLUE-Team hat die Evaluierungsergebnisse des chinesischen Großmodells der DeepSeek V4-Serie veröffentlicht. DeepSeek-V4-Pro belegte aufgrund seiner umfassenden Leistung den ersten Platz im Land., die Flash-Version folgte knapp auf dem zweiten Platz und das heimische Open-Source-Modell schafft einen weiteren Durchbruch. Diese Bewertung umfasst sechs Dimensionen: mathematisches Denken, wissenschaftliches Denken, Codegenerierung, Planung von Agentenaufgaben, Befolgen von Anweisungen und Illusionskontrolle. Die Pro-Version erzielte 70,98 Punkte und die Flash-Version 68,82 Punkte. Beide Werte lagen deutlich über denen anderer inländischer Modelle.


Die DeepSeek V4-Serie verfügt über einen neuen Aufmerksamkeitsmechanismus. Alle Versionen unterstützen Millionen langer Kontexte und reduzieren gleichzeitig die Rechenleistung und den Speicherverbrauch. Bei Verwendung von heimischen Chips ist der Gesamtwirkungsgrad höher.

Gegenüber der Vorgängergeneration V3.2 wurden in beiden Versionen umfassende Verbesserungen erzielt. Die Agentenfähigkeit der Pro-Version wurde um mehr als 20 Punkte verbessert, das mathematische Denken wurde um fast 10 Punkte verbessert, die Befehlsfolge wurde um fast 12 Punkte verbessert und auch die Illusionskontrolle wurde deutlich optimiert.


Während die Flash-Version effizientes Denken beibehält, verbessert sie auch das Agenten- und mathematische Denken erheblich und bietet ein hervorragendes Preis-Leistungs-Verhältnis.


Die Pro-Version (15 Yuan/Million Token) konzentriert sich auf hohe Leistung, stabilere Illusionskontrolle und eignet sich für komplexe Aufgaben und professionelle Szenen. Die Flash-Version ist schneller und günstiger. Der API-Preis beträgt nur 1,25 Yuan pro Million Token, was ihn für den täglichen Gebrauch kostengünstiger macht.

Die Evaluierung ergab auch, dass hinsichtlich der Codegenerierung und der Ausführung komplexer Anweisungen immer noch eine Lücke zwischen dem Modell und den führenden Modellen aus Übersee besteht. Insgesamt hat sich DeepSeek V4 mit seinen ausgewogenen Funktionen und erschwinglichen Kosten als erstes Gerät in China etabliert und ist zu einer hochwertigen Wahl für die tägliche Büroarbeit, Entwicklung und Erstellung sowie die Verarbeitung langer Texte geworden.