Öffentliches Testranking für Webprogrammierung: DeepSeek-R1 übertraf Claude 4 und krönte sich zur weltweiten Nummer eins

Ist der Status des Programmierkönigs Claude instabil? ? Der neueste Kampfbericht der großen Modellarena ist erschienen.Die neue Version von DeepSeek R1 gewann den ersten Platz in der Webprogrammierung und schlug Claude Opus 4 knapp. Sie müssen wissen, dass Claude Opus 4 als „das stärkste Codierungsmodell der Welt“ gilt.

Was ist also der Ursprung von DeepSeek-R1-0528, das Claude Opus 4 in der Programmierung besiegen kann?

Wenn man sich den Namen ansieht, könnte man denken, dass es sich um ein kleineres Versionsupdate handelt, aber tatsächlich –

Auf LiveCodeBench ist es fast gleichauf mit OpenAI o3-high, und viele Internetnutzer spekulierten sogar, dass es sich um das legendäre R2 handelt.

Wenn man es so betrachtet, scheint es beim Programmieren nicht leicht zu sein, sich mit beiden Seiten anzulegen~

Lassen Sie uns also ohne weitere Umschweife DeepSeek-R1-0528 aus erster Hand testen, um zu sehen, wie leistungsstark Kangkang ist.

Testen Sie es tatsächlich

Derzeit ist DeepSeek-R1-0528 auf der offiziellen DeepSeek-Website, in der App und im Miniprogramm (offenes Deep Thinking) verfügbar.

Hier gehen wir direkt zur offiziellen Website zum Erleben.

Test 1: Erstellen Sie eine animierte Sonnensystem-App

Die Aufforderungsworte lauten wie folgt:

Erstellen Sie mithilfe der Websuche eine animierte Sonnensystem-App.

Denk einfach nach49 SekundenSpäter gab DeepSeek-R1-0528 einen Teil des Python-Codes weiter.

Nach der Ausführung mit VS-Code sind die Ergebnisse wie folgt:

Es gibt Animationen, die unabhängig voneinander laufen können, aber die Seite ist relativ grob.

Wenn Sie jedoch zu anderen Aufforderungswörtern wechseln, ist die Wirkung offensichtlich anders.

Verwenden Sie Three.js, um das Sonnensystem zu simulieren und den Namen des Planeten anzuzeigen, wenn die Maus darüber fährt.

In nur 34 Sekunden verdeutlichte DeepSeek-R1-0528 die Designidee:

Der Schlüssel liegt diesmalKann direkt mit einem Klick ausgeführt werden, Sie müssen Ihren eigenen Editor nicht separat öffnen.(Das Ausführen der Funktion fühlt sich an wie das Öffnen einer Blindbox und wird möglicherweise nicht immer angezeigt.)

Und es gibt auch Animation und Interaktion, und der Effekt geht direkt auf Next Nevel~ über

Test 2: Frontend-Webseitenproduktion

Als nächstes bitten wir DeepSeek, eine Website mit dem Thema AGI zu erstellen. Die Eingabeaufforderungswörter lauten wie folgt:

Bitte entwerfen Sie eine Webseite zum Thema künstliche allgemeine Intelligenz (AGI), die drei konzeptionelle Teile umfasst: „Wissensaustausch“, „Community“ und „Zukunftsgestaltung“. Jedes Teil sollte mit einem entsprechenden Symbol und einer prägnanten Beschreibung ausgestattet sein. Der Gesamtstil ist modern und technologisch und unterstreicht den innovativen und kollaborativen Geist von AGI. Verwenden Sie HTML, CSS und JavaScript für Interaktivität und visuelle Effekte.

Nach 23 Sekunden Nachdenken lieferte DeepSeek-R1-0528 anschließend einen HTML-Code, der noch mit einem Klick ausgeführt werden kann.

Test 3: Erstellen Sie ein Tetris-Minispiel

Probieren wir zum Schluss noch die englischen Aufforderungswörter aus:

Erstellen Sie eine voll funktionsfähige Version von Tetris mit wunderschönen Grafiken und Steuerelementen.
Erstellen Sie eine Vollversion von Tetris mit wunderschönen Grafiken und Steuerelementen.

Wie Sie sehen, denkt DeepSeek-R1-052812 SekundenDann wird ein Teil des Python-Codes angegeben.

Das laufende Ergebnis wird wie folgt aussehen:

Obwohl es sich tatsächlich um ein Tetris-Minispiel handelt, weist die Basisdemo offensichtliche Fehler auf und es fehlen Interaktionsschaltflächen.

Wir wollten nicht aufgeben und versuchten, DeepSeek weiter verbessern zu lassen, aber beim zweiten Mal scheiterte es.

Das verbesserte Spiel funktioniert immer noch nicht richtig(geht immer durch Wände)und implementiert nicht die von uns ausdrücklich angeforderten interaktiven Funktionen.

Zusammenfassend lässt sich sagen, dass die neue Version von DeepSeek R1 als Open-Source-Modell nach der obigen einfachen tatsächlichen Messung zwar große Fortschritte bei den Programmierfunktionen gemacht hat, aber es gibt noch Raum für Verbesserungen.

Eines lässt sich jedoch sagen: Es ist offensichtlich für normale Privatanwender benutzerfreundlicher.(Im Vergleich zum Claude-Modell ist es kostenlos und leicht zu erhalten).

Noch etwas

Neben der Aktualisierung der Programmierfähigkeitsliste wurde auch die neue Version von DeepSeek R1 ausgewähltDas derzeit beste Open-Source-Textmodell.

Unter der MIT-Lizenz belegt es den sechsten Platz in der Gesamtliste und den ersten Platz unter Open Source.

Im Unterteilungsbereich belegt es den 4. Platz bei den Schwierigkeitshinweisen und den 5. Platz in der Mathematik. Es ist ein sehr leistungsfähiger Player im Open-Source-Modell.

Es ist jedoch erwähnenswert, dass Kimis neues Modell gerade den Open-Source-Code SOTA gewonnen hat –

Open-Source-Codemodell mit nur 72B ParameternKimi-Devund erreichte Open-Source-SOTA mit einer Punktzahl von 60,4 % im SWE-Bench Verified.

Das Programmierniveau ist nicht nur besser als beim neuesten DeepSeek-R1, es schneidet auch im Vergleich zu Closed-Source-Modellen gut ab.

Was also, wenn wir seine wahren Fähigkeiten (Doge) nicht kennen?