Erst heute wird die neueste Liste von Code Arena veröffentlicht! Qwen3.7-Max schaffte es mit 1541 Punkten in die Top 4 der Welt und übertraf damit GPT-5.5, Gemini 3.5 Flash und andere Topmodelle auf einen Schlag. Davor sind nur noch Claude Opus 4.7 und Opus 4.6 übrig.



Mit anderen Worten: Im Bereich der globalen Programmiermodelle ist Alibaba der einzige chinesische Hersteller, der in die Tabelle aufgenommen wurde, und belegt direkt hinter Anthropic den zweiten Platz.

Qwen3.7-Max schafft es in die Top 5 der Welt

Das einzige Nicht-Claude-Modell

Tatsächlich war Qwen3.7-Max bereits vor der Veröffentlichung der Liste durch Code Arena in ausländischen Entwicklerkreisen berühmt geworden.

Atomic Chat führte einen direkten Vergleich durch, der es Opus 4.7, GPT-5.5 und Qwen3.7-Max ermöglichte, auf derselben Bühne zu konkurrieren. Die Aufgabe bestand darin, eine Tetris-KI zu schreiben, die sich selbst trainieren kann.

Dadurch übertraf Qwen3.7-Max nicht nur sowohl Opus 4.7 als auch GPT-5.5 mit einem Token-Preis von nur 1,32 $, sondern verbesserte auch die Leistung um 56 %.


Ein anderer ausländischer Entwickler entschied sich für Qwen3.7-Max, um ein 3D-Modell des Universums zu erstellen, und der Effekt kann als schockierend beschrieben werden.


Auch bei der Generierungsaufgabe „3D-Pixel-Wind-Miniaturpagodenmodell“ überzeugte Qwen3.7-Max hinsichtlich Ausgabegeschwindigkeit und Qualität umfassend.






um

Entwickler Paul Couvert lobte sogar, dass Qwen3.7-Max nach der Anbindung an Hermes Agent und OpenCode grundsätzlich GPT-5.5 und Opus 4.7 ersetzen kann.


Programmieren ist so toll

Doch egal wie hoch die Laufpunktzahl ist, es ist besser, mit echten Schwertern und Waffen zu üben.

Wir haben eine knallharte „Rennspiel“-Herausforderung für Qwen3.7-Max arrangiert.

Geben Sie eine detaillierte Eingabeaufforderung ein und nach einer Weile gibt Qwen3.7-Max direkt eine abspielbare HTML-Datei aus.


In der ersten Version gab es einen kleinen Fehler, die A/D-Lenktasten waren links und rechts vertauscht.

Doch nach der zweiten Runde der einfachen Feinabstimmung der Dialoge wurde ein 3D-Rennspiel mit umfassendem Erlebnis auf den Markt gebracht.


Als ich es öffnete, war ich ehrlich gesagt ein wenig schockiert.

4 Autos befinden sich auf derselben Etappe und fahren auf einer 3-Runden-Ringstrecke. Auf der Strecke liegen mehr als 100 Goldmünzen verstreut. Wenn Sie auf Hindernisse stoßen, werden Sie langsamer und verlieren die Kontrolle.

Die Ergebnisanzeige nach dem Rennen umfasst Rangliste, Zeit, Anzahl der Goldmünzen und schnellste Runde.

Was aber wirklich überrascht, sind zwei Details, die nur Qwen3.7-Max erreichen kann.

Eine davon ist die Startschnittstelle. Nachdem die vier Modelle horizontal getestet wurden, wurde nur eine ernsthafte Startseite für das Spiel erstellt und man klickte auf „Start“, um am Wettbewerb teilzunehmen. Die anderen drei sind alle geöffnet und laufen, ohne auch nur einen Titelbildschirm.

Eine weitere Möglichkeit sind Soundeffekte. Am Ende der Aufforderung gab es eine Aufforderung, dazu ertönten die Geräusche von aufheulendem Motor und dem Verzehr von Goldmünzen. Unter den vier Modellen ist es das einzige, das über diesen Bonus verfügt, mit Motorgeräuschen und Goldmünzenklingeltönen.


Schauen wir uns die Leistung anderer Spieler an.

Das Bild des Gemini 3.5 Flash ist offensichtlich eine Spur dünner, es fehlt ihm das lebendige dreidimensionale Gefühl.

Es gibt auch Probleme mit dem UI-Layout. Die Dashboard-Informationen sind in den vier Ecken des Bildschirms verstreut und der visuelle Fokus ist verstreut.

Im Gegensatz dazu besteht die Verarbeitungsmethode von Qwen3.7-Max darin, Schlüsselindikatoren in der Mitte des Bildschirms zu konzentrieren, was eher dem natürlichen Landepunkt der Sichtlinie des Spielers entspricht.



Die Wirkung von Claude Opus 4.6 ist etwas schwer zu beschreiben.

Es gibt nicht nur sehr wenige Goldmünzen auf der Strecke, sondern die drei KI-Autos fahren auch fast gleichzeitig und ohne jegliche Zufälligkeit, als wären sie kopiert und eingefügt worden.

Schließlich gibt es noch GPT-5.5.

Es ist ersichtlich, dass die Bildqualität tatsächlich viel besser ist als bei den beiden vorherigen und die Bedienung flüssiger ist.

Aber ich weiß nicht warum, die Goldmünzen wurden zu gelben „Donuts“ verarbeitet …

Styling ist eine triviale Angelegenheit. Der Schlüssel liegt darin, dass Gemini, Claude und ChatGPT alle mehrere Fehlerrunden beheben mussten, bevor sie alle Funktionen ausführen konnten.

Grundsätzlich sind nur die Errungenschaften der ersten Generation von Qwen3.7-Max spielbar.

Die laufenden Ergebnisse liegen nahe beieinander, der tatsächliche Test ist genau und der Preis beträgt nur einen Bruchteil des Preises. Über die restlichen Schlussfolgerungen müssen die Entwickler mit ihren Füßen abstimmen.

Das „Sockel“-Modell in der Agenten-Ära

Die Antwort darauf, warum Qwen3.7-Max im anspruchsvollsten Programmierbereich eine so hohe Leistung erbringen kann, liegt in seiner Produktpositionierung.

Als Alibaba vor ein paar Tagen Qwen3.7-Max herausbrachte, gab es ihm ein ganz besonderes Label:Agentenbasismodell.

Es wurde dafür geborenFühren Sie Aufgaben über einen längeren Zeitraum selbstständig ausDesignmodell.

Interne Testdaten zeigen, dass Qwen3.7-Max in einer unabhängigen Programmieraufgabe 35 Stunden lang ununterbrochen lief und 1158 Tool-Aufrufe ausführte.

Der endgültig generierte Code erreicht eine erstaunliche 10-fache geometrische Durchschnittsgeschwindigkeit im Vergleich zur Triton-Referenzimplementierung.


Was noch schockierender ist, ist seine Fähigkeit zu „langwierigen Kriegen“ –

Nach der 30. Stunde des Abzugs blieb das Modell scharf und erkundete weiterhin neuen Optimierungsraum.

Keine Kontextverschlechterung, keine Befehlsdrift und keine Endlosschleifen während des gesamten Prozesses!

Ich muss sagen, dass die Schwierigkeit in dieser Angelegenheit nicht in den 1000 Tool-Aufrufen selbst liegt. Nach der Veröffentlichung des MCP-Protokolls ist es nicht ungewöhnlich, dass Werkzeuge 1.000 Mal angepasst werden.

Die Schwierigkeit liegt in 35 Stunden zusammenhängendem Denken.

Die meisten Modelle brechen zusammen, wenn lange Aufgaben ausgeführt werden: Entweder häuft sich der Kontext und wird unübersichtlich, und die in der ersten Hälfte gesetzten Ziele geraten später völlig in Vergessenheit; oder sie geraten in eine Endlosschleife und versuchen immer wieder dieselbe fehlgeschlagene Lösung.

Qwen3.7-Max hat das Ziel erreicht, „kontinuierlich das Richtige zu tun“.

Kerntechnologie enthüllt

Beim Programmiersprung von Qwen3.7-Max verstehen wir, dass der Kern möglicherweise mit der Aktualisierung zweier Trainingsmethoden zusammenhängt.

ersteJa,Umweltausbau.

Wenn Qwen3.7-Max ein Programmiertraining durchführt, wird jede Aufgabe in drei unabhängige Dimensionen aufgeteilt: die Aufgabe selbst, das Ausführungsframework und die Verifizierungsmethode, und die drei können frei kombiniert werden.

Die gleiche Frage wird manchmal im Claude Code-Framework, manchmal in OpenClaw und manchmal mit einer anderen Überprüfungsmethode gestellt.

Der Effekt ist, als würde ein Praktikant in alle Projektteams versetzt. Was es lernen muss, ist eine allgemeine Strategie zur Lösung von Problemen, nicht „wie man einen bestimmten Rahmen ausnutzt“.

Dies erklärt ein kontraintuitives Phänomen. Die Leistung von Qwen3.7-Max in den Frameworks Claude Code, OpenClaw und Qwen Code ist sehr stabil, und es gibt keine Situation, in der „es in seinem eigenen Framework sehr stark ist, aber es wird umständlich, wenn Sie es ändern“.


Das zweite Upgrade ist,Autonome Ausführung über große Entfernungen.

Während des Trainings stellte das Team das Framework „Dynamic Cumulative Survival Game“ vor.

Das heißt, das Modell kann in einer sich ständig ändernden Simulationsumgebung mehr als tausend Schritte kontinuierlicher Entscheidungen treffen, seine eigenen Annahmen festlegen, Strategien basierend auf Feedback anpassen und keine „Kontextkorruption“ verursachen, weil es zu lange läuft.

Hier sind intuitive Daten. YC-Bench simuliert den Betrieb eines Startup-Unternehmens über ein ganzes Jahr. Qwen3.7-Max erzielte einen Umsatz von 2,08 Millionen US-Dollar und war damit doppelt so hoch wie der der Vorgängergeneration (1,05 Millionen).

Noch wichtiger ist, dass es die Entwicklung seiner Strategie zeigt. Es kann seine Richtung selbstständig anpassen, wenn mittelfristig eine Krise auftritt, böswillige Kunden identifizieren und blockieren und schließlich zu einem stabilen Ausführungszyklus konvergieren.


Dies ist die zugrunde liegende Unterstützung für den 35-Stunden-Kernel-Optimierungsfall und der Grund, warum Qwen3.7-Max auf Kernel Bench L3 in 96 % der Szenarien Beschleunigungseffekte erzielen kann.

Und die Programmierung ist nur das erste Schlachtfeld. Die Grundlage dieser Reihe weitreichender Überlegungen und Werkzeugaufrufe weist auf ein größeres Ziel hin – eine universelle Agentenbasis.

Im Programmierfinale gibt es noch einen weiteren Spoiler

Seit dem Start von Code Arena war der Test immer harte Arbeit. Mehrstufiges Denken, Tool-Orchestrierung und vollständige Projektabwicklung sind echte Fähigkeiten auf Agentenebene.

Heute rückte Qwen3.7-Max mit einer Punktzahl von 1541 auf den vierten Platz vor und liegt zwischen Opus 4.6 Thinking und Opus 4.6.

Auf dieser Strecke, die Claude seit mehr als einem halben Jahr dominiert, hat er seine eigene Antwort gegeben. Chinesische Models sind nicht nur Verfolger, sie können auch definierend sein.

Der globale Wettbewerb um Programmiermodelle ist keine Ein-Mann-Show mehr im Silicon Valley.