Das chinesische Startup für künstliche Intelligenz DeepSeek hat am Montag in aller Stille ein neues Modell veröffentlicht. Dieses Modell mit 685 Milliarden Parametern heißt DeepSeek-V3-0324. Es wurde ohne Ankündigung auf dem KI-Repository HuggingFace gestartet, sorgte aber dennoch für Aufsehen in der Branche.

Dieses Modell verfügt über eine MIT-Lizenz, was bedeutet, dass es für kommerzielle Zwecke frei verwendet werden kann. Erste Tests in der Branche haben bestätigt, dass das Modell direkt auf Hardware der Verbraucherklasse ausgeführt werden kann, beispielsweise auf dem High-End-Markt Apple MacStudio.

Der KI-Forscher Awni Hannun sagte, dass das neue DeepSeek-V3-Modell auf einem Apple-Computer, der mit einem M3-Ultra-Chip ausgestattet ist, mit einer Geschwindigkeit von 20 Token pro Sekunde laufen kann. Dies bricht den früheren Konsens der Branche über den Konflikt zwischen den Fähigkeiten von Modellen für künstliche Intelligenz und dem lokalen Betrieb und bedeutet auch, dass Rechenzentren für große Modelle nicht notwendigerweise geeignet sind.

Ein anderer Forscher für künstliche Intelligenz, Xeophon, behauptete auf X, dass er nach dem Testen der neuen Version von DeepSeek-V3 auf einer internen Workbench festgestellt habe, dass sie bei allen getesteten Indikatoren einen großen Sprung gemacht habe. Es ist jetzt das beste nicht-inferentielle Modell und übertrifft Claude Sonnet 3.5 von Oracle.

Zurückhaltend, aber sensationell

DeepSeek-V3-0324 erschien ohne Whitepaper oder Werbung, nur mit einer leeren ReadMe-Datei. Diese fast strenge Einführungsform steht in scharfem Kontrast zum sorgfältig kuratierten Produktförderungsmodell des Silicon Valley.

Gleichzeitig sind die Modelle von DeepSeek alle Open Source und können von jedem kostenlos heruntergeladen und genutzt werden, im Gegensatz zu einem der besten kommerziellen Modelle, ClaudeSonnet, das eine monatliche Gebühr von 20 US-Dollar verlangt.

Darüber hinaus stellt DeepSeek die Funktionsweise großer Sprachmodelle grundlegend neu dar und aktiviert während einer bestimmten Aufgabe nur etwa 37 Milliarden Parameter anstelle aller sogenannten „Experten“-Module, was den Rechenaufwand erheblich reduziert.

Das Modell verfügt außerdem über zwei weitere bahnbrechende Technologien: Multi-Latent Attention (MLA) und Multi-Tag Prediction (MTP). MLA verbessert die Fähigkeit des Modells, den Kontext über lange Texte hinweg aufrechtzuerhalten, während MTP bei jedem Schritt mehrere Token generiert, anstatt wie üblich jeweils ein Token zu generieren. Zusammengenommen erhöhen diese Innovationen die Ausgabegeschwindigkeit um fast 80 %.

In gewisser Weise verkörpert DeepSeek den Geist des ultimativen Strebens chinesischer Unternehmen nach Effizienz und Ressourcen, das heißt, wie man mit begrenzten Rechenressourcen die gleiche oder eine optimierte Leistung erreichen kann. Diese nachfragegesteuerte Innovation hat es Chinas künstlicher Intelligenz ermöglicht, die Welt innerhalb weniger Monate zu schockieren.

Auch für die Branche sind die Änderungen im neuen Modell von DeepSeek von großer Bedeutung. Einerseits werden dadurch der Energieverbrauch und die Rechenkosten großer Modelle erheblich gesenkt, was die Annahmen der Wall Street über den Umfang der Investitionen in die Infrastruktur von Spitzenmodellen weiter erschüttert. Andererseits hat der breite Konsens über Open Source in Chinas Industrie für künstliche Intelligenz die Entwicklung der heimischen KI-Industrie rasch vorangetrieben und den Abstand zwischen ihr und den weltweit größten Konkurrenten kontinuierlich verringert.

Andere glauben, dass das R2-Modell, das im April veröffentlicht werden soll, aufgrund der schnellen Aufholjagd von DeepSeek das seit langem veröffentlichte GPT-5-Modell von OpenAI direkt in Frage stellen könnte. Sollte diese Aussicht tatsächlich eintreten, könnten die unterschiedlichen Vorstellungen Chinas und der USA bei der Entwicklung künstlicher Intelligenz zu einer direkten Konfrontation führen.