Nach Angaben von mit der Angelegenheit vertrauten Personen plant das chinesische Unternehmen für künstliche Intelligenz DeepSeek, nächste Woche die neueste Generation des großen Sprachmodells V4 herauszubringen. Dies ist das erste große Update des Unternehmens seit der Einführung seines letzten Blockbuster-Produkts vor mehr als einem Jahr. Es wird als wichtiger Schritt für China angesehen, die amerikanischen Konkurrenten im Bereich der künstlichen Intelligenz weiterhin herauszufordern.

Laut zwei mit der Situation vertrauten Personen hat DeepSeek seinen Hauptsitz in Hangzhou, und das dieses Mal eingeführte V4 wird ein multimodales Modell mit Funktionen zur Bild-, Video- und Textgenerierung sein. Mehrere mit der Angelegenheit vertraute Personen sagten, dass DeepSeek mit Chinas lokalen KI-Chipherstellern Huawei und Cambrian zusammengearbeitet habe, um V4 anzupassen und zu optimieren, um es an die Chipprodukte der neuesten Generation beider Parteien anzupassen und so eine engere Zusammenarbeit auf der Ebene der Rechenleistung zu erreichen. Dieser Schritt wird als ein weiteres Zeichen dafür gewertet, dass chinesische Technologieunternehmen sich zunehmend von der Abhängigkeit von Nvidias High-End-KI-Chips lösen, die derzeit den US-Exportkontrollen und damit verbundenen Maßnahmen zur Eindämmung des technologischen Aufstiegs Chinas unterliegen.

Auch der Zeitpunkt dieser Veröffentlichung ist recht symbolisch. DeepSeek plant, V4 am Vorabend der jährlichen nationalen „Two Sessions“ in China auf den Markt zu bringen, die dieses Jahr am 4. März eröffnet werden. Dieses hochkarätige politische Treffen bietet dem Unternehmen ein wichtiges Zeitfenster zur Bekanntheit und könnte sein Image als „nationaler KI-Champion“ weiter festigen.

Dies ist die erste große Versionsiteration von DeepSeek seit der Veröffentlichung des R1-Inferenzmodells im Januar 2025. Damals behauptete das Unternehmen, es habe ein System trainiert, dessen Leistungsfähigkeit mit führenden Modellen vergleichbar sei, mit einer Rechenleistungsskala, die weitaus niedriger sei als die, die von führenden Unternehmen im Silicon Valley verwendet werde. Diese Nachricht löste einst einen Schock am US-amerikanischen Technologie-Aktienmarkt aus. Einige Analysten bezeichneten es als einen „Sputnik-Moment“, der Chinas schnellen Aufholprozess und sogar eine Neugestaltung der Landschaft im Bereich der künstlichen Intelligenz markierte. Seitdem hat DeepSeek mehr inkrementelle Updates als eine komplett neue Architektur auf den Markt gebracht, was auch inländischen Konkurrenten wie Alibaba und Moonshot zusätzlichen Raum für Wachstum auf dem kostengünstigen Open-Source-Markt für chinesische Modelle verschafft hat.

Mehrere mit der Angelegenheit vertraute Personen gehen davon aus, dass die Optimierung von V4 durch DeepSeek speziell für inländische KI-Chips dazu beitragen wird, die Marktnachfrage nach lokalen Chips anzukurbeln und den Transfer zu chinesischen Herstellern wie Huawei und Cambrian in der Modellinferenzphase (d. h. dem Prozess der Verwendung trainierter Modelle zur Generierung von Antworten) zu beschleunigen, wodurch die Abhängigkeit von Nvidia- und AMD-Chips verringert wird. Reuters hatte zuvor über den Fortschritt der Zusammenarbeit von DeepSeek mit Huawei und Cambrian berichtet. Eine andere mit der Situation vertraute Person sagte, dass DeepSeek nicht mit Nvidia an der V4-Optimierung arbeite.

Im Bereich des Modelltrainings dominiert jedoch immer noch NVIDIA, insbesondere in der Phase vor dem Training, die enorme Rechenleistung erfordert, und seine GPU ist immer noch der Industriestandard. Die Financial Times berichtete zuvor, dass DeepSeek versucht habe, diese Erstschulung auf Huawei-Hardware durchzuführen, dabei jedoch auf technische Schwierigkeiten gestoßen sei. Als das Unternehmen letztes Jahr das R1-Modell herausbrachte, veröffentlichte es auch einen detaillierten technischen Bericht, in dem erläutert wurde, wie das Modell auf NVIDIA-Chips effizienter trainiert und ausgeführt werden kann. Die entsprechenden Ingenieurmethoden haben breite Aufmerksamkeit und Lob erhalten. Einige Insider glauben, dass die Weitergabe seiner Trainingsmethoden für die Erstellung von „Inferenzmodellen“ durch DeepSeek tatsächlich anderen Laboren einen wiederverwendbaren Engineering-Pfad bietet und letzteren dabei hilft, die Modellinferenzfähigkeiten bei begrenzter Rechenleistung zu verbessern.

Das sogenannte „Inferenzmodell“ bezeichnet ein Modellparadigma, das speziell für die Lösung komplexer Probleme optimiert ist. Seine Kernidee besteht darin, das Problem in mehrere Teilprobleme aufzuteilen, die Schritt für Schritt gelöst werden können, und dann durch mehrstufiges Denken die endgültige Schlussfolgerung zu ziehen. Personen, die dem DeepSeek-Plan nahe stehen, gaben bekannt, dass das Unternehmen voraussichtlich nächste Woche V4 mit einem kürzeren technischen Beschreibungsdokument veröffentlichen wird, das sich auf wichtige Verbesserungspunkte konzentriert, und etwa einen Monat später einen detaillierteren technischen Bericht veröffentlichen wird, um die Modellarchitektur und Trainingsmethoden systematisch offenzulegen.

Gleichzeitig verschärft sich auch die Kontroverse um geistiges Eigentum und Modell-Kreditaufnahme. Erst Anfang dieser Woche beschuldigte das amerikanische KI-Unternehmen Anthropic DeepSeek und zwei weitere chinesische KI-Labore, sogenannte „Destillationsangriffe“ auf seine Modelle durchgeführt zu haben, d. Huawei, DeepSeek und Cambrian antworteten nicht auf Anfragen nach Kommentaren.