Es sind nur noch wenige Tage bis Ende April und die Veröffentlichung des großen Modells DeepSeek V4 hat die Herzen der Menschen berührt. Gestern haben die Forscher des Unternehmens plötzlich die DeepGEMM-Operatorbibliothek aktualisiert, die als Vorläufer der Veröffentlichung von V4 gilt. Sie haben jedoch offensichtlich die Reaktion der Außenwelt vorhergesehen und nach dem Update eine zusätzliche Erklärung hinzugefügt:Es wird betont, dass dieses Update nur mit der DeepGEMM-Entwicklung zusammenhängt und nichts mit der internen Modellfreigabe zu tun hat.Das heißt, denken Sie nicht zu viel nach, das bedeutet nicht, dass V4 veröffentlicht wird.

Je mehr diese Aussage jedoch gemacht wird, desto mehr Menschen interessieren sich für DeepSeek V4, da diese Welle von DeepGEMM-Updates viele Highlights enthält und nicht mit dem großen V4-Modell in Verbindung gebracht werden kann.

Neben der Unterstützung des FP8_FP4-Hybridbetreibers und der optimierten Unterstützung für NVIDIA Blackwell umfasst dieses Update hauptsächlich Mega MoE und HyperConnection. Mega MoE könnte eine wesentliche Verbesserung der MoE-Architektur mit sich bringen.

Mega MoE hat viele Vorteile und es gibt viele Erklärungen im Internet.Die Analyse von Gemini legt nahe, dass die Anzahl der aktivierten Experten in V4 deutlich höher sein wird als die 256 in V3 und möglicherweise Tausende beträgt.Dadurch wird die Leistung von V4 offensichtlich erheblich verbessert, während gleichzeitig die Flexibilität erhalten bleibt und keine übertriebenen Anforderungen an Rechenleistung und Videospeicher gestellt werden.

Noch wichtiger ist, dass dieses Update von DeepGEMM auch Hinweise auf die Parametermenge des V4-Großmodells gibt. Netizens sagten, dass das einschichtige MoE etwa 25,37 Milliarden beträgt.Wenn es immer noch 60 Schichten sind, wird V4 höchstwahrscheinlich ein 1,6-Tonnen-Großmodell sein, oder im schlimmsten Fall ein 48-Schicht-1,25-Tonnen-Großmodell.

Im Vergleich zu früheren Gerüchten, dass V4 über 1T-Billionen-Parameter verfügt, bedeuten 1,6T-Parameter, dass es 60 % höher ist als frühere Erwartungen, sodass es sich sehr lohnt, sich auf die Leistung zu freuen.

Falls 1,6T nicht realisiert wird, verdoppelt sich das Parametervolumen von 1,25T im Vergleich zu den 670 Milliarden Parametern der aktuellen V3. Wir können uns trotzdem auf den Auftritt freuen. Denn wenn die Mega-MoE-Technologie wieder Tausende von Experten aktivieren kann, wird dies definitiv eine Transformation und ein Meilenstein in der Entwicklung großer Modelle der MoE-Architektur sein.