Das physische Bild des Ascend 950 AI-Beschleunigers der neuen Generation von Huawei wurde zum ersten Mal veröffentlicht und zeigt die Verpackungsform des selbst entwickelten Chips und des selbst entwickelten High-Bandwidth-Speichers (HBM) des Unternehmens. Dieser Chip integriert Huaweis selbst entwickeltes HBM der ersten Generation und eine neue Generation von KI-Beschleunigungseinheiten im selben Paket. Es ist für große Computing-Cluster positioniert und konkurriert durch Systemgröße und Clusterdichte im Vergleich zu „Hardcore“-Konkurrenten wie Nvidia hinsichtlich der Leistung eines einzelnen Chips.
Huawei hat bereits angekündigt, dass die Ascend 950-Serie Anfang 2026 offiziell auf den Markt kommen soll und mindestens zwei Modelle umfassen wird.

Berichten zufolge verfügt die 950PR-Version der Ascend 950-Serie über 128 GB Huaweis selbstentwickeltes HBM mit einer Bandbreite von etwa 1,6 TB/s; während die 950DT-Version die Kapazität auf 144 GB erhöht und die Bandbreite deutlich auf fast 4 TB/s steigert. Die Rechenleistungsziele beider Chips sind eine FP8-Leistung auf 1 PetaFLOPS-Ebene und eine FP4-Leistung auf 2 PetaFLOPS-Ebene für eine einzelne Karte und zielen auf aktuelle gängige Inferenz- und Trainingsszenarien großer Modelle ab. Die Gesamtstrategie von Huawei legt mehr Wert auf hochdichte Gehäuse und effiziente Verbindungsnetzwerke und gleicht die Lücke in der Einzelchip-Leistung durch eine Verbesserung der Rechenleistung und Verbindungseffizienz auf Schrank- und Rechenzentrumsebene aus.
In Bezug auf den Herstellungsprozess weist der Artikel darauf hin, dass es derzeit keine offiziell bestätigten Prozessknoteninformationen gibt, die Branche jedoch allgemein davon ausgeht, dass das Ascend 950 wahrscheinlich den neuesten N+3-Prozess von SMIC verwenden wird, der als 5-nm-Knoten klassifiziert ist. SMIC hat zuvor bekannt gegeben, dass sein N+3-Knoten die Massenproduktion erreicht hat, ohne auf EUV-Geräte angewiesen zu sein, und der erste öffentliche Kunde ist Huaweis Terminalprodukt, das mit Kirin 9030 SoC ausgestattet ist. In diesem Zusammenhang wird es als „natürliche“ Schlussfolgerung angesehen, dass das Ascend 950 als Huaweis strategisches KI-Beschleunigungsprodukt denselben Knoten verwendet.
Aus dem physischen Bild geht hervor, dass der Ascend 950 ein Multi-Chip-Verpackungsdesign übernimmt. Der Kern besteht aus zwei Rechenchip-Chips und wird mit zwei weiteren vermuteten I/O- und netzwerkbezogenen Chip-Chips gepaart, um ein Multi-Chip-Modul (MCM) zu bilden. Es wird angenommen, dass diese I/O- und Netzwerkchips für die Verbindung von Beschleunigerkarten mit größeren SuperPoD- und SuperCluster-Clustern verantwortlich sind und durch eine neue Generation des „Lingqu“-Verbindungsprotokolls und der optischen Verbindungstechnologie eine Verbindung mit hoher Bandbreite von Hunderttausenden Ascend 950-Karten ermöglichen. Es wird spekuliert, dass es sich bei dem Modul mit einer ringförmig um den Chip verteilten Verpackungsstruktur, die der „LPDDR/HBM-Hybridform“ ähnelt, um Huaweis selbst entwickeltes HBM-Paket handelt. Es wird höchstwahrscheinlich in einem unabhängigen Paket hergestellt und dann in einem Paket auf Systemebene auf dem Beschleunigersubstrat gestapelt und integriert.
Insgesamt weist die Designroute des Ascend 950 einige Ähnlichkeiten mit High-End-GPUs wie NVIDIA Blackwell auf. Beide nutzen ein Dual-Chip-Gehäuse, um mehr Rechenleistung auf eine einzelne Karte zu übertragen, und verlassen sich auf HBM mit hoher Bandbreite und dedizierte Verbindungsprotokolle, um große Rechencluster aufzubauen. Der Unterschied besteht darin, dass sich Huawei derzeit stärker auf die Idee des „Skalengewinns“ konzentriert und hofft, durch dichte Verpackung, Multi-Card-Verbindung und Super-Cluster-Lösungen alternative Lösungen in den Leistungsmärkten für Rechenzentren und KI-Cloud-Computing zu schaffen und gleichzeitig die unabhängige Kontrollierbarkeit der lokalen Lieferkette zu stärken.