AMD und Intel veröffentlichen gemeinsam ein ACE-Whitepaper, um den x86-Standard-Matrixbeschleunigungsarchitektur-Befehl set

Im Oktober 2024 gründeten AMD und Intel gemeinsam die x86 Ecosystem Advisory Group (x86 Ecosystem Advisory Group), um Branchenführer zusammenzubringen und gemeinsam die Zukunft der x86-Rechnerarchitektur voranzutreiben. Als EAG gegründet wurde, kündigte es vier Kernfunktionen an: FRED, AVX10, ChkTag und ACE.Nun haben AMD und Intel gemeinsam das ACE-Whitepaper veröffentlicht und damit diesen als „x86 Standard Matrix Acceleration Architecture“ bekannten Befehlssatz offiziell der Entwicklergemeinschaft vorgestellt.

Das Hauptziel von ACE ist klar: die Matrixmultiplikationsleistung von x86-Chips um Größenordnungen zu verbessern.

Die Matrixmultiplikation ist die grundlegende Recheneinheit neuronaler Netze und großer Sprachmodelle. Obwohl bestehende SIMD-Befehlssätze wie AVX10 Matrixoperationen abschließen können, gibt es offensichtliche Engpässe bei der Rechendichte und Skalierbarkeit.

Durch die Einführung eines Matrixbeschleunigungsmechanismus, der auf Operationen des äußeren Produkts basiert, erreicht ACE eine Rechendichte, die 16-mal so hoch ist wie die der entsprechenden AVX10-Multiplikations-Akkumulations-Operation, während derselbe Eingabevektor verbraucht wird.

In Bezug auf die Datenformatunterstützung deckt ACE nativ die aktuellen Mainstream-Genauigkeitsstandards im KI-Bereich ab, darunter INT8, OCP FP8, OCP MXFP8, OCP MXINT8 und BF16.

Als erweiterter Befehlssatz von AVX10 ist die softwareökologische Anpassung von ACE bereits im Gange. Die zugrunde liegenden Deep-Learning- und HPC-Bibliotheken, Python-Bibliotheken für wissenschaftliches Rechnen wie NumPy und SciPy sowie gängige Frameworks für maschinelles Lernen wie PyTorch und TensorFlow haben alle mit der Integrationsarbeit begonnen.

AMD und Intel betonten in dem Whitepaper, dass das Designkonzept von ACE auf geringer Reibung und großer Abdeckung beruht. Von Notebooks bis hin zu Supercomputern müssen Entwickler keinen Code für verschiedene Hardwareplattformen neu schreiben.

Dies steht in scharfem Gegensatz zur Lösung, KI-Computing auf dedizierte Beschleuniger zu migrieren, was häufig zusätzliche Codeanpassungs- und Migrationskosten erfordert.