MLPerfs neuester GPT-Inferenztest für große Modelle ist veröffentlicht! Mit einer Leistung, die bis zu 1,8-mal höher ist als die von NVIDIA H100, ist dieses inländische Rechenleistungsunternehmen erneut weltweit führend. Als AIGC-Anwendungen wie ChatGPT eine Welle großer Modelle auslösten, war die Rechenleistungsschicht als Infrastruktur die erste Branche, die davon profitierte.

Probleme wie ein hoher Bedarf an Rechenleistung und hohe Kosten sind jedoch zu häufigen Problemen für Unternehmen bei der Implementierung großer Modelle geworden und schränken eher die Weiterentwicklung der KI ein: Die Parameter großer Modelle nehmen von Tag zu Tag zu, während gleichzeitig Engpässe bei der Rechenleistungsversorgung drohen, was einen großen Widerspruch zwischen beiden schafft.

Der Schwerpunkt der Branche liegt auf der Erforschung besserer Rechenleistungslösungen für große Modelle.

Kürzlich gab die weltweit maßgebliche Bewertung MLPerf die neuesten Ergebnisse der Inferenzbewertung bekannt. Dies ist das erste Mal, dass MLPerf den GPT-Inferenztest für große Modelle einführt. Mit mehr als 13.500 eingereichten Leistungsergebnissen von NVIDIA, Intel, Google, Qualcomm und anderen Unternehmen hat die Teilnahmequote einen neuen Rekord erreicht.

In MLPerfInference3.1 belegte die MoffetAI S30-Rechenkarte den ersten Platz beim großen Modell GPT-J (6 Milliarden Parameter), wobei die Rechenleistung für Einzelkarten, 4 Karten und 8 Karten an erster Stelle stand.


Dies ist die dritte Titelverteidigung in Folge für Ink Core bei MLPerf.

Zuvor hatte der Tintenkern zwei Jahre in Folge den ersten Platz in MLPerfInference2.0 und 2.1 gewonnen.


Ink Core S30-Rechnerkarte

Die Errungenschaften von Ink Core haben machbare innovative Richtungen für groß angelegte Modell-Rechenleistungslösungen eröffnet.

Fakten haben bewiesen, dass kollaborative Innovationen von Hardware und Software, die KI-Modelle und Computerplattformen kombinieren, ein größeres Rechenleistungspotenzial freisetzen können. Dies beweist auch einmal mehr, dass innovative Technologien, die durch Sparse Computing repräsentiert werden, der Schlüssel zur Entwicklung der Rechenleistung im Zeitalter großer Modelle sein werden.

Der Tintenkern nimmt an der offenen MLPerf-Partition teil. Nach Angaben des Veranstalters MLCommons soll diese Trennwand Innovationen fördern. Daher können die Teilnehmer Möglichkeiten zur Verbesserung der Rechenleistung durch Software- und Hardware-Zusammenarbeit erkunden.

Beim GPT-J-Großmodell in MLPerf erzielte die 12-nm-Prozess-Ink Core S30-Rechenkarte im Vergleich zur reinen H100-Hardwarebeschleunigungslösung des 4-nm-Prozesses durch den -Ansatz „ursprünglicher Dual-Sparse-Algorithmus + Hardware-Zusammenarbeit“ einen bis zu 1,8-fachen Vorteil.

Das GPT-J-Modell in dieser Bewertung ist ein generatives KI-Modell. Die Leistung der Ink Core S30-Rechnerkarte im 8-Karten-, 4-Karten- und Einzelkartenmodus beträgt jeweils 170,5. 9, 91,57, 23,28 (Sample/s), was die 1,6-fache, 1,8-fache und 1,8-fache Leistung von NVIDIA H100 erreicht und die Fähigkeiten von Ink-Core-Produkten bei AIGC-Aufgaben demonstriert.


gewann die Meisterschaft dreimal. Die Rechenleistung des großen Modells war die erste, die „das Papier einreichte“, und die Software- und Hardware-Zusammenarbeit führte zu weiteren Innovationen. Die Produktstärke von Ink Core wurde von MLPerf mehrmals gründlich getestet und außerdem einen neuen Weg für die Entwicklung der Rechenleistung großer Modelle erkundet.

01

Rare Sparse Computing – „potenzieller Bestand“ großer Modelle hat an Markt gewonnen Erkennung

Die hervorragenden Ergebnisse des Tintenkerns sind hauptsächlich auf das kollaborative Design von Software und Hardware basierend auf einem Sparse-Algorithmus zurückzuführen.

Im Zeitalter großer Modelle ist die Bedeutung von Sparse Computing offensichtlich: Die Größe eines KI-Modells ist direkt proportional zu seinem Sparsifizierungspotenzial.

Mit anderen Worten: Je größer das Modell, desto größer ist die Wahrscheinlichkeit, dass der Algorithmus spärlich ist, und die Beschleunigung spärlicher Berechnungen ist ebenfalls höher. Bei allgemeinen großen Sprachmodellen kann Sparse Computing eine um das Dutzendfache Beschleunigung bringen.

Inkcores ursprünglicher Dual-Sparse-Algorithmus, kombiniert mit Software- und Hardware-Collaboration-Design, macht den Antoum®-Chip von Inkcore zum weltweit ersten KI-Chip mit hoher Sparse-Vergrößerung, der bis zu 32-fache Sparseness unterstützt – das ist der Schlüssel zu Inkcores rekordverdächtigem Rekord in diesem MLPerf.

Je größer das Modell, desto offensichtlicher ist der Vorteil von Sparse Computing – insbesondere in der aktuellen Situation, in der die Parameter großer Modelle wie GPT oft Dutzende oder Hunderte von Milliarden erreichen, was den Graben des Tintenkerns stabiler macht.

Die Produktstärke des Ink Core und der allgemeine Trend zum Sparse Computing wurden auch von der Branche erkannt: Der Kommerzialisierungsprozess des Ink Core hat nacheinander wichtige Durchbrüche erzielt und Unternehmen dabei geholfen, KI-Anwendungen zu beschleunigen.

Erst kürzlich ist Ink Core offiziell einer der Anbieter geworden, die ByteMLPerf unterstützen.


Quelle: ByteMLPerf-Website

Projektadresse: https://github.com/bytedance/By teMLPerf/blob/main/README.md

Derzeit kann die Ink Core AI-Computerplattform große Modelle mit verschiedenen Parameterebenen unterstützen, einschließlich BLOOM, OPT, GPT-J, LLaMA, StableDiffusion usw.

Gleichzeitig ist dies der Fall Die Merkmale sind hoher Durchsatz, geringe Latenz und geringer Stromverbrauch, was die Schwierigkeit der Rechenleistung verringert und Unternehmen wirklich „benutzerfreundliche“ und „erschwingliche“ Rechenleistungslösungen für große Modelle bietet.

02

bringt grundlegende Änderungen in der Rechenleistung mit sich, und Sparse Computing unterstützt die Lida-Modellentwicklung

Die Sparse-Computing-Lösung des Tintenkerns kann nicht nur das aktuelle Problem der Rechenleistung lindern, sondern auch neuen Raum für die nachhaltige Entwicklung der KI eröffnen.

Sparse Computing reduziert den Rechenaufwand von KI-Modellen, was bedeutet, dass große Modelle die Anzahl der Parameter um mehrere Größenordnungen erhöhen können, ohne zu viel Rechenaufwand zu erzeugen. Es wird erwartet, dass der Widerspruch zwischen großem Modellparameterwachstum und Engpässen bei der Rechenleistung grundsätzlich gelöst wird.

Gleichzeitig wurden aufgrund der Reduzierung des Berechnungsaufwands die Schwachstellen hoher Rechenleistungsanforderungen, hoher Stromverbrauch und hohe Kosten großer Modelle gelöst, wodurch ein „Win-Win“-Effekt erzielt wurde.


Tintenkern-Antoum-Chip: der weltweit erste KI-Chip mit hoher Sparse-Vergrößerung, der bis zu 32-fache Sparse unterstützt

TAGPH5 2Die hervorragenden Ergebnisse von drei aufeinanderfolgenden MLPerfs beweisen nicht nur die Stärke der Tintenkernprodukte, sondern bringen auch neue Erkenntnisse für die Branche: Mit Hilfe von Technologien wie Sparse Computing wird erwartet, dass die Entwicklung und Anwendung großer Modelle einen größeren Entwicklungsraum eröffnet und die Verbreitung von AIGC und anderen Anwendungen in allen Lebensbereichen beschleunigt.

03

TAGPH 59Über MLPerf

MLPerf Initiiert von Turing-Award-Gewinner David Patterson in Zusammenarbeit mit führenden akademischen Institutionen wie Google, Stanford und der Harvard University ist es der maßgeblichste und einflussreichste internationale Benchmark-Test für die KI-Leistung, der eine zeitnahe Verfolgung und Bewertung der schnell wachsenden KI-Computing-Anforderungen und -Leistungen ermöglicht.