MLCommons gab offiziell die Leistungsbenchmark-Testergebnisse von MLPerf Inference v3.1 für das 6-Milliarden-Parameter-Large-Language-Modell und das Computer-Vision- und Natural-Language-Processing-Modell GPT-J bekannt. Der Intel-CPU-Prozessor und der KI-Beschleuniger haben eine gute Leistung erbracht und sind bei der KI-Inferenz recht konkurrenzfähig.

Die zuvor veröffentlichten MLCommonsAI-Trainingsergebnisse und die Leistungsbenchmark-Testergebnisse von HuggingFace im Juni zeigten, dass der Intel Gaudi2AI-Beschleuniger die Leistung des NVIDIA H100-Beschleunigers in erweiterten visuellen Sprachmodellen vollständig übertreffen kann.Es kann als die einzig mögliche Alternative zu NVIDIAH100/A100 bezeichnet werden, die neuesten Ergebnisse bestätigen dies erneut.

Beim GPT-J-Modell beträgt die GPT-J-99-, GPT-J-99.9-Serverabfrage- und Offline-Beispielinferenzleistung des Intel Gaudi2-Beschleunigers 78,58 Mal/Sekunde bzw. 84,08 Mal/Sekunde.

Im Vergleich zu Konkurrenzprodukten weist H100 nur 1,09-fache (Server) und 1,28-fache (Offline) Leistungsvorteile gegenüber Gaudi2 auf. Gaudi2 bietet 2,4-fache (Server) und 2-fache (Offline) Leistungsvorteile gegenüber A100.

Das ist erwähnenswertDie von Gaudi2 übermittelten Ergebnisse verwenden den FP8-Datentyp mit einer Genauigkeit von 99,9 %.

Die Gaudi2-Software wird alle 6–8 Wochen aktualisiert und wird die Leistung des MLPerf-Benchmarks weiter verbessern und die Modellabdeckung erweitern.

Gleichzeitig reichte Intel sieben Inferenz-Benchmark-Tests ein, die auf den skalierbaren Xeon-Prozessoren der vierten Generation von SapphireRapid basieren, darunter das GPT-J-Modell.

Die Ergebnisse zeigen, dass der Xeon der vierten Generation bei der Bewältigung allgemeiner KI-Arbeitslasten, einschließlich Seh-, Sprachverarbeitungs-, Sprach- und Audioübersetzungsmodellen sowie dem größeren DLRMv2-Deep-Learning-Empfehlungsmodell und dem ChatGPT-J-Modell, eine sehr gute Leistung erbringt.

Ab sofort,Intel bleibt der einzige Anbieter, der öffentliche CPU-Ergebnisse mithilfe branchenüblicher Deep-Learning-Ökosystemsoftware einreicht.

Den neuesten Ergebnissen zufolgeMithilfe von GPT-J kann der Xeon der vierten Generation im Offline-Modus zwei Absätze pro Sekunde und im Echtzeit-Servermodus einen Absatz pro Sekunde fertigstellen, um eine Pressemitteilung mit 1.000 Wörtern und etwa 1.000 bis 1.500 Wörtern zusammenzufassen.

Auch,Intel legt erstmals MLPerf-Testergebnisse für Xeon CPUMax-Prozessoren vor, die bis zu 64 GB HBM3-Speicher mit hoher Bandbreite integriert, ist die einzige CPU, die eine Genauigkeit von 99,9 % für GPT-J erreichen kann, was sich sehr gut für Anwendungen mit extrem hohen Genauigkeitsanforderungen eignet.

Besuchen Sie die Kaufseite:

Intel Flagship Store