Laut Nachrichten vom 23. April, am Mittwoch US-amerikanischer Zeit, gab Google offiziell bekannt, dass seine Tensor Processing Unit (TPU) der achten Generation eine große strategische Anpassung eingeleitet hat: Zum ersten Mal wird sie die „Trainings“- und „Inferenz“-Aufgaben des KI-Modells trennen und sie an zwei unabhängige proprietäre Chips übergeben. Diese beiden Prozessoren der nächsten Generation werden voraussichtlich noch in diesem Jahr auf den Markt kommen.

Der Schritt markiert eine neue Runde des Wettbewerbs zwischen Google und Nvidia im Bereich der KI-Hardware.

„Warum zur Spezialisierung der Rechenleistung übergehen?“ Das sagte Amin Vahdat, Senior Vice President und Chief Technology Officer für KI und Infrastruktur bei Google, in einem offiziellen Blogbeitrag. „Mit dem Aufkommen von KI-Agenten glauben wir, dass die Bereitstellung speziell optimierter Chips für Trainings- und Argumentationsbedürfnisse dem gesamten Technologieökosystem zugute kommen wird.“

Derzeit wird die KI-Inferenzgeschwindigkeit zum zentralen Schlachtfeld für große Hersteller. Im März kündigte Nvidia einen bevorstehenden neuen Chip an, der es Modellen ermöglichen würde, schnell auf Benutzerfragen zu reagieren, was vor allem der Technologie zu verdanken ist, die im Rahmen der 20-Milliarden-Dollar-Übernahme des Chip-Startups Groq erworben wurde. Obwohl Google immer noch der Hauptkunde von NVIDIA ist, entwickelt das Unternehmen in diesem Zusammenhang alternative Rechenleistungslösungen, indem es Cloud-Service-Unternehmen TPUs zur Verfügung stellt.

Tatsächlich ist es zu einem Branchenkonsens geworden, dass Technologiegiganten selbst Kerne bauen und unabhängige Rechenleistung anstreben. Durch eine umfassende Anpassung der zugrunde liegenden Architektur können Unternehmen die Betriebseffizienz spezifischer Anwendungsszenarien maximieren. Von der Neural Engine, die Apple im Laufe der Jahre in iPhones integriert hat, über Microsofts KI-Chip der zweiten Generation, der im Januar dieses Jahres vorgestellt wurde, bis hin zu Metas jüngster Enthüllung, dass das Unternehmen mit Broadcom an der Entwicklung verschiedener KI-Prozessoren arbeitet, alle bestätigen diesen Trend.

In dieser „Core-Making-Bewegung“ kann Google als Pionier bezeichnet werden. Das Unternehmen begann 2015 mit dem Einsatz selbst entwickelter KI-Prozessoren und stellt seit 2018 Rechenleistungsdienste für externe Kunden über eine Cloud-Plattform bereit. Zum Vergleich: Amazon AWS brachte 2018 und 2020 Inferentia-Chips für Inferenz und Trainium-Prozessoren für Schulungen auf den Markt.

Analysten der Investmentbank D.A. Davidson schätzte in einem Bericht vom vergangenen September, dass der Gesamtwert des TPU-Geschäfts von Google und der KI-Abteilung von DeepMind etwa 900 Milliarden US-Dollar betrug.

Derzeit hat Nvidia immer noch die absolute Dominanz auf dem Markt für KI-Rechenleistung inne. Google hat in dieser Version ähnliche Produkte von Nvidia nicht direkt verglichen, sondern seine eigenen Leistungsiterationsdaten veröffentlicht: Bei gleichen Kosten ist die Leistung des neuen Trainingschips 2,8-mal so hoch wie die des im November letzten Jahres veröffentlichten TPU der siebten Generation (Codename Ironwood), und die Leistung des neuen Inferenzchips ist um 80 % gestiegen.

Es ist erwähnenswert, dass die Branche in der technischen Roadmap einhellig auf statische Direktzugriffsspeicher (SRAM) setzt. Ob Nvidias kommende Groq 3 LPU oder das KI-Chip-Einhorn Cerebras, das diesen Monat erst seinen IPO-Antrag eingereicht hat, sie alle setzen stark auf diese Technologie. Auch der diesmal von Google vorgestellte neue Inferenzchip TPU 8i folgt diesem Trend. Die SRAM-Kapazität eines einzelnen Chips beträgt bis zu 384 MB und ist damit dreimal so hoch wie bei der vorherigen Ironwood-Generation.

Sundar Pichai, CEO von Alphabet, wies in einem Blogbeitrag darauf hin, dass das Designziel der neuen Architektur darin besteht, „einen enormen Durchsatz (Throughput) und eine geringe Latenz (Latency) bereitzustellen und so die gleichzeitige Ausführung von Millionen von KI-Agenten mit extrem hoher Kosteneffizienz zu unterstützen.“

Im Hinblick auf Terminalanwendungen gab Google bekannt, dass die Kommerzialisierung seiner KI-Chips zunimmt. Unter ihnen hat der Market Maker Citadel Securities eine auf TPU basierende quantitative Forschungssoftware entwickelt; 17 nationale Labore des US-Energieministeriums setzen vollständig auf diesem Chip basierende „AI Co-scientist“-Systeme ein. Darüber hinaus hat sich das KI-Startup Anthropic verpflichtet, Googles TPU-Rechenleistungsressourcen von mehreren Gigawatt zu nutzen.