Google reduziert die Rechenleistung von Gemini auf Meta

Wie die Financial Times unter Berufung auf mit der Angelegenheit vertraute Personen berichtete, warnte Google Meta etwa im März dieses Jahres, dass es seinen großen Bedarf an Rechenleistung und Kapazität für das Gemini-Modell nicht mehr decken könne, was den sozialen Riesen dazu zwinge, seine Nutzung zu reduzieren und mehrere interne KI-Projekte zu verzögern. Entsprechende Einschränkungen bestehen weiterhin. Meta hat interne Mitarbeiter gebeten, den Verbrauch von KI-Tokens „genau zu beobachten“ und einen zurückhaltenderen Ansatz zu verwenden, um Modelleingaben, -ausgaben und die Gesamtnutzung aufzurufen. Dies steht in krassem Gegensatz zu der Haltung des Unternehmens, den Einsatz von KI im vergangenen Jahr in bestimmten Szenarien intern energisch zu fördern und sogar „vorzuschreiben“.

In dem Bericht wurde darauf hingewiesen, dass Meta in den letzten Jahren zwar stark in den Aufbau seines eigenen Open-Source-Modells Llama investiert hat und CEO Mark Zuckerberg immer wieder erklärt hat, dass KI die Kernplattform der nächsten Generation des Unternehmens werden wird, Meta jedoch in vielen wichtigen Geschäftsbeziehungen stark auf Googles Gemini angewiesen ist. Laut mit der Angelegenheit vertrauten Personen nutzt Meta Gemini in großem Umfang in Szenarien wie Kundenservice, Chatbots für Werbetreibende, Codegenerierung, Entfernung verdächtiger oder schädlicher Inhalte und Betrugserkennung, und es wurde genau deshalb als interne bevorzugte Lösung ausgewählt, weil seine Leistung besser ist als Metas eigenes Modell; Gleichzeitig konkurriert auch Claude von Anthropic und nutzt es in einigen Unternehmen.

Die Angebotsverknappung durch Google betrifft nicht nur Meta, sondern auch andere Kunden, die Google Cloud und Gemini nutzen. Meta zeichnet sich jedoch dadurch aus, dass die Nachfrage viel höher ist als bei ähnlichen Kunden. Im Gegensatz zu Google, Microsoft und Amazon betreibt Meta kein eigenes Cloud-Computing-Geschäft, was bedeutet, dass es zusätzlich zu den intern selbst entwickelten KI-Systemen externe Rechenleistung und Modelldienstleistungen von Wettbewerbern beziehen muss. Im Kontext der raschen Ausweitung der Binnennachfrage verschärft sich dieses Problem der strukturellen Abhängigkeit noch weiter.

Um der steigenden Nachfrage nach KI gerecht zu werden, hat Google in den letzten Jahren die Investitionen in Rechenzentren und dedizierte Hardware weiter erhöht. Der vierteljährliche Umsatz im Cloud-Geschäft liegt bei über 20 Milliarden US-Dollar und der Auftragsbestand an nicht abgeschlossenen Aufträgen beläuft sich auf fast 460 Milliarden US-Dollar. Dies zeigt, dass die Gesamtnachfrage auf dem Markt für Rechenleistung die bestehende Produktionskapazität bei weitem übersteigt. Google gab an, dass sein First-Party-Modell mehr als 16 Milliarden Token pro Minute über direkte API-Aufrufe verarbeitete, was einer Steigerung von etwa 60 % gegenüber dem Vorquartal entspricht. Dies bestätigte auch von außen, dass in der Kommerzialisierungsphase großer Modelle Rechenleistung und -kapazität zu wichtigen Engpassressourcen werden.

Meta versucht, das gleiche Problem auf einem anderen Weg zu lösen: Einerseits baut das Unternehmen sein eigenes Rechenzentrum aus, andererseits arbeitet es mit Broadcom an der Entwicklung maßgeschneiderter MTIA-Beschleunigungschips und hofft, die Abhängigkeit von Cloud-Dienst- und Modellanbietern wie Google in Zukunft schrittweise zu verringern. Nach dem Rückschlag bei seiner Wette auf das Metaverse muss Meta dringend eine „nächste Plattform“-Erzählung im Bereich KI etablieren. Dieser Vorfall der „Begrenzung“ aufgrund der übermäßigen Abhängigkeit von externen Modellen machte auch seine Mängel und die Dringlichkeit bei der Infrastruktur- und Rechenleistungsauslegung deutlich.