Nachrichten vom 24. Februar zufolge fließen, obwohl Anleger einst Zweifel hatten, riesige Geldbeträge von großen Technologieunternehmen, Regierungen und Risikokapitalinstituten in beispiellosem Tempo in den Bereich der künstlichen Intelligenz. Um die Gründe für dieses Phänomen zu verstehen, ist es wichtig, einen Einblick in die Entwicklungstrends der Technologie der künstlichen Intelligenz selbst zu gewinnen.
Derzeit wandelt sich die Technologie der künstlichen Intelligenz von traditionellen großen Sprachmodellen hin zu Argumentationsmodellen und KI-Agenten. Der Trainingsprozess traditioneller großer Sprachmodelle, die von den meisten kostenlosen KI-Chatbots verwendet werden, verbraucht enorm viel Strom und Rechenzeit. Mit fortschreitender Technologie finden wir jedoch schnell Möglichkeiten, die Ressourcen zu reduzieren, die zum Ausführen dieser Modelle erforderlich sind, wenn Benutzer sie aufrufen. Im Gegensatz dazu verbraucht der tatsächlich laufende Prozess eines Inferenzmodells, das auf einem großen Sprachmodell basiert, ein Vielfaches mehr Rechen- und Leistungsressourcen als ein herkömmliches Modell.
Seit OpenAI im September 2024 sein erstes Inferenzmodell o1 veröffentlichte, haben Unternehmen für künstliche Intelligenz die Einführung von Systemen beschleunigt, die damit konkurrieren können. Dazu gehört DeepSeekR1, das die gesamte Branche der künstlichen Intelligenz aufrüttelte und die Bewertungen vieler Technologie- und Energieunternehmen ins Wanken brachte. Letzte Woche hat Elon Musks Startup xAI für künstliche Intelligenz auch sein Inferenzmodell Grok3 vorgestellt.
Die Einführung von DeepSeek löste eine gewisse Panik aus, da sie zeigte, dass Modelle der künstlichen Intelligenz kostengünstiger trainiert werden können, was möglicherweise den Bedarf an Rechenzentren und teuren fortschrittlichen Chips verringert. Allerdings hat DeepSeek die Branche der künstlichen Intelligenz tatsächlich stärker in Richtung ressourcenintensiver Inferenzmodelle getrieben, was bedeutet, dass die Nachfrage nach Computerinfrastruktur immer noch sehr groß ist.
Angesichts der größeren Fähigkeiten von Inferenzmodellen könnten sie bald zur Standardmethode werden, mit der Menschen künstliche Intelligenz nutzen, um eine Vielzahl von Aufgaben auszuführen. Sam Altman, CEO von OpenAI, sagte, dass das nächste große Upgrade der künstlichen Intelligenzmodelle des Unternehmens erweiterte Argumentationsfunktionen umfassen wird.
Warum erfordern Inferenzmodelle und die damit verbundenen Produkte wie „Deep Research“-Tools und KI-Agenten so viele Rechenressourcen? Die Antwort liegt in ihrer Funktionsweise.
Kari Briski, Vizepräsidentin für Produktmanagement für künstliche Intelligenz bei Nvidia, erklärte kürzlich in einem Blog, dass Argumentationsmodelle für künstliche Intelligenz normalerweise mehr als das Hundertfache der Rechenressourcen herkömmlicher großer Sprachmodelle verbrauchen. Dies liegt daran, dass das Argumentationsmodell über einen langen Zeitraum in der „Denkkette“ mit sich selbst sprechen muss und diese Argumentationsprozesse für Benutzer oft unsichtbar sind. Die von einem Modell verbrauchten Rechenressourcen sind proportional zum von ihm generierten Vokabular. Wenn ein Inferenzmodell also das 100-fache des Vokabulars eines herkömmlichen Modells generiert, verbraucht es auch entsprechende Leistung und Rechenressourcen.
Wenn Inferenzmodelle mit dem Internet verbunden sind, wie dies bei Google, OpenAI und den „Deep Research“-Modellen von Perplexity der Fall ist, wird der Ressourcenverbrauch noch größer sein. Die Anforderungen dieser Modelle an Rechenressourcen sind nur der Anfang. In diesem Zusammenhang planen Google, Microsoft und Meta, im Jahr 2025 insgesamt mindestens 215 Milliarden US-Dollar an Investitionen zu investieren, wovon der Großteil in den Bau von Rechenzentren für künstliche Intelligenz fließen soll. Dies bedeutet einen Anstieg ihrer Investitionsausgaben um 45 % im Vergleich zum Vorjahr.
Im Januar dieses Jahres, mit der Veröffentlichung von Chinas KI-Modell DeepSeekR1, scheinen die Kosten für Rechenleistung pro Token (einschließlich Strom- und Hardwarekosten) bald ins Bodenlose zu fallen. DeepSeek hat durch Veröffentlichungen bewiesen, dass die Trainings- und Einsatzeffizienz seines KI-Modells die zuvor vom US-amerikanischen KI-Labor veröffentlichten Methoden bei weitem übertrifft.
Oberflächlich betrachtet scheint dies darauf hinzudeuten, dass der künftige Bedarf der künstlichen Intelligenz an Rechenressourcen deutlich sinken wird, möglicherweise nur auf ein Zehntel des aktuellen Bedarfs oder sogar noch weniger. Mit der Verfügbarkeit von Inferenzmodellen dürfte jedoch der Bedarf an Rechenressourcen für die Beantwortung von Abfragen erheblich steigen. Kurz gesagt: Wenn neue effiziente Modelle auf Basis der DeepSeek-Technologie den Bedarf an KI-Rechenleistung auf ein Zehntel reduzieren und die Popularität von Inferenzmodellen den Nutzungsbedarf um das Hundertfache erhöht, wird der Gesamtbedarf an Rechenleistung auch in Zukunft um das Zehnfache steigen.
Und das ist erst der Ausgangspunkt. Wenn Unternehmen neue, leistungsfähigere KI-Modelle entdecken, greifen sie immer häufiger auf diese Modelle zurück, wodurch sich der Bedarf an Rechenressourcen vom Modelltraining auf die Modellnutzung verlagert, was die KI-Branche „Inferenz“ nennt.
Tuhin Srivastava, CEO von Baseten, das anderen Unternehmen Rechenressourcen für künstliche Intelligenz zur Verfügung stellt, sagte, dass diese Verlagerung hin zu Inferenzanforderungen bereits im Gange sei. Zu seinen Kunden zählen Technologieunternehmen, die künstliche Intelligenz in Apps und Diensten einsetzen, wie Descript, das es Content-Erstellern ermöglicht, Audio- und Videoinhalte durch Transkription zu bearbeiten, und PicnicHealth, ein Startup, das Krankenakten verarbeitet.
Srivastava sagte, dass die Nachfrage der Kunden nach ihren eigenen Produkten schnell wuchs und sie den Bedarf an mehr Rechenleistung für künstliche Intelligenz erkannten. Er fügte hinzu: „Vor sechs Monaten haben wir einem Kunden geholfen, seinen Bedarf an Rechenressourcen um 60 % zu senken, aber nur drei Monate später hatte sein Rechenleistungsverbrauch den ursprünglichen Wert überschritten.“
Unternehmen wie OpenAI, Google und Meta kämpfen immer noch darum, leistungsfähigere KI-Modelle zu trainieren. Egal wie hoch die Kosten sind, ihr Ziel ist es, so viel wie möglich vom aufstrebenden Markt für künstliche Intelligenz zu erobern. „Ich halte es für wahrscheinlich, dass Spitzenlabore weiterhin große Geldsummen investieren müssen, um Spitzentechnologien voranzutreiben“, sagte Chris Taylor, CEO von FractionalAI. Sein Unternehmen verlässt sich wie Baseten und viele andere im boomenden KI-Ökosystem auf diese hochmodernen Modelle, um seine Kunden zu bedienen.
Der Risikokapitalgeber und TheoryVentures-Gründer Tomasz Tunguz prognostiziert, dass in den nächsten Jahren neue Innovationen und mehr auf künstliche Intelligenz spezialisierte Mikrochips künstliche Intelligenzsysteme effizienter machen als heute oder die Effizienz von Endsystemen um das Tausendfache steigern könnten. Investoren und große Technologieunternehmen wetten darauf, dass die Nachfrage nach Modellen der künstlichen Intelligenz im nächsten Jahrzehnt aufgrund der Beliebtheit und schnellen Einführung von Inferenzmodellen wahrscheinlich dramatisch zunehmen wird.
„Jeder Tastendruck, den Sie machen, oder jede Silbe, die Sie in ein Mikrofon sprechen, jeder Bedienknoten wird in Echtzeit von mindestens einem KI-System verarbeitet“, sagte Tunguz. Wenn das der Fall wäre, fügte er hinzu, könnte der KI-Markt bald tausendmal größer sein als jetzt.