Künstliche Intelligenz (KI) ist nicht bereit, Ihren Fondsmanager zu ersetzen, und eine Reihe öffentlicher Tests verdeutlichen den Grund dafür. In einer neuen Reihe von Handelswettbewerben, an denen die weltweit führenden KI-Modelle beteiligt sind, war die Leistung der KI bisher nicht besonders gut. Die meisten Systeme erlitten Verluste. Sie handeln zu häufig und treffen völlig andere Entscheidungen, wenn sie genau die gleichen Anweisungen erhalten . Und noch weiß niemand, ob diese Mängel verschwinden werden, wenn das Modell iterativ aktualisiert wird, oder ob sie eine grundlegende Lücke zwischen großen Sprachmodellen und der tatsächlichen Funktionsweise von Märkten offenbaren.

Nehmen Sie als Beispiel die Alpha Arena des Technologie-Startups Nof1. Die Plattform lässt acht große, hochmoderne KI-Systeme in vier Wettbewerben gegeneinander antreten, darunter Claude von Anthropic, Gemini von Google, ChatGPT von OpenAI und Grok von Elon Musk. Jedes System wurde vor jedem Spiel mit 10.000 US-Dollar finanziert und handelte dann zwei Wochen lang unabhängig mit US-Technologieaktien. Zu den Herausforderungen gehören der Handel mit mehreren Signalen, die Einführung defensiver Strategien, die Reaktion auf die Leistung der Wettbewerber und das Arbeiten mit hoher Hebelwirkung.

Das Gesamtportfolio verlor am Ende etwa ein Drittel seines Kapitals. Von allen 32 Ergebnissätzen erreichte das Modell nur sechsmal Rentabilität. Grok 4.20 erzielt Spitzenergebnisse bei einer Herausforderung, die Einblicke in die Leistung der Wettbewerber bietet. Es wurden nur 158 Transaktionen durchgeführt; Qianwen von Alibaba führte im Rahmen derselben Aufforderung 1.418 Transaktionen durch.

Alpha Arena ist nur eines von einer wachsenden Zahl verwandter Experimente. Diese Experimente testen, ob große Sprachmodelle die schwierigste Aufgabe im Finanzwesen bewältigen können: den Markt zu schlagen. Obwohl die Wettbewerbe alles andere als akademisch streng sind, sind sie doch die bisher öffentlichste Demonstration dessen, was passiert, wenn diese Systeme versuchen, einige der lukrativsten und riskantesten Jobs an der Wall Street zu übernehmen.

Der Grund, warum diese vorläufigen Ergebnisse wichtig sind, liegt darin, dass der Handel einer der wenigen Berufe im Finanzwesen ist, die immer noch vorsichtig sind, wenn es darum geht, sie vollständig der KI zu überlassen. In den letzten Jahren haben Branchenriesen von JPMorgan Chase bis Balyasny Asset Management diese Technologie in fast allen anderen Aspekten eingesetzt. Heutzutage werden große Sprachmodelle in Quant-Institutionen zum Analysieren von Nachrichten, in Hedgefonds zum Verfassen von Memos, in großen Banken zum Erkennen von Betrug und mehr verwendet. Aber wenn es um echte Gold- und Silbertransaktionen geht, ist die „menschliche Beteiligung“ immer noch das Credo der Branche und scheint verständlich.

Nof1创始人Jay Azhang
Nof1-Gründer Jay Azhang

Nof1-Gründer Jay Azhang sagte: „Das große Sprachmodell selbst kann nicht wirklich Geld verdienen. Man braucht im Grunde einen sehr komplexen Satz von Einschränkungsrahmen, Unterstützungssystemen und Datenplattformen, um ihnen eine Chance zu geben, zu spielen.“

Er sagte, dass große Sprachmodelle gut für die Recherche geeignet seien und auch gut darin seien, geeignete Werkzeuge für bestimmte Aufgaben zu finden und aufzurufen. Aber sie wissen immer noch nicht, wie wichtig jede der vielen Variablen ist, die die Aktienkursbewegungen beeinflussen, darunter Analystenbewertungen, Insiderhandel und Änderungen der Marktstimmung. Sie neigen dazu, Trades falsch zu timen, Positionen falsch zu dimensionieren und zu häufig zu kaufen und zu verkaufen.

Der AI-Blog Flat Circle hat 11 marktbezogene Wettbewerbsplattformen verfolgt, von denen alle mindestens ein Modell haben, das Rentabilität erzielt hat. Von diesen 11 Plattformen erzielten jedoch nur die mittleren Modelle von zwei Plattformen Rentabilität, was darauf hindeutet, dass die meisten Modelle Schwierigkeiten hatten, den Markt zu schlagen.

Dieses Ergebnis steht im Einklang mit der menschlichen Leistung, da die meisten aktiv verwalteten Fonds bekanntermaßen auch schlechter abschneiden als der Markt. Und genau wie Menschen unterliegen diese Modelle erheblichen Verzerrungen. Mehrere Wettbewerbe haben gezeigt, dass KI-Systeme bei gleichen Anweisungen sehr unterschiedliche Entscheidungen treffen, was erhebliche Auswirkungen auf die Institutionen hat, die sie einsetzen. Azhang gab ein Beispiel. In der letzten Wettbewerbsrunde in der Alpha Arena tendierte Claude überwiegend zu Long-Positionen, Gemini war Leerverkäufen nicht abgeneigt und Qianwen war mithilfe einer hohen Hebelwirkung eher bereit, Risiken einzugehen.

Doug Clinton, der Intelligent Alpha leitet, sagte: „Sie haben ihre eigene ‚Persönlichkeit‘, und man muss sie genauso verwalten, wie man es mit einem menschlichen Analytiker tun würde.“ Die Ergebnisse könnten verbessert werden, wenn dem Modell bewusst gemacht würde, dass es eine gewisse Verzerrung aufweist, sagte er. Intelligent Alpha verfügt über einen auf großen Sprachmodellen basierenden Fonds, der seine eigene Benchmark dazu veröffentlicht, wie gut KI Unternehmensgewinne vorhersagt.

Der Benchmark von Intelligent Alpha bietet 10 KI-Modellen Zugriff auf Finanzunterlagen, Analystenprognosen, Gewinngesprächsprotokolle, makroökonomische Daten und bis zu 10 Websuchen. Große Sprachmodelle schneiden in diesem Test aufgrund ihres engeren Fokus aggressiver ab. Im vierten Quartal 2025 erreichte die Genauigkeit von ChatGPT von OpenAI bei der Beurteilung der Richtung der erwarteten Gewinnveränderungen 68 %, was das bisher beste Ergebnis darstellt. Diese Modelle werden normalerweise mit jeder neuen Version weiter verbessert, sagte Clinton.