Die leistungsstärkste Fähigkeit großer Modelle künstlicher Intelligenz ist definitiv die grundlegendste Textverarbeitungsfunktion. Allerdings haben Forscher eines Start-up-Unternehmens namens PatronusAI herausgefunden, dass selbst die leistungsstärksten großen Modelle derzeit die Finanzunterlagen von Unternehmen der US-amerikanischen Börsenaufsichtsbehörde Securities and Exchange Commission (SEC) nicht genau analysieren können.
GPT-4-Turbo von OpenAI gilt als das derzeit leistungsstärkste Modell für künstliche Intelligenz auf dem Markt. Im neuesten Test von PatronusAI waren jedoch nur 79 % der Antworten auf Fragen zur SEC-Datei korrekt.
Wenn gewöhnliche Tools der künstlichen Intelligenz solche Fragen beantworten sollen, sind sie im Allgemeinen entweder nicht in der Lage, sie zu beantworten, oder sie erleben „Halluzinationen“, das heißt, sie erfinden Zahlen und Fakten, die nicht in den SEC-Dokumenten enthalten sind.
Anand Kannappan, Mitbegründer von PatronusAI, sagte: „Eine solche Leistung ist absolut inakzeptabel und ihre Genauigkeit muss viel höher sein, um wirklich automatisiert und produktionsbereit zu arbeiten.“
Die Ergebnisse verdeutlichen einige der Herausforderungen, mit denen KI-Modelle konfrontiert sind, da große Unternehmen, insbesondere in regulierten Branchen wie dem Finanzwesen, versuchen, Spitzentechnologie in ihre Geschäfte zu integrieren, sei es im Kundenservice oder in der Datenforschung.
Seit der Veröffentlichung von ChatGPT Ende letzten Jahres gilt die Fähigkeit, schnell wichtige Zahlen und Texte zu extrahieren und Finanzberichte zu analysieren, als eine der vielversprechendsten Anwendungen von Chatbots. SEC-Einreichungen sind mit wichtigen Daten gefüllt, und wenn KI diese Daten genau zusammenfassen oder Fragen zu ihrem Inhalt schnell beantworten kann, könnte sie den Benutzern einen Vorteil in der hart umkämpften Finanzbranche verschaffen.
Daher treffen große Investmentbanken und Finanzunternehmen entsprechende Vorkehrungen. Bloomberg, das weltweit größte Finanzinformationsunternehmen, hat BloombergGPT veröffentlicht, ein großes Modell, das speziell für den Finanzbereich entwickelt wurde. Professoren von Wirtschaftshochschulen haben untersucht, ob ChatGPT Finanzschlagzeilen analysieren kann. JPMorgan Chase entwickelt ein auf künstlicher Intelligenz basierendes automatisches Anlagetool. Einer aktuellen McKinsey-Prognose zufolge könnte generative KI der Bankenbranche jährliche Einnahmen in Billionenhöhe bescheren.
Doch der Einzug künstlicher Intelligenz in die Finanzbranche verläuft nicht reibungslos. Als Microsoft seinen Bing-Chatbot zum ersten Mal nach dem großen Modell von OpenAI auf den Markt brachte, war eines seiner besten Beispiele eine kurze Zusammenfassung der Pressemitteilungen zu Gewinnen. Beobachter erkannten schnell, dass die von Microsoft veröffentlichten Zahlen falsch waren und teilweise völlig erfunden waren.
Der Mitbegründer von PatronusAI weist darauf hin, dass ein Teil der Herausforderung bei der Integration großer Modelle in tatsächliche Produkte darin besteht, dass sie nicht deterministisch sind – es ist nicht garantiert, dass sie jedes Mal die gleiche Ausgabe für die gleiche Eingabe erzeugen. Das bedeutet, dass Unternehmen strengere Tests durchführen müssen, um sicherzustellen, dass sie ordnungsgemäß funktionieren, beim Thema bleiben und zuverlässige Ergebnisse liefern.
PatronusAI testete vier große Modelle: GPT-4 und GPT-4-turbo von OpenAI, Claude2 von Anthropic und Llama2 von Meta. Nach der Durchführung entsprechender Tests waren die beiden Mitbegründer von PatronusAI von der schlechten Leistung des großen Modells überrascht.
Rebecca Qian von PatronusAI bemerkte: „Es ist überraschend, wie oft große Modelle sich weigern, Fragen zu beantworten, mit sehr hohen Ablehnungsraten, selbst wenn die Antworten im Kontext stehen, selbst bei Fragen, die eine durchschnittliche Person beantworten kann.“
Allerdings ist das Unternehmen auch davon überzeugt, dass große Modelle wie GPT großes Potenzial haben werden, Menschen in der Finanzbranche – ob Analysten oder Investoren – zu helfen, wenn die künstliche Intelligenz weiter voranschreitet.
Ein OpenAI-Vertreter wies darauf hin, dass die Nutzungsrichtlinien des Unternehmens die Verwendung von OpenAI-Modellen zur Bereitstellung maßgeschneiderter Finanzberatung verbieten, ohne dass eine qualifizierte Person die Informationen überprüft, und dass jeder, der OpenAI-Modelle in der Finanzbranche verwendet, einen Haftungsausschluss vorlegen muss. In der Nutzungsrichtlinie von OpenAI heißt es außerdem, dass die Modelle von OpenAI nicht auf die Bereitstellung von Finanzberatung abgestimmt sind.