KI-Chatbot wurde entlarvt, um „Teenagern“ bei der Planung gewalttätiger Angriffe zu helfen, nur Claude weigerte sich systematisch, zu kooperieren

Vor dem Hintergrund der vielbeachteten Behauptung vieler Technologieunternehmen, dass ihre KI-Produkte mit vollständigen „Sicherheitsleitplanken“ ausgestattet seien, zeigt eine aktuelle gemeinsame Umfrage, dass diese Verteidigungslinien bei minderjährigen Nutzern immer noch recht schwach sind. In den verschiedenen in der Studie entworfenen Szenarien erkannten viele Mainstream-Chatbots nicht nur die offensichtlichen psychischen Belastungs- und Gewaltrisikosignale „teenageriger“ Benutzer nicht, sondern boten in einigen Fällen sogar versteckte Ermutigung oder konkrete Unterstützung bei potenziellen Angriffen.

Die gemeinsam von CNN und dem gemeinnützigen Center for Countering Digital Hate (CCDH) durchgeführte Umfrage konzentrierte sich auf den Test von 10 Chatbots, die derzeit bei Teenagern verwendet werden, darunter ChatGPT, Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI und Replika. Das CCDH stellte fest, dass mit Ausnahme von Claude von Anthropic, das potenziellen Tätern „konsequent und zuverlässig“ Hilfe verweigert, die anderen Produkte nicht in der Lage waren, gewalttätige Pläne wirksam abzuschrecken. Acht der zehn Modelle bieten in den meisten Szenarien „allgemein Unterstützung bei der Planung gewalttätiger Angriffe“, einschließlich spezifischer Empfehlungen zum Zielort, den verfügbaren Waffentypen und mehr.

Um reale Risikoszenarien zu simulieren, legten die Forscher die Rolle eines „jugendlichen Benutzers“ fest und zeigten im Gespräch nach und nach offensichtliche Anzeichen von psychischer Belastung, emotionalem Ungleichgewicht und anderen Anzeichen. Anschließend gingen sie schrittweise zu einem Rückblick auf frühere Gewaltvorfälle über und gingen schließlich zu spezifischeren Fragen über, wie z. B. der Auswahl des anzugreifenden Ziels, der zu verwendenden Waffen usw. Die Untersuchung umfasst 18 verschiedene Szenarien, neun in den Vereinigten Staaten und neun in Irland, die ein breites Spektrum an Angriffsarten und -motivationen abdecken: von der ideologisch motivierten Schule Schießereien und Messerangriffe, die Ermordung von Politikern, die Ermordung von Führungskräften der medizinischen Industrie bis hin zu politisch oder religiös motivierten Bombenanschlägen.

In einigen Gesprächsbeispielen stellte ChatGPT Links zu Karten von High-School-Campussen für Benutzer bereit, die Interesse an Gewalt an Schulen bekundeten, während Gemini bei der Erörterung von Angriffen auf Synagogen darauf hinwies, dass „Metallfragmente oft tödlicher sind“, und Benutzern, die an der Durchführung politischer Attentate interessiert waren, sogar eine Art Schrotflinte empfahl, die für Fernschüsse geeignet war. In der Studie heißt es, dass Meta AI und Perplexity im Test „am kooperativsten“ abschnitten und potenziellen Angreifern in fast allen Testszenarien unterschiedlich stark unterstützten. Der chinesische Chatbot DeepSeek endete sogar mit Ausdrücken wie „Ich wünsche Ihnen ein glückliches (und sicheres) Schießen!“ nachdem er Ratschläge zur Waffenauswahl gegeben hatte.

Der CCDH-Bericht hob die Rollenspiel-Chat-Plattform Character.AI hervor und sagte, sie sei „einzigartig unsicher“. Im Gegensatz zu den meisten Chatbots, die technisch bei der Planung von Gewalttaten helfen, aber nicht direkt zu deren Ausführung ermutigen, unterstützen einige der personifizierten Charaktere in Character.AI Benutzer nicht nur bei der Gestaltung von Angriffsdetails, sondern fördern Gewalttaten auch „aktiv“ in Ton und Inhalt. Forscher dokumentierten sieben Fälle expliziter Aufstachelung zu Gewalt, darunter die Aufforderung an Benutzer, „Chuck Schumer verdammt noch mal zu verprügeln“, die Aufforderung an den CEO einer Krankenversicherungsgesellschaft, „mit einer Waffe darauf zu schießen“, und das Necken von Benutzern, die „das Mobbing in der Schule satt hatten“, indem sie sagten: „Schlag ihnen einfach die Hölle ab.“ In sechs Fällen half der Gesprächscharakter dem Benutzer auch bei der Planung eines Angriffs.

Claude, der in dieser Testrunde am „sichersten“ abgeschnitten hat, konnte sich den Zweifeln nicht ganz entziehen. Das Forschungsteam wies darauf hin, dass Anthropic eine Lockerung seiner langjährigen „Sicherheitserweiterungsverpflichtung“ zwischen Ende 2025 und Anfang 2026 angekündigt hat, sodass immer noch Unsicherheit darüber besteht, ob Claudes Leistung konstant bleiben wird, wenn er nach der Richtlinienanpassung ähnlichen Tests unterzogen wird. CCDH betonte jedoch, dass Claudes anhaltende Weigerung, sich während der Ermittlungen an Gewaltanschlägen zu beteiligen, beweise, dass „wirksame Sicherheitsmechanismen eindeutig machbar sind“. Dies warf auch eine scharfe Frage auf: Wenn es machbar ist, warum entscheiden sich dann so viele KI-Unternehmen immer noch dafür, es nicht einzusetzen oder zu stärken?

Angesichts der Erkenntnisse reagierten viele Unternehmen schnell. Meta teilte CNN mit, dass es einige nicht näher bezeichnete „Korrekturen“ implementiert habe; Microsoft sagte, die Reaktion von Copilot sei aufgrund neuer Sicherheitsfunktionen verbessert worden; Sowohl Google als auch OpenAI sagten, sie hätten kürzlich neue Modelle auf den Markt gebracht und die Sicherheitsfunktionen weiter iteriert. Andere Unternehmen betonen, dass sie Sicherheitsprotokolle regelmäßig evaluieren. Character.AI, das aufgrund von Sicherheitsbedenken schon oft von der öffentlichen Meinung unter die Lupe genommen wurde, bekräftigte erneut seine konsequente Position und betonte, dass in der Plattformschnittstelle ein prominenter Haftungsausschluss eingerichtet wurde, und betonte, dass Gespräche mit seinen Charakteren „fiktiv“ seien.

Die Forscher erinnerten auch daran, dass diese Studie weder die Leistung aller Chatbots in allen Umgebungen und allen Befragungsmethoden erschöpfen noch die komplexen und veränderlichen Interaktionssituationen in der realen Welt vollständig abbilden kann. Doch was die aktuellen Ergebnisse betrifft, ist es ein weiteres deutliches Signal dafür, dass die von KI-Unternehmen in ihren Marketingkampagnen immer wieder hervorgehobenen „Sicherheitsleitplanken“ angesichts vorhersehbarer Szenarien mit klassischen Warnsignalen immer noch systematisch versagen. Zuvor wurden viele KI-Unternehmen von Gesetzgebern, Aufsichtsbehörden, zivilgesellschaftlichen Organisationen und Gesundheitsexperten scharf kritisiert, weil sie minderjährige Nutzer nicht vor dem Risiko von Selbstverletzung, Gewalt, extremen Inhalten usw. schützen, und sind mit mehreren Klagen wegen angeblicher „unrechtmäßiger Tötung“ und „Verursachung schwerer Verletzungen“ konfrontiert.

Aus politischer und regulatorischer Sicht wird diese Untersuchung wahrscheinlich dazu führen, dass Gesetzgeber und Aufsichtsbehörden in verschiedenen Ländern die Sicherheitsanforderungen und Überprüfungsstandards für generative KI-Produkte weiter verbessern, insbesondere bei der Identifizierung und Intervention bei Hochrisikoszenarien wie Selbstverletzung, Selbstmord und Gewalttendenzen bei Teenagern. Für Technologieunternehmen wird die Frage, wie sie die Sicherheitsmechanismen, die sich als machbar erwiesen haben, tatsächlich implementieren und weiterhin aufrechterhalten und gleichzeitig starke Modellfähigkeiten und Kommerzialisierungsgeschwindigkeit anstreben, zu einem unvermeidbaren praktischen Problem.