Anthropic hat sein neuestes Modell, Fable, am Dienstag offiziell der Öffentlichkeit vorgestellt und es als „öffentliche, eingeschränkte Version“ seines internen High-End-Cybersicherheitsmodells Mythos positioniert, doch das Produkt löste in Cybersicherheitskreisen schnell Kontroversen aus. Viele Sicherheitsforscher und -praktiker beklagten sich auf sozialen Plattformen und Communities darüber, dass die integrierten Sicherheitsvorkehrungen von Fable zu streng seien und kaum für tatsächliche Arbeiten im Zusammenhang mit der Netzwerksicherheit verwendet werden könnten.

Laut Rückmeldungen von Forschern lehnt Fable „alle Anfragen ab, die auch nur im Entferntesten mit Cybersicherheit zu tun haben“, einschließlich scheinbar harmloser Aufgaben wie der Hilfe beim Lesen eines Blog-Beitrags. Laut der Forscherin Valentina „Chompie“ Palmiotti, die jetzt bei IBM Diese Leitplanken sollen verhindern, dass Modelle zur Entwicklung von Malware, zum Angriff oder zur Beschädigung von Softwaresystemen verwendet werden, und auch ihren Missbrauch im biologischen Bereich zur Unterstützung der Entwicklung biologischer Waffen einschränken.
Als Anthropic im April dieses Jahres Mythos auf den Markt brachte, beschloss das Unternehmen, es im Rahmen eines Programms namens „Project Glasswing“ nur einer kleinen Anzahl von Unternehmen und Institutionen zugänglich zu machen, mit der Absicht, dieses Modell zum Schutz kritischer Software und Infrastruktur zu nutzen. Letzte Woche kündigte Anthropic an, den Einsatz von Mythos auf Hunderte von Organisationen in 15 Ländern auszudehnen und so die Implementierung dieses hochleistungsfähigen Sicherheitsmodells in Schlüsselindustrien weiter voranzutreiben. Nachdem Fable jedoch der Öffentlichkeit zugänglich gemacht wurde, wurde die Sicherheitsstrategie der „heruntergestuften Version“ von professionellen Benutzern stark in Frage gestellt. Viele Menschen glaubten, dass zwischen den tatsächlichen Erfahrungen und der offiziellen Propaganda eine erhebliche Lücke bestehe.
Matt Suiche, ein langjähriger Cybersicherheitsveteran, sagte gegenüber TechCrunch, dass Fable bei der Entscheidung, ob eine Anfrage einen Bezug zur Cybersicherheit hatte, sehr kurz vorging. Er sagte beispielsweise, dass, wenn ein Benutzer „sicheren Code schreiben“ möchte, Fable dies eher als Netzwerksicherheitsarbeit und nicht als Anleitung zu Best Practices für die Softwareentwicklung betrachten wird, wodurch der Downgrade-Mechanismus direkt ausgelöst wird. Sobald die Leitplanke ausgelöst wird, greift Fable automatisch auf das weniger leistungsfähige Claude Opus 4.8 zurück, um die Konversation fortzusetzen. Suiche glaubt, dass die Urteilslogik von Fable offenbar stark von Schlüsselwörtern abhängt. „Solange Wörter in den semantischen Bereich der ‚Netzwerksicherheit‘ fallen, können sie leicht vom Sicherheitssystem abgefangen werden.“
Dennoch bringt Suiche auch ein gewisses Verständnis für die strengen Einstellungen zum jetzigen Zeitpunkt zum Ausdruck und ist der Ansicht, dass die Hersteller in diesem frühen Stadium konservativere Sicherheitsschwellenwerte für Modelle festlegen und bei der Risikokontrolle sicherer sind. Er geht davon aus, dass diese Leitplanken kontinuierlich verfeinert und verfeinert werden, während Anthropic seine Zusammenarbeit mit einer neuen Generation von Cybersicherheitsunternehmen vertieft. Seiner Ansicht nach ist es ein akzeptablerer Weg, zunächst „mehr zu blockieren“ und die Beschränkungen dann schrittweise zu lockern, als zu Beginn zu stark zu lockern, wodurch das potenzielle Missbrauchsrisiko außer Kontrolle gerät.
Fable ist mit seiner Unzufriedenheit nicht allein. Ein anderer Forscher beklagte sich auf der sozialen Plattform darüber, dass „selbst die Anforderung einer Codeüberprüfung die Sicherheitsleitplanke auslöst.“ Einige Benutzer teilten ihre Erfahrungen in der Claude-Community von Reddit und sagten, dass Fable „fast alle“ Anfragen nach Sicherheitsüberprüfungen, Schwachstellenanalysen usw. ablehnt, was seine Nützlichkeit in professionellen Umgebungen erheblich beeinträchtigt. Zum Zeitpunkt der Drucklegung hat Anthropic nicht öffentlich auf das Feedback reagiert.
Zusätzlich zum automatischen Leitplankenmechanismus innerhalb des Modells hat Anthropic auch einen zusätzlichen Zulassungsprozess für Cybersicherheitsfachleute etabliert – das „Cyber Verification Program“. Nur Benutzer, die das Programm bestehen, können Claude unter weniger restriktiven Bedingungen für Netzwerksicherheitsarbeiten verwenden. In ähnlicher Weise hat OpenAI ein Projekt namens „Trusted Access for Cyber“ gestartet, um mehr Modellfunktionen für konforme Cybersicherheitspraktiken zu eröffnen. Diese Praktiken spiegeln wider, dass hochmoderne Modellunternehmen zwar die KI-gestützte Netzwerksicherheit fördern, aber dennoch versuchen, die Freigabe von Funktionen und das Missbrauchsrisiko durch die beiden Mittel von Überprüfungssystemen und technischen Leitplanken in Einklang zu bringen.