Startplan für Fable 5 angekündigt Anthropic will einen Standard für KI setzen jailbreak

Laut Nachrichten vom 1. Juli veröffentlichte Anthropic am Dienstag Ortszeit einen langen Artikel, in dem der gesamte Prozess ausführlich erläutert wurde, bei dem Claude Fable 5 und Claude Mythos 5 den US-Exportkontrollen unterliegen, der Zugriff gesperrt und dann online wiederhergestellt wird. Dies ist keine einfache Wiederherstellungsankündigung. Noch wichtiger ist, dass Anthropic die Frage „Wie schwerwiegend ist das Jailbreaking von KI-Modellen“ in ein Bewertungsrahmenwerk für die Branche umwandelt und hochmoderne Modellveröffentlichungen weiter in staatliche Vorabtests und Sicherheitszusammenarbeit einbezieht.

Laut der Ankündigung von Anthropic wird Fable 5 ab dem 1. Juli weltweiten Nutzern zugänglich sein und Claude Platform, Claude.ai, Claude Code und Claude Cowork abdecken. Pro-, Max-, Team- und einige Enterprise-Benutzer können Fable 5 vor dem 7. Juli für bis zu 50 % ihres wöchentlichen Nutzungskontingents nutzen; Sie werden es danach weiterhin über Nutzungsgutschriften nutzen. Anthropic kündigte außerdem an, den Zugriff auf AWS, Google Cloud und Microsoft Foundry so bald wie möglich wieder zu ermöglichen.

Mythos 5 hat einen engeren Wiederherstellungsbereich. Anthropic sagte, dass das Unternehmen nach der Genehmigung durch die US-Regierung am 26. Juni den Zugang zu Mythos 5 für eine Gruppe von US-Institutionen wiederhergestellt habe und sich weiterhin mit der Regierung abstimmen werde, um das Glasswing-Projekt auf weitere inländische und internationale Partner auszuweiten.

Eine „Jailbreak“-Meldung führte dazu, dass das Modell aus den Regalen genommen wurde

Diese Turbulenzen begannen am 12. Juni.

Anthropic gab an, dass die US-Regierung an diesem Tag Exportkontrollen für die Modelle Claude Fable 5 und Claude Mythos 5 eingeführt habe und Ausländer dazu verpflichtet habe, den Zugang zu diesen beiden Modellen einzuschränken. „Ausländische Staatsangehörige“ umfassen hier nicht nur Benutzer außerhalb der Vereinigten Staaten, sondern auch Nicht-US-Staatsangehörige innerhalb der Vereinigten Staaten. Da die Richtlinie sofort in Kraft trat und Anthropic keine zuverlässige Möglichkeit hatte, die Nationalität aller Benutzer in Echtzeit zu überprüfen, entschied sich das Unternehmen schließlich dafür, den Zugriff für alle Benutzer zu sperren.

Laut der neuesten Rezension von Anthropic wurden Fable 5 und Mythos 5 am 9. Juni veröffentlicht. Die zugrunde liegenden Modelle der beiden sind die gleichen, aber sie sind auf unterschiedliche Szenarien ausgerichtet: Fable 5 bietet einen stärkeren Sicherheitsschutz und wird für ein breiteres Spektrum normaler Benutzerszenarien verwendet; Mythos 5 bietet weniger Schutz und steht nur wenigen vertrauenswürdigen Project Glasswing-Partnern für defensive Netzwerksicherheitsaufgaben zur Verfügung.

Der direkte Grund für das Eingreifen der US-Regierung war ein Bericht von Amazon-Forschern. Dem Bericht zufolge haben Forscher einen Weg gefunden, den Sicherheitsschutz von Fable 5 zu umgehen und es dem Modell zu ermöglichen, mehrere Software-Schwachstellen zu identifizieren; In einem Fall generierte das Modell auch Code, der zeigte, wie die relevanten Schwachstellen ausgenutzt werden können.

Antwort von Anthropic: Dieser Vorfall deckte einen Grenzfall im Sicherheitsschutz von Fable 5 auf, löste jedoch keine einzigartigen Cyber-Angriffsmöglichkeiten auf Mythos-Ebene aus. Das Unternehmen gab an, dass nach Tests auch Modelle mit geringeren Fähigkeiten wie Claude Opus 4.8, GPT-5.5 und Kimi K2.7 dieselbe Schwachstelle erkennen können; Bei der Erstellung einer einzelnen Demonstration der Ausnutzung einer Schwachstelle können auch mehrere Modelle zu ähnlichen Ergebnissen führen.

Kurz gesagt, was Anthropic hervorheben möchte, ist Folgendes: Dies ist keine plötzliche Manifestation der einzigartigen gefährlichen Fähigkeiten von Fable 5, sondern ein Sicherheitsklassifikator, der in einem unklaren Bereich umgangen wird.

Der neue Klassifikator kann mehr als 99 % blockieren, verursacht jedoch versehentlichen Schaden

Um den Zugriff wiederherzustellen, hat Anthropic einen neuen Sicherheitsklassifikator trainiert, der gezielt das im Amazon-Bericht erwähnte Verhalten abfängt.

Laut Anthropic kann der neue Klassifikator die im Amazon-Bericht beschriebene spezifische Bypass-Technik in mehr als 99 Prozent der Fälle blockieren. Abgefangene Fable 5-Anfragen werden zur Bearbeitung an Claude Opus 4.8 weitergeleitet. Das Center for AI Standards and Innovation (CAISI) des US-Handelsministeriums testete außerdem sowohl alte als auch neue anthropische Schutzsysteme.

Die Lösung ist jedoch nicht ohne Preis.

Anthropic räumte ein, dass der neue Klassifikator harmlose Anfragen bei alltäglichen Programmier- und Debugging-Aufgaben häufiger falsch klassifizieren wird. Mit anderen Worten: Einige normale Sicherheitsrecherchen, Code-Debugging- oder Schwachstellenanalyse-Anfragen können vom System blockiert werden. Das Unternehmen sagte, es werde in Zukunft weiter optimieren und versuchen, echten Missbrauch von legitimen Anfragen zu unterscheiden.

Dies ist auch das Kernproblem des Fable 5-Vorfalls: Je stärker die Fähigkeiten des Modells sind, desto mehr kann es defensive Sicherheitsbemühungen unterstützen; Die gleichen Fähigkeiten können aber auch für Angriffe genutzt werden. Der Hersteller muss nicht nur antworten: „Kann er fehlerhafte Anfragen blockieren?“ aber auch „Kann es gute Anfragen blockieren?“

Anthropic möchte KI-Jailbreaks bewerten

Der bemerkenswerteste Teil des langen Artikels ist nicht der Wiederherstellungszugriff auf Fable 5, sondern das von Anthropic vorgeschlagene „AI Jailbreak Severity Framework“.

Anthropic ist der Ansicht, dass es in der Branche derzeit keinen einheitlichen Standard zur Beurteilung der Schwere eines KI-Jailbreaks gibt. Das Ergebnis ist, dass die Entwickler bei jeder Einführung einer neuen Umgehungsmethode nicht wissen, wie schnell sie diese beheben sollen, und dass es den Regierungen an einheitlichen Standards mangelt, um zu beurteilen, ob ein Eingreifen erforderlich ist.

Anthropic entwirft ein Framework mit Amazon, Microsoft, Google und anderen Glasswing-Partnern. Es wird empfohlen, Jailbreak-Risiken anhand von vier Dimensionen zu bewerten:

Erstens: Fähigkeitsgewinn. Kann das Modell nach dem Jailbreak Dinge tun, die bestehende öffentliche Tools und schwächere Modelle nicht können? Wenn es nur die Fähigkeiten anderer Tools erreicht, ist das Risiko gering; Wenn es Angriffe auf Expertenebene erheblich beschleunigen kann, ist das Risiko hoch.

Zweitens der Umfang der Fähigkeiten. Die gleiche Jailbreak-Methode kann nur eine sehr begrenzte Aufgabe freischalten oder mehrere Arten von Angriffszielen und technischen Routen abdecken.

Drittens die Schwierigkeit der Bewaffnung. Wie viel manueller Aufwand, Tipps und Versuch und Irrtum sind erforderlich, um aus diesem Jailbreak einen echten Angriff zu machen. Der Einsatz ist höher, wenn ein oder zwei Eingabeaufforderungen einen dauerhaften Erfolg bringen.

Viertens: Auffindbarkeit. Erfordert die Suche nach dieser Methode Fachwissen oder ist sie online bereits allgemein verfügbar?

Die Bedeutung dieses Frameworks besteht darin, dass es versucht, den „KI-Jailbreak“ von der allgemeinen Panik in übertragbare, sortierbare und reparierbare Probleme zu zerlegen. Wenn in Zukunft Schwachstellen in Modellen entdeckt werden, können Hersteller und Regierungen zunächst feststellen, ob es sich um einen Grenzfall mit geringem Risiko oder um einen Jailbreak mit hohem Risiko handelt, der den sofortigen Einsatz von Abhilfemaßnahmen erfordert.

Anthropic plant außerdem den Start eines neuen HackerOne-Projekts, das es Sicherheitsforschern ermöglichen wird, Fälle für potenzielle Netzwerksicherheits-Jailbreaks von Fable 5 einzureichen.

Die Veröffentlichung modernster Modelle wird zum „Auch die Regierung muss zuerst hinschauen“

Anthropic gibt am Ende des Artikels auch eine Reihe längerfristiger Verpflichtungen bekannt: Für Modelle, die hochmoderne Fähigkeiten im Zusammenhang mit der nationalen Sicherheit beinhalten, wird es bestimmten Regierungspartnern einen früheren Zugang ermöglichen, sodass die Regierung die Modelle testen und den Schutz vor einer breiten Veröffentlichung unterstützen kann; Wenn wichtige Jailbreaks oder Missbrauchsmuster auftreten, werden Informationen schneller an die Regierung weitergegeben. Gleichzeitig werden engagierte Teams und Rechenleistung investiert, um an der Bewertung und Forschung der KI-Sicherheit teilzunehmen.

Dies bedeutet, dass sich der Veröffentlichungsprozess modernster KI-Modelle ändert.

In der Vergangenheit basierte die Modellfreigabe hauptsächlich auf dem Produktrhythmus des Unternehmens: Schulung, Bewertung, Red-Team-Tests und Markteinführung. Nach dem Fable 5-Vorfall könnte der Veröffentlichungsprozess, zumindest in Hochrisikobereichen wie der Cybersicherheit, eine zusätzliche Ebene der staatlichen Vorabbewertung, des Informationsaustauschs und der Risikoverhandlung umfassen.

Für Benutzer ist die Wiederaufnahme von Fable 5 eine gute Nachricht; Für Unternehmenskunden hinterließ dieser Vorfall jedoch eine realistischere Erinnerung: Die Verfügbarkeit modernster Modelle hängt nicht nur von Technologie und Preis ab, sondern auch vom Versicherungsstatus. Selbst wenn ein Modell freigegeben wurde, kann es aufgrund von Sicherheitsstreitigkeiten plötzlich ausgesetzt und dann durch zusätzlichen Schutz, Verhandlungen und behördliche Tests wieder aufgenommen werden.

Für Anthropic ist diese Überprüfung nicht nur eine Erklärung der Gründe für das Delisting, sondern auch ein Kampf um das Rederecht: Das Unternehmen hofft, dass die Außenwelt glaubt, dass es sich bei Fable 5 nicht um ein außer Kontrolle geratenes Modell, sondern um einen Grenzfall handelt, der mit übertriebener Vorsicht gehandhabt wird; Gleichzeitig hofft man, den Fokus der Branche von „ob das Modell jailbreakbar ist“ auf „wie beurteilt man den Schweregrad eines Jailbreaks“ zu verlagern?

Das könnte das wirklich wichtige Zeichen dieser Ankündigung sein. Der Relaunch von Fable 5 ist nur das Ergebnis. Wie hochmoderne Modelle getestet und freigegeben werden und wie die Regierung in Zukunft eingreift, sind die neuen Fragen, die dieser Sturm hinterlässt.