OpenAI veröffentlicht neues offenes Gewichtungsmodell, um KI-Sicherheit zu gewährleisten

OpenAI gab heute die Einführung von zwei neuen Open-Weight-Modellen für den KI-Sicherheitsbereich bekannt – gpt-oss-safeguard-120b und gpt-oss-safeguard-20b. Diese Sicherheitsklassifizierungsmodelle basieren auf der zuvor veröffentlichten gpt-oss-Serie offener Modelle und sind auch unter der Apache 2.0-Lizenz offen, sodass jeder sie frei verwenden, ändern und bereitstellen kann.

Das größte Merkmal des neuen Modells besteht darin, dass es Entwicklern die Möglichkeit bietet, Rückschlüsse und Klassifizierungen direkt auf der Grundlage benutzerdefinierter Sicherheitsrichtlinien durchzuführen und so das „Einheits-Sicherheitssystem“ aufzugeben. Entwickler können ihre eigenen Sicherheitsrichtlinien und Inhalte eingeben, die während der Inferenz erkannt werden sollen, und das Modell wird auf der Grundlage der Richtlinien eine Klassifizierung vornehmen und Begründungen angeben. Richtlinien können bei ihrer Verwendung geändert und flexibel angepasst werden, um die Leistung zu verbessern. gpt-oss-safeguard kann Benutzernachrichten, Chat-Antworten und sogar vollständige Konversationen klassifizieren.

OpenAI weist darauf hin, dass sich dieser neuartige Modelltyp besonders für folgende Situationen eignet:

Potenzielle Gefahren entstehen oder entwickeln sich weiter, und die Richtlinien müssen sich schnell anpassen;
Einige Bereiche sind sehr granular und für herkömmliche kleine Klassifikatoren schwierig zu handhaben;
Den Entwicklern mangelt es an einer großen Anzahl hochwertiger Stichproben, und sie haben Schwierigkeiten, Klassifikatoren auf hoher Ebene für verschiedene Risiken auf der Plattform zu trainieren.
Qualität und Interpretierbarkeit der Klassifizierungsergebnisse haben Vorrang vor verzögerter Leistung.

Es ist zu beachten, dass gpt-oss-safeguard auch bestimmte Einschränkungen aufweist. OpenAI gab an, dass, wenn die Plattform über eine große Anzahl gekennzeichneter Proben verfügt und herkömmliche Klassifikatoren trainieren kann, letztere in komplexen oder risikoreichen Szenarien möglicherweise immer noch besser sind als gpt-oss-safeguard und das angepasste Modell genauer ist. Darüber hinaus weist dieses neue Modell eine langsame Verarbeitungsgeschwindigkeit und einen hohen Ressourcenverbrauch auf, sodass es für die Echtzeitüberprüfung umfangreicher Inhalte ungeeignet ist.

Derzeit stehen gpt-oss-safeguard-120b und gpt-oss-safeguard-20b zum kostenlosen Download zur Verfügung:

https://huggingface.co/collections/openai/gpt-oss-safeguard