Zum Hauptinhalt springen
OpenAI

Technischer Bericht

Leistungs- und Baseline-Bewertungen von gpt-oss-safeguard-120b und gpt-oss-safeguard-20b

Einführung

gpt-oss-safeguard-120b und gpt-oss-safeguard-20b sind zwei Open-Weight-Reasoning-Modelle, die nach dem Training der gpt-oss-Modelle weitertrainiert wurden, um auf Basis einer bereitgestellten Policy zu argumentieren und Inhalte entsprechend zu kennzeichnen. Sie stehen unter der Apache-2.0-Lizenz und unserer gpt-oss-Nutzungsrichtlinie zur Verfügung. Diese reinen Textmodelle sind mit unserer Responses API kompatibel und wurden anhand von Feedback aus der Open-Source-Community entwickelt. Die Modelle sind anpassbar, unterstützen vollständiges Chain-of-Thought (CoT)-Reasoning, können mit unterschiedlichen Reasoning-Intensitäten (niedrig, mittel, hoch) verwendet werden und unterstützen Strukturierte Outputs.

In diesem Bericht beschreiben wir die Funktionen von gpt-oss-safeguard und stellen unsere Baseline-Sicherheitsbewertungen der gpt-oss-safeguard-Modelle vor, die auf den zugrunde liegenden gpt-oss-Modellen aufbauen. Weitere Informationen zur Entwicklung und Architektur der zugrunde liegenden gpt-oss-Modelle findest du in der ursprünglichen gpt-oss-Model-Card.

Wir empfehlen, diese Modelle zu nutzen, um Inhalte anhand einer bereitgestellten Richtlinie zu klassifizieren – nicht als Hauptfunktion für die Interaktion mit Endbenutzern. Für solche Anwendungen eignen sich die ursprünglichen gpt-oss-Modelle besser. Die unten aufgeführten Sicherheitsmetriken beschreiben, wie gpt-oss-safeguard-Modelle in Chat-Umgebungen funktionieren. Die gpt-oss-safeguard-Modelle sind nicht für diesen Zweck vorgesehen. Da sie jedoch Open-Modelle sind, können sie grundsätzlich auch auf diese Weise eingesetzt werden. Da diese Möglichkeit besteht, wollten wir sicherstellen, dass sie unseren Sicherheitsstandards auch in diesem Nutzungskontext entsprechen. Dieser Bericht fasst die Ergebnisse dieser Tests zusammen. Außerdem stellen wir eine erste Bewertung der mehrsprachigen Leistung in einer Chat-Umgebung vor. Dabei ist zu beachten, dass diese nicht die Leistung bei der Inhaltsklassifizierung anhand einer Richtlinie direkt bewertet.

Die gpt-oss-safeguard-Modelle sind Feinanpassungen ihrer gpt-oss-Pendants und wurden ohne zusätzliche biologische oder Cybersicherheitsdaten trainiert. Daraus haben wir geschlossen, dass die bisherigen Arbeiten zur Abschätzung von Worst-Case-Szenarien aus der gpt-oss-Veröffentlichung auch auf diese neuen Modelle anwendbar sind.

Autor

OpenAI