Passer au contenu principal
OpenAI

29 octobre 2025

SécuritéVersions

Rapport technique :

évaluations des performances des modèles gpt-oss-safeguard-120b et gpt-oss-safeguard-20b et comparaison avec leurs modèles de référence

Introduction

gpt-oss-safeguard-120b et gpt-oss-safeguard-20b sont deux modèles de raisonnement open-weight post-entraînés à partir des modèles gpt-oss et entraînés à raisonner à partir d’une politique fournie afin d’étiqueter du contenu conformément à cette politique. Ils sont proposés sous licence Apache 2.0 et soumis à notre politique d’utilisation des modèles gpt-oss. Conçus en collaboration avec la communauté open source, ces modèles textuels uniquement sont compatibles avec l’API Responses. Ils sont personnalisables, donnent accès à leur chaîne de pensée complète et peuvent être utilisés avec un niveau de raisonnement variable (bas, intermédiaire et élevé). Enfin, ils prennent en charge les sorties structurées.

Dans ce rapport, nous détaillons les capacités des modèles gpt-oss-safeguard et comparons leur sécurité à celle de leurs modèles gpt-oss sous-jacents. Pour en savoir plus sur le développement et l’architecture de ces modèles sous-jacents, reportez-vous à la fiche système des modèles d’origine.

Nous recommandons d’utiliser ces modèles pour classer du contenu selon une politique que vous leur fournissez plutôt que comme fonctionnalité centrale avec laquelle vos utilisateurs finaux peuvent interagir. Les modèles gpt-oss d’origine sont plus appropriés pour ce dernier type d’application. Les indicateurs de sécurité fournis ci-dessous illustrent les performances des modèles gpt-oss-safeguard dans le cadre de chats. Ils ne sont pas destinés à cet usage, mais s’agissant de modèles open-weight, il est possible de les utiliser ainsi. Cette possibilité nous a poussés à nous assurer qu’ils répondent à nos normes de sécurité dans ce contexte, et nous avons donc inclus nos conclusions dans ce rapport. Nous proposons également une première évaluation des performances multilingue en chat. Notez que cette évaluation ne porte pas directement sur les performances de classification de contenu dans le cadre d’une politique fournie.

Les modèles gpt-oss-safeguard sont des versions ajustées de leurs équivalents gpt-oss et ont été entraînés sans données de biologie ou de cybersécurité supplémentaires. Par conséquent, nous avons conclu que notre précédente estimation des scénarios les plus défavorables pour gpt-oss s’applique aussi à ces nouveaux modèles.

Auteur

OpenAI