Passer au contenu principal
OpenAI

29 octobre 2025

ProduitVersions

Lancement des modèles gpt-oss-safeguard

De nouveaux modèles de raisonnement de sécurité open-weight (en versions 120 et 20 milliards de paramètres) prenant en charge des politiques de sécurité personnalisées.

Chargement...

Nous dévoilons aujourd’hui une préversion de gpt-oss-safeguard-120b et gpt-oss-safeguard-20b, des modèles de raisonnement open-weight pour la classification de la sécurité des contenus. Ces modèles sont des versions ajustées de nos open models gpt-oss et sont proposés sous la même licence Apache 2.0 permissive, qui autorise leur utilisation, leur modification et leur déploiement sans contraintes par tous. Tous deux sont disponibles sur Hugging Face(ouverture dans une nouvelle fenêtre).

Les modèles gpt-oss-safeguard raisonnent pour interpréter directement une politique fournie par le développeur au moment de l’inférence. Ils peuvent ainsi classer les messages des utilisateurs, leurs propres réponses et des conversations entières en fonction des besoins du développeur. Celui-ci garde en permanence la main sur la politique à utiliser et les réponses des modèles sont donc plus adaptées à son cas d’utilisation. Les modèles gpt-oss-safeguard utilisent une chaîne de pensée que le développeur peut examiner pour comprendre leur processus décisionnel. De plus, la politique du développeur leur est fournie pendant l’inférence au lieu d’être utilisée pendant l’entraînement : elle peut ainsi être facilement modifiée pour optimiser les performances. Cette approche, que nous avons au départ mise au point pour une utilisation en interne, est bien plus flexible que l’entraînement d’un classificateur qui permet d’inférer indirectement une frontière décisionnelle à partir d’exemples étiquetés.

Avec gpt-oss-safeguard, les développeurs peuvent définir dans leurs politiques les frontières les plus adaptées à leur cas d’utilisation. Par exemple, un forum de discussion sur un jeu vidéo pourrait élaborer une politique de classification des posts évoquant la triche. Un site de test de produits pourrait créer une politique permettant d’éliminer les tests qui semblent faux.

Nos modèles acceptent deux entrées en parallèle : une politique et le contenu à classer en fonction de cette politique. Ils génèrent une sortie indiquant comment se classe le contenu, avec le raisonnement justifiant sa réponse. Les développeurs déterminent librement comment utiliser ou ne pas utiliser ces conclusions dans leurs pipelines de sécurité. D’après nos tests, cette approche reposant sur un raisonnement se montre particulièrement efficace dans les situations suivantes :

  • Le danger potentiel est encore émergent ou en évolution et les politiques doivent s’y adapter rapidement.
  • Le domaine traité est riche en nuance et compliqué à gérer par les petits classificateurs.
  • Les développeurs n’ont pas accès à suffisamment d’échantillons pour entraîner un classificateur de haute qualité pour chacun des risques de leur plateforme.
  • La latence est moins importante que la génération d’étiquettes de haute qualité et explicables.

Nous publions cette version de prévisualisation de gpt-oss-safeguard afin de recevoir les suggestions d’amélioration des chercheurs et experts en sécurité. Nous avons travaillé plusieurs mois avec ROOST(ouverture dans une nouvelle fenêtre) pour comprendre les besoins centraux des développeurs, tester les modèles et générer de la documentation. Pour ce lancement, ROOST va créer une communauté(ouverture dans une nouvelle fenêtre), elle aussi disponible dès aujourd’hui, pour échanger autour des applications des modèles d’IA open-weight dans la protection des espaces en ligne. Nous avons également publié un bref rapport technique qui présente les performances de sécurité de cette préversion.

Sécurité des systèmes : le rôle des classificateurs de sécurité

Nous pensons que la meilleure stratégie de sécurité repose sur une défense à plusieurs niveaux. Nous entraînons nos modèles de sorte que leurs réponses soient sûres et mettons en place des niveaux de protection supplémentaires visant à détecter et corriger les entrées et sorties considérées comme non sûres par nos politiques. Les classificateurs de sécurité, qui distinguent les contenus sûrs des contenus dangereux sur un domaine de risque donné, ont longtemps formé le principal outil de défense de nos grands modèles de langage et de ceux de la concurrence.

Les plus classiques, comme ceux accessibles via l’API Moderation(ouverture dans une nouvelle fenêtre), reposent sur la sélection manuelle de milliers d’exemples de contenus sûrs et dangereux, définis comme tels par des politiques de sécurité prédéfinies. Le classificateur utilise ces données d’entraînement pour identifier les sorties sûres et celles qui sont dangereuses. Avec cette approche traditionnelle, le classificateur ne consulte jamais réellement la politique de sécurité. Il tente seulement d’inférer la politique sous-jacente qui a été utilisée pour étiqueter les exemples en détectant des similarités dans le contenu étiqueté comme dangereux et les différences entre contenus sûrs et contenus dangereux.

Les performances des classificateurs traditionnels sont parfois élevées, avec une latence et des coûts de fonctionnement limités. Néanmoins, la collecte d’un nombre suffisant d’exemples pour leur entraînement prend du temps et s’avère coûteux et chaque mise à jour ou modification de la politique impose de procéder à un nouvel entraînement.

Grâce à ses capacités de raisonnement, gpt-oss-safeguard permet aux développeurs d’appliquer n’importe quelle politique, qu’elle ait été écrite par eux-mêmes ou par des tiers : le raisonnement permet au modèle de les généraliser. Au-delà des seules politiques de sécurité, gpt-oss-safeguard peut étiqueter du contenu pour diverses autres fins spécifiques à des produits ou plateformes.

Diagramme de processus intitulé « Raisonnement basé sur des politiques avec gpt-oss-safeguard ». Les politiques fournies par les développeurs et le contenu généré par les utilisateurs sont fournis à gpt-oss-safeguard. Le modèle produira une chaîne de pensée, puis une décision basée sur la politique avec une boucle intitulée « itération sur la politique » permettant d’affiner les politiques. Une légende indique l’entrée développeur, l’entrée utilisateur et la sortie du modèle.

Notre utilisation du raisonnement pour la sécurité en interne

Nos principaux modèles de raisonnement apprennent désormais directement nos politiques de sécurité et utilisent leurs capacités de raisonnement pour identifier les contenus sûrs. Cette approche, que nous nommons alignement délibératif, aboutit à des performances notablement supérieures à celles de nos premières méthodes d’entraînement à la sécurité et rendent nos modèles de raisonnement plus sûrs que leurs prédécesseurs dénués de capacités de raisonnement sur plusieurs points, alors même qu’ils sont de plus en plus puissants. Mais le raisonnement n’est pas utile que pour entraîner les modèles : il ouvre de nouvelles possibilité de défense sur plusieurs niveaux. Les approches basées sur le raisonnement sont plus flexibles et moins limitées par les caractéristiques de leur entraînement précédent, des avantages qui justifient parfois largement le coût de calcul et la latence supplémentaires qui leur sont associés.

gpt-oss-safeguard est une version open-weight d’une approche que nous avons imaginée en interne dans un outil appelé Safety Reasoner. Nous avons commencé par procéder à un ajustement par renforcement sur des tâches d’étiquetage de politiques, en récompensant le modèle lorsqu’il reproduisait les jugements appropriés d’experts humains. Le modèle a ainsi appris à raisonner sur le lien entre politique et jugement. Aujourd’hui, Safety Reasoner nous permet d’actualiser dynamiquement nos politiques de sécurité en production en moins de temps qu’il nous en faudrait pour réentraîner un classificateur. Safety Reasoner se positionne ainsi comme un outil stratégique pour le déploiement itératif. Lors de la mise en production de nouveaux modèles, nous commençons souvent par des politiques très strictes et utilisons une puissance de calcul relativement importante si nécessaire pour que Safety Reasoner puisse appliquer minutieusement ces politiques. Ensuite, nous ajustons nos politiques à mesure que notre compréhension des risques liés à l’environnement de production s’améliore. Pour certains de nos lancements les plus récents, la part du calcul total dédié au raisonnement sur la sécurité a ainsi atteint près de 16 %.

Safety Reasoner est désormais un élément clé de notre architecture de sécurité. Pour la génération d’images et Sora 2, il effectue des évaluations dynamiques par étape des sorties pour identifier et bloquer les générations dangereuses en temps réel. Dans des domaines comme les armes biologiques et l’automutilation, nous exécutons des modèles comme ceux utilisés dans l’API Moderation en qualité de classificateurs compacts, rapides et à fort rappel afin de déterminer quels contenus font partie d’un domaine d’intérêt, puis utilisons Safety Reasoner pour examiner ce contenu. Safety Reasoner classe les sortie des modèles sur la base d’une taxonomie détaillée afin de déterminer la réponse optimale et constitue l’un des garde-fous sur plusieurs niveaux dont bénéficient des systèmes comme GPT‑5 et l’agent ChatGPT. Avec les modèles gpt-oss-safeguard, cette approche est désormais accessible à tous.

Performances de gpt-oss-safeguard

Nous avons évalué les modèles de gpt-oss-safeguard sur des jeux de données d’évaluation internes et externes.

Dans l’évaluation interne, nous lui avons fourni plusieurs politiques en même temps au moment de l’inférence. Pour chaque entrée testée, nous avons déterminé s’il avait correctement classé le texte par rapport à l’ensemble des politiques fournies. Cette tâche est complexe, car le résultat du modèle est considéré comme correct uniquement s’il renvoie les étiquettes de référence pour toutes les politiques incluses.

Les modèles gpt-oss-safeguard et notre outil interne Safety Reasoner sont plus performants que gpt-5-thinking et les open models gpt-oss sur le plan de la précision lorsque plusieurs politiques sont fournies. Cette surperformance de gpt-oss-safeguard est particulièrement étonnante au vu de la taille compacte de ces modèles.

Nous avons également évalué ces modèles sur le jeu de données de modération(ouverture dans une nouvelle fenêtre) que nous avons publié en parallèle de notre article de recherche de 2022(ouverture dans une nouvelle fenêtre) et sur ToxicChat(ouverture dans une nouvelle fenêtre), une évaluation publique basée sur les requêtes d’utilisateurs envoyées à un chatbot open source.

Sur le jeu d’évaluation de modération 2022, nous avons réalisé une évaluation à l’aide de nos politiques de sécurité internes (après adaptation de l’une d’entre elles pour tenir compte de modifications ultérieures). gpt-oss-safeguard s’est montré légèrement plus performant que tous les autres modèles testés, y compris notre outil interne Safety Reasoner et gpt-5-thinking, même si la différence avec Safety Reasoner était trop faible pour avoir une signification statistique.

Pour ToxicChat, nous avons réalisé une évaluation à l’aide d’un prompt court préparé manuellement à partir de nos politiques internes. Là encore, Safety Reasoner a été plus performant que gpt-5-thinking, et gpt-5-thinking et Safety Reasoner se sont montrés légèrement supérieurs à gpt-oss-safeguard-120b et gpt-oss-safeguard-20b. Nous estimons que la taille réduite de gpt-oss-safeguard le rend néanmoins plus adapté à cette tâche.

Limites

gpt-oss-safeguard présente deux limites spécifiques. Tout d’abord, nous avons constaté que les classificateurs entraînés sur des dizaines de milliers d’échantillons étiquetés de grande qualité peuvent encore s’avérer meilleurs pour classer le contenu que gpt-oss-safeguard et son raisonnement basé directement sur une politique. Il peut être préférable de prendre le temps d’entraîner un classificateur dédié pour obtenir de meilleures performances sur les risques plus complexes.

Ensuite, gpt-oss-safeguard peut demander du temps et des ressources de calcul, ce qui le rend difficilement déployable sur l’ensemble du contenu d’une plateforme. En interne, nous gérons cette limitation de plusieurs manières avec Safety Reasoner : (1) Nous utilisons des classificateurs plus petits et plus rapides pour identifier le contenu à évaluer et (2) dans certains cas, nous utilisons Safety Reasoner de manière asynchrone pour offrir une expérience utilisateur à faible latence, tout en nous réservant la possibilité d’intervenir si nous détectons du contenu dangereux.

Perspectives : continuer à avancer avec la communauté

Les modèles gpt-oss-safeguard sont les premiers modèles de sécurité ouverts d’OpenAI développés en collaboration avec la communauté. Nous avons affiné gpt-oss-safeguard avec les spécialistes de la confiance et de la sécurité de SafetyKit, ROOST, Tomoro et Discord lors de nos premiers tests. Le DSI de ROOST, Vinay Rao, indique : « gpt-oss-safeguard est le premier modèle de raisonnement open source qui permet de fournir ses propres politiques et définitions du danger. Les entreprises doivent pouvoir étudier, modifier et utiliser librement les technologies de sécurité, mais aussi pouvoir innover. Lors de nos tests, ce modèle a très bien compris nos différentes politiques, expliqué son raisonnement et fait preuve de nuance dans l’application des politiques, ce qui sera d’après nous intéressant pour les créateurs et les équipes de sécurité. »

Nous allons continuer à travailler avec la communauté pour améliorer les outils de sécurité open source, notamment avec la ROOST Model Community (RMC). Cette communauté réunit des experts et chercheurs en sécurité qui partagent leurs bonnes pratiques de déploiement de modèles d’IA open source dans des workflows de sécurité, notamment des résultats d’évaluation et des commentaires sur les modèles. Consultez le référentiel GitHub de RMC(ouverture dans une nouvelle fenêtre) pour en savoir plus sur ce partenariat et découvrir comment y participer.

Pour commencer à utiliser ces modèles, téléchargez-les sur Hugging Face(ouverture dans une nouvelle fenêtre).

Auteur

OpenAI