Aider à créer des expériences d’IA plus sûres pour les ados
Présentation d’un ensemble de politiques de sécurité pour les adolescents, structurées sous forme d'invites pour gpt-oss-safeguard
Aujourd’hui, nous publions des politiques de sécurité(s'ouvre dans une nouvelle fenêtre) sous forme d'invites pour aider les développeurs à créer des protections adaptées à l’âge des adolescents. Conçues pour fonctionner avec notre modèle de sécurité à poids ouverts, gpt-oss-safeguard(s'ouvre dans une nouvelle fenêtre), ces politiques simplifient la transformation des exigences de sécurité en classificateurs exploitables pour des systèmes réels.
Nous avons publié des modèles à poids ouverts afin de démocratiser l’accès à une IA puissante et de soutenir une innovation à grande échelle. En parallèle, nous pensons que sécurité et innovation vont de pair, et que les développeurs doivent avoir accès à des modèles performants ainsi qu’aux outils et aux politiques nécessaires pour les déployer de manière sûre et responsable. Nous avons développé ces politiques pour aider les développeurs dans leurs efforts de sécurité afin de protéger les jeunes utilisateurs, avec la contribution d’organisations externes de confiance telles que Common Sense Media(s'ouvre dans une nouvelle fenêtre) et everyone.ai(s'ouvre dans une nouvelle fenêtre).
Nous reconnaissons que les adolescents et les adultes ont des besoins différents, et que les adolescents nécessitent des protections supplémentaires. Ces politiques sont conçues pour aider les développeurs à prendre en compte ces différences, et à créer des expériences à la fois responsabilisantes et adaptées aux jeunes utilisateurs.
Nous nous engageons depuis longtemps à développer une IA qui élargit les opportunités pour les jeunes tout en garantissant leur sécurité. Dans le cadre de ce travail, nous avons mis à jour notre Model Spec(s'ouvre dans une nouvelle fenêtre)—les lignes directrices qui définissent le comportement attendu des modèles d’OpenAI—afin d’y inclure des principes pour les moins de 18 ans (U18)(s'ouvre dans une nouvelle fenêtre), et avons introduit des garde-fous au niveau des produits tels que le contrôle parental et la prédiction de l’âge pour mieux protéger les jeunes utilisateurs. Nous avons également appelé à des protections à l’échelle de l’industrie via notre Teen Safety Blueprint.
La version publiée aujourd’hui s’appuie sur cette base. Nous mettons ces politiques de sécurité à disposition des développeurs pour les aider à déployer des protections pour les adolescents et contribuer à démocratiser l’accès au sein de l’écosystème open weights.
Si des classificateurs de sécurité comme gpt-oss-safeguard peuvent détecter des contenus nuisibles, ils dépendent de définitions claires de ce qui constitue les contenus. En pratique, l’un des principaux défis auxquels les développeurs sont confrontés consiste à définir des politiques qui reflètent précisément les risques propres aux adolescents et qui peuvent être appliquées de manière cohérente dans des systèmes réels.
Même les équipes expérimentées ont souvent du mal à traduire des objectifs de sécurité de haut niveau en règles précises et opérationnelles, notamment parce que cela exige à la fois une expertise métier et une connaissance approfondie de l’IA. Cela peut entraîner des failles dans la protection, une application incohérente ou un filtrage trop large. Des politiques claires et bien définies constituent un fondement essentiel pour des systèmes de sécurité efficaces.
Pour répondre à ce défi, nous publions un ensemble de politiques de sécurité(s'ouvre dans une nouvelle fenêtre), adaptées aux risques courants auxquels sont confrontés les adolescents et éclairées par une analyse approfondie des recherches existantes sur leurs particularités de développement. Ces politiques sont structurées sous forme d'invites pouvant être utilisées directement avec gpt-oss-safeguard(s'ouvre dans une nouvelle fenêtre) et d’autres modèles de raisonnement, permettant aux développeurs d’appliquer plus facilement des standards de sécurité cohérents à l’ensemble de leurs systèmes.
La version initiale inclut des politiques portant sur :
- Le contenu violent explicite
- Le contenu sexuellement explicite
- Les idéaux corporels et comportements nuisibles
- Les activités et défis dangereux
- Les jeux de rôle à caractère romantique ou violent
- Les biens et services soumis à des restrictions d’âge
Ces politiques peuvent être utilisées pour le filtrage de contenu en temps réel, ainsi que pour l’analyse hors ligne des contenus générés par les utilisateurs.
En structurant les politiques sous forme d'invites, les développeurs peuvent plus facilement les intégrer à leurs flux de travail existants, les adapter à leurs cas d’usage et les faire évoluer dans le temps.

Nous avons travaillé avec des organisations externes telles que Common Sense Media(s'ouvre dans une nouvelle fenêtre) et everyone.ai(s'ouvre dans une nouvelle fenêtre) pour éclairer l’élaboration de ces politiques. Leur expertise a contribué à définir le périmètre des contenus à couvrir, à renforcer la structure des invites et à affiner les cas limites à prendre en compte lors de leur évaluation.
Ce travail s’inscrit dans un effort continu de collaboration avec des experts et l’ensemble de l’écosystème afin d’améliorer la manière dont les systèmes d’IA accompagnent les jeunes.
« L’une des principales lacunes en matière de sécurité de l’IA pour les adolescents a été l’absence de politiques claires et opérationnelles sur lesquelles les développeurs peuvent s’appuyer. Souvent, les développeurs partent de zéro. Ces politiques sous forme d'invites contribuent à établir un socle de sécurité significatif à l’échelle de l’écosystème, et comme elles sont publiées en open source, elles peuvent être adaptées et améliorées au fil du temps. Nous sommes encouragés de voir ce type d’infrastructure rendu largement accessible, et nous espérons que cela encouragera la création de bases communes en matière de sécurité des jeunes à l’échelle du secteur. »
—Robbie Torney, responsable de l’IA et des évaluations numériques, Common Sense Media
« Des initiatives comme celle-ci, qui rendent les politiques de sécurité des jeunes plus opérationnelles, sont précieuses car elles permettent de traduire l’expertise en recommandations exploitables dans des systèmes réels. Les politiques de contenu constituent une première étape importante et ouvrent également la voie à des travaux plus larges sur la manière dont le comportement des modèles peut influencer, au fil du temps, les risques propres aux jeunes. Inspirée par ce travail et par ses propres recherches, everyone.ai(s'ouvre dans une nouvelle fenêtre)a également élaboré une première politique comportementale axée sur des risques tels que l’exclusivité et la dépendance excessive. »
—Dre Mathilde Cerioli, directrice scientifique chez everyone.AI
Ces politiques sont conçues comme un point de départ, et non comme une définition complète, finale ou une garantie de la sécurité des adolescents. Chaque application présente des risques, des publics et des contextes propres, et les développeurs sont les mieux placés pour comprendre les risques que leurs produits et leurs intégrations d’IA peuvent présenter. Nous encourageons vivement les développeurs à adapter et enrichir ces politiques en fonction de leurs besoins spécifiques, et à les combiner avec d’autres garde-fous tels que des choix de conception produit, des contrôles utilisateurs, une transparence adaptée aux adolescents, des systèmes de surveillance et des réponses réfléchies et adaptées à l’âge.
Nous pensons qu’une approche de défense en profondeur est essentielle pour concevoir des systèmes d’IA plus sûrs. Ces politiques s’appuient sur notre expérience interne, mais elles ne reflètent pas l’ensemble des politiques ni des garde-fous internes d’OpenAI.
Nous publions ces politiques en open source via la ROOST Model Community(s'ouvre dans une nouvelle fenêtre) afin d’encourager la collaboration et l’amélioration continue. Pour contribuer, donner votre avis ou partager d’autres politiques de sécurité pour les adolescents, rendez-vous sur le dépôt GitHub RMC.(s'ouvre dans une nouvelle fenêtre)
Les développeurs et les organisations peuvent adapter ces politiques à leurs applications spécifiques, les traduire dans différentes langues et les étendre pour couvrir d’autres domaines de risque. À terme, nous espérons que cela contribuera à une base plus solide et partagée pour la mise en œuvre de politiques de sécurité dans les systèmes d’IA.
Pour commencer à utiliser gpt-oss-safeguard, téléchargez-le sur Hugging Face(s'ouvre dans une nouvelle fenêtre).


