Des refus catégoriques aux sorties sûres, l’entraînement à la sécurité est désormais axé sur les résultats
Dans GPT‑5, la sortie sûre est un entraînement à la sécurité qui maximise l’utilité tout en respectant les contraintes de sécurité. Comparée à l’entraînement basé sur le refus, elle améliore la sécurité et l’utilité surtout dans les domaines à double fin.
Si un utilisateur demandait à ChatGPT de lui donner le matériel nécessaire pour allumer un feu d’artifice, le modèle devrait-il lui fournir une réponse utile ? L’utilisateur pourrait se préparer à un feu d’artifice pour le 4 juillet, mener un projet de recherche scolaire… ou chercher à fabriquer des explosifs. Par conséquent, une réponse utile pourrait être soit inoffensive, soit dangereuse, selon l’intention (apparente) de l’utilisateur. Ce genre de prompt est à double fin. Les informations générées à la suite d’une question dont l’intention reste floue peuvent être utilisées de manière inoffensive comme malveillante. Les problèmes à double fin sont prédominants dans les domaines à risque, tels que la biologie et la cybersécurité.
Avant, les modèles de production comme ChatGPT étaient entraînés à refuser les requêtes mettant en péril la sécurité. Autrement dit, en fonction du prompt de l’utilisateur, le modèle devait satisfaire entièrement ou rejeter la demande. Bien qu’adapté pour traiter les prompts dangereux, ce type d’entraînement discerne difficilement les prompts à double fin, comme l’exemple du feu d’artifice. Un modèle entraîné selon cette méthode élabore une solution binaire en fonction du niveau de dangerosité qu’il déduit du prompt : soit il satisfait entièrement la demande (ce qui n’est pas sans risque dans l’éventualité où les intentions de l’utilisateur sont mauvaises), soit il rejette la demande et annonce : « Je suis désolé, mais je ne peux pas vous aider » (ce qui est embêtant si l’utilisateur cherchait seulement à tirer son feu d’artifice).
Concernant GPT‑5, nous avons mis en place un nouvel entraînement de sécurité appelé « sorties sûres » qui apprend au modèle à donner la réponse la plus utile possible, tout en respectant les limites de sécurité. Selon nous, cette approche, davantage nuancée, permet de mieux gérer les questions à double fin.
Prompt
OpenAI o3 (entraînement basé sur le refus)
GPT-5 (entraînement basé sur les sorties sûres)
Réponses d’OpenAI o3 et de GPT‑5 à un prompt à double fin qui demande des instructions pour allumer un feu d’artifice. o3, un modèle entraîné de manière binaire, sur-interprète l’intention. Il part du principe que le prompt est inoffensif et satisfait entièrement la demande. En revanche, GPT‑5, un modèle entraîné avec les sorties sûres, explique à l’utilisateur la raison pour laquelle il ne peut pas totalement satisfaire la demande et se contente de donner des ressources générales.
Les « sorties sûres » recentrent l’entraînement sur la sécurité de la réponse d’un modèle plutôt que de chercher à déterminer s’il doit traiter ou refuser la saisie de l’utilisateur. Plus concrètement, cela est rendu possible grâce à deux paramètres d’entraînement :
- La contrainte de sécurité : Pendant la phase de post-entraînement d’un modèle, la récompense des sorties sûres pénalise les réponses contraires aux politiques de sécurité (la sévérité des sanctions dépendant de la gravité des infractions).
- La maximisation de l’utilité : Concernant les réponses inoffensives, nous récompensons le modèle selon son utilité : directement conformément à l’objectif énoncé de l’utilisateur, ou indirectement en expliquant le refus et fournissant des solutions alternatives sûres.
Nous avons intégré les sorties sûres dans GPT‑5 (modèles conversationnel et de raisonnement) et constaté que cet entraînement améliorait grandement la sécurité et l’utilité des réponses par rapport à l’entraînement basé sur le refus. Pour que la comparaison soit équitable nous avons comparé OpenAI o3 à GPT‑5 Thinking. Comparativement aux deux modèles de production et aux tests contrôlés, il est apparu que les sorties sûres se prêtent particulièrement bien aux questions à double fin. Les chiffres ci-dessous comparent la sécurité et l’utilité moyenne des réponses non dangereuses.
Sécurité et utilité des réponses sûres par intention (OpenAI o3 vs. GPT‑5 Thinking, ici « gpt5-r »). GPT‑5 Thinking est plus sûr et plus utile qu’OpenAI o3.
En abandonnant l’approche binaire, l’entraînement basé sur les sorties sûres pousse nos modèles à davantage faire preuve de prudence vis-à-vis des sujets potentiellement dangereux, même lorsqu’ils satisfont la demande. Il est ressorti de nos tests que, lorsque des modèles basés sur les sorties sûres commettent une erreur, le niveau de dangerosité de ces sorties est plus faible que celui des modèles basés sur le refus.
Analyse de la gravité des conséquences des réponses dangereuses (OpenAI o3 vs. GPT‑5 Thinking (gpt5-r). GPT‑5 Thinking fait moins d’erreurs graves qu’Open AI o3.
Il est facile de sacrifier l’aspect utilitaire au profit de la sécurité. S’il rejette toutes les demandes, un modèle ne peut être que sûr. Mais nous souhaitons que nos modèles soient à la fois sûrs et utiles. Notre défi principal est donc de chercher à améliorer ces deux objectifs conjointement. Concernant GPT‑4, nous avons développé les récompenses basées sur les règles, une méthode permettant de trouver un juste équilibre entre utilité et sécurité. Aujourd’hui, pour GPT‑5, les sorties sûres franchissent une nouvelle étape : elles tirent parti des capacités évolutives de l’IA pour fournir une intégration plus poussée de ces deux objectifs. En mettant l’accent sur la sécurité des réponses du modèle, nous pensons jeter les bases pour mieux aborder la question de la complexité des défis de sécurité en perspective. Nous avons l’intention de poursuivre nos recherches dans cette direction pour apprendre au modèle à mieux discerner les situations difficiles et à y apporter des réponses davantage nuancées et soignées.


