Comment les réponses contenant « gobelin » se sont propagées dans les modèles d’IA : chronologie, cause profonde et correctifs derrière les bizarreries de comportement liées aux personnalités dans GPT-5.
Découvrez comment la spécification du modèle d’OpenAI sert de cadre public pour le comportement des modèles, en conciliant sécurité, liberté des utilisateurs et responsabilité alors que les systèmes d’IA progressent.
Comment OpenAI utilise le système de surveillance du raisonnement détaillé pour étudier les comportements non conformes des agents de code internes—en analysant des déploiements réels pour détecter les risques et renforcer les garde-fous de sécurité de l’IA.
IH-Challenge entraîne les modèles à prioriser les instructions fiables, en améliorant la hiérarchie des instructions, la contrôlabilité de la sécurité et la résistance aux attaques par injection de prompt.
OpenAI présente CoT-Control et montre que les modèles de raisonnement peinent à contrôler leurs raisonnements détaillés, ce qui renforce la capacité de suivi comme garde-fou pour la sécurité de l’IA.
Un nouveau préprint étend les amplitudes à 1 seul moins aux gravitons, GPT-5.2 Pro aidant à dériver et vérifier des amplitudes d’arbres de gravitons non nulles en gravité quantique