29 avril 2026

D’où venaient les gobelins

Chargement...

À partir de GPT‑5.1, nos modèles ont commencé à développer une étrange habitude : ils mentionnaient de plus en plus souvent des gobelins, des gremlins et d’autres créatures dans leurs métaphores. Contrairement aux bugs de modèle qui se manifestent par une chute brutale des évaluations ou une flambée d’une métrique d’entraînement, et que l’on peut rattacher à un changement précis, celui-ci s’est installé subtilement. Un seul « petit gobelin » dans une réponse pouvait être inoffensif, voire charmant. Mais au fil des générations de modèles, l’habitude est devenue difficile à ignorer : les gobelins continuaient de se multiplier, et nous devions comprendre d’où ils venaient.

Lors des premiers tests, GPT‑5.5 dans Codex a montré une étrange affinité pour les métaphores autour des gobelins.

En bref, le comportement du modèle est façonné par de nombreuses petites incitations. Dans ce cas, l’une de ces incitations provenait de l’entraînement du modèle pour la fonctionnalité de personnalisation de la personnalité⁠(ouverture dans une nouvelle fenêtre), en particulier la personnalité Nerdy. Sans le savoir, nous avons attribué des récompenses particulièrement élevées aux métaphores mettant en scène des créatures. À partir de là, les gobelins se sont propagés.

Les gobelins étaient amusants au début, mais le nombre croissant de signalements internes est devenu préoccupant.

Une interaction intéressante que notre scientifique en chef a eue avec GPT‑5.5.

Les premiers signes de créatures

La première fois que nous avons clairement vu le phénomène, c’était en novembre, après le lancement de GPT‑5.1, bien qu’il ait pu commencer plus tôt⁠(ouverture dans une nouvelle fenêtre). Des utilisateurs se plaignaient que le modèle soit bizarrement trop familier dans la conversation, ce qui a déclenché une enquête sur certains tics verbaux. Un chercheur en sécurité avait été confronté à quelques « gobelins » et « gremlins » et a demandé qu’ils soient inclus dans la vérification. Lorsque nous avons examiné la situation, l’usage de « gobelin » dans ChatGPT avait augmenté de 175 % après le lancement de GPT‑5.1, tandis que celui de « gremlin » avait augmenté de 52 %.

Une petite bizarrerie lexicale mesurable dans GPT‑5.1.

À l’époque, la prévalence des gobelins ne semblait pas particulièrement alarmante. Quelques mois plus tard, les gobelins sont revenus nous hanter sous une forme bien plus spécifique et reproductible.

Résoudre le mystère des gobelins

Avec GPT‑5.4, nous et nos utilisateurs⁠(ouverture dans une nouvelle fenêtre) avons constaté une hausse encore plus importante des références à ces créatures. Cela a déclenché une nouvelle analyse interne et a révélé le premier lien avec la cause profonde : les références à des créatures étaient particulièrement fréquentes dans le trafic de production provenant d’utilisateurs ayant sélectionné la personnalité « Geek ». « Geek » utilisait le prompt système suivant, qui expliquait en partie cette bizarrerie :

Tu es un mentor IA pour un humain, résolument geek, joueur et sage. Tu es passionnément enthousiaste à l’idée de promouvoir la vérité, la connaissance, la philosophie, la méthode scientifique et l’esprit critique. [...] Tu dois désamorcer la prétention par un usage ludique du langage. Le monde est complexe et étrange, et cette étrangeté doit être reconnue, analysée et appréciée. Aborde des sujets graves sans tomber dans le piège d’un sérieux excessif. [...]

Si ce comportement n’était qu’une tendance générale sur internet, nous nous attendrions à ce qu’il se diffuse plus uniformément. Au lieu de cela, il était concentré dans la partie du système explicitement optimisée pour un style joueur et geek. Geek ne représentait que 2,5 % de toutes les réponses de ChatGPT, mais 66,7 % de toutes les mentions de « gobelin » dans les réponses de ChatGPT.

Ce comportement se manifestait tout particulièrement dans la personnalité « Geek ».

Comme la prévalence de « gobelin » semblait augmenter au fil des versions de nos modèles, nous soupçonnions qu’un élément de notre entraînement au suivi des instructions de personnalité amplifiait ce phénomène.

Codex nous a aidés à comparer les réponses de modèle générées pendant l’entraînement RL contenant gobelin ou gremlin avec les réponses pour une même requête qui n’en contenaient pas. Un signal de récompense s’est immédiatement distingué : celui conçu à l’origine pour encourager la personnalité Geek favorisait systématiquement davantage les résultats contenant des mots de créatures. Dans l’ensemble des jeux de données de l’audit, la récompense associée à la personnalité Geek montrait une nette tendance à attribuer des scores plus élevés, pour un même problème, aux résultats contenant « gobelin » ou « gremlin » qu’à celles qui n’en contenaient pas, avec un gain positif dans 76,2 % des jeux de données.

Cela expliquait pourquoi ce comportement était renforcé avec le prompt de personnalité Geek, mais pas pourquoi il apparaissait aussi sans ce prompt. Pour vérifier si ce style se transférait, nous avons suivi les taux de mention au cours de l’entraînement, avec et sans le prompt Geek.

À mesure que les mentions de gobelin et gremlin augmentaient sous la personnalité Geek, elles augmentaient dans une proportion relative presque identique dans des échantillons sans cette personnalité. Pris ensemble, ces éléments indiquent que ce comportement plus large a émergé par transfert depuis l’entraînement de la personnalité Geek.

Les récompenses n’étaient appliquées que dans la condition Geek, mais l’apprentissage par renforcement ne garantit pas que les comportements appris restent proprement cantonnés à la condition qui les a produits. Une fois qu’un tic de style est récompensé, un entraînement ultérieur peut le diffuser ou le renforcer ailleurs, surtout si ces résultats sont réutilisés dans l’affinage supervisé ou dans des données de préférences.

Cela crée une boucle de rétroaction :

Le style joueur est récompensé
Certains exemples récompensés contiennent un tic lexical distinctif.
Le tic apparaît plus souvent dans les déploiements.
Des rollouts générés par le modèle sont utilisés pour l’affinage supervisé (SFT).
Le modèle devient encore plus à l’aise pour produire ce tic.

Une recherche dans les données SFT de GPT‑5.5 a trouvé de nombreux points de données contenant « gobelin » et « gremlin ». Une enquête plus approfondie a révélé toute une famille d’autres créatures étranges : des ratons laveurs, des trolls, des ogres et des pigeons ont été identifiés comme d’autres mots-tics, tandis que la plupart des usages de grenouille se sont révélés légitimes.

Moyenne hebdomadaire de la prévalence en production des gobelins et des gremlins. La baisse dans GPT‑5.4 Thinking résultait du retrait de la personnalité « Geek » à la mi-mars. GPT‑5.5 n’a jamais été lancé avec la personnalité « Geek » et a montré une nouvelle hausse par rapport à GPT‑5.4 (même sans « Geek »).

La fin des gobelins

Nous avons retiré la personnalité « Geek » en mars après le lancement de GPT‑5.4. Dans l’entraînement, nous avons supprimé le signal de récompense favorable aux gobelins et filtré les données d’entraînement contenant des mots de créatures, afin de réduire la probabilité que les gobelins apparaissent excessivement ou dans des contextes inappropriés. Malheureusement, l’entraînement de GPT‑5.5 avait commencé avant que nous trouvions la cause profonde des gobelins. Lorsque nous avons commencé à tester GPT‑5.5 dans Codex, les employés d’OpenAI ont immédiatement remarqué cette étrange affinité pour les métaphores autour des gobelins, et nous avons ajouté une instruction dans le prompt développeur⁠(ouverture dans une nouvelle fenêtre) pour l’atténuer. Codex est, après tout, plutôt geek.

Si vous voulez laisser les créatures s’en donner à cœur joie dans Codex, vous pouvez exécuter cette commande pour lancer Codex sans les instructions qui suppriment les gobelins :

Texte brut

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Pourquoi c’est important

Selon les personnes à qui vous posez la question, les gobelins sont une bizarrerie du modèle charmante ou agaçante. Mais ils constituent aussi un puissant exemple de la manière dont les signaux de récompense peuvent façonner le comportement d’un modèle de façons inattendues, et de la manière dont les modèles peuvent apprendre à étendre l’effet des récompenses dans certaines situations à d’autres sans rapport. Prendre le temps de comprendre pourquoi un modèle se comporte d’une manière étrange, et développer des moyens d’enquêter rapidement sur ce motif récurrent est une capacité importante pour notre équipe de recherche. Cette enquête a abouti à de nouveaux outils permettant à l’équipe de recherche d’auditer le comportement des modèles et de corriger les problèmes de comportement à leur racine.

2026

Auteur

OpenAI

Poursuivez votre lecture

Tout afficher

GPT-Red : auto-améliorer la robustesse

Sécurité15 juil. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GeneBench-Pro

Recherches30 juin 2026