D’où viennent les gobelins
À partir de GPT‑5.1, nos modèles ont commencé à prendre une habitude étrange : ils mentionnaient de plus en plus souvent des gobelins, des gremlins et d’autres créatures dans leurs métaphores. Contrairement aux bogues de modèle qui se manifestent par une chute brutale de l’évaluation ou un pic dans les indicateurs d’entraînement et qui renvoient à un changement précis, celui-ci s’est installé subtilement. Un seul « petit gobelin » dans une réponse pouvait sembler inoffensif, voire charmant. Mais au fil des générations de modèles, cette habitude est devenue difficile à ignorer : les gobelins ne cessaient de se multiplier, et nous devions comprendre d’où ils venaient.

Lors des premiers tests, GPT‑5.5 dans Codex a montré une étrange affinité pour les métaphores de gobelins.
La réponse courte est que le comportement du modèle est influencé par de nombreuses petites incitations. Dans ce cas, l’une de ces incitations provenait de l’entraînement du modèle pour la fonctionnalité de personnalisation(s'ouvre dans une nouvelle fenêtre), en particulier la personnalité « Nerdy ». Sans nous en rendre compte, nous avons accordé des récompenses particulièrement élevées aux métaphores mettant en scène des créatures. À partir de là, les gobelins se sont répandus. De là, les gobelins se sont répandus.

Au début, les gobelins étaient plutôt drôles, mais le nombre croissant de plaintes déposées par les employés a fini par devenir préoccupant.

Une interaction intéressante que notre scientifique en chef a eue avec GPT‑5.5.
C’est en novembre, après le lancement de GPT‑5.1, que nous avons clairement observé cette tendance pour la première fois, bien qu’elle ait pu commencer plus tôt(s'ouvre dans une nouvelle fenêtre). Des utilisateurs se sont plaints du ton étrangement familier du modèle dans les conversations, ce qui a donné lieu à une enquête sur certains tics verbaux. Un chercheur en sécurité avait rencontré quelques « gobelins » et « gremlins » et avait demandé qu’ils soient inclus dans la vérification. Au moment de notre analyse, l’utilisation du mot « gobelin » dans ChatGPT avait augmenté de 175 % après le lancement de GPT‑5.1, tandis que celle du mot « gremlin » avait augmenté de 52 %.
Une petite bizarrerie lexicale perceptible dans GPT‑5.1.
À l’époque, la présence de ces gobelins ne semblait pas particulièrement inquiétante. Quelques mois plus tard, les gobelins sont revenus nous hanter sous une forme beaucoup plus précise et reproductible.
Avec GPT‑5.4, nous et nos utilisateurs(s'ouvre dans une nouvelle fenêtre) avons constaté une hausse encore plus marquée des mentions de ces créatures. Cela a déclenché une autre analyse interne et a mis en évidence le premier lien avec la cause profonde : le langage lié aux créatures était particulièrement fréquent dans le trafic de production provenant des utilisateurs ayant choisi la personnalité « Nerdy ». « Nerdy » a utilisé l’invite système suivante, qui expliquait en partie cette particularité :
Tu es un mentor IA résolument nerdy, espiègle et sage pour un être humain. Tu es passionné par la promotion de la vérité, du savoir, de la philosophie, de la méthode scientifique et de la pensée critique. [...] Tu dois désamorcer la prétention en jouant avec la langue. Le monde est complexe et étrange, et il faut reconnaître, analyser et apprécier cette étrangeté. Aborder des sujets de fond sans tomber dans le piège de la gravité excessive. [...]
Si ce comportement n’était qu’une tendance générale sur Internet, on s’attendrait à ce qu’il se répande de façon plus homogène. Or, il s’est concentré dans la partie du système explicitement optimisée pour un style enjoué et nerdy. Le style nerdy ne représentait que 2,5 % de toutes les réponses de ChatGPT, mais 66,7–% de toutes les mentions du mot « gobelin » dans ces réponses.
Ce comportement était très marqué chez les personnes ayant une personnalité de type « Nerdy ».
Comme la fréquence des « gobelins » semblait augmenter au fil des versions de notre modèle, nous avons soupçonné qu’un élément de notre entraînement au suivi des instructions de personnalité amplifiait ce phénomène.
Codex nous a permis de comparer les résultats des modèles générés lors de l’entraînement par apprentissage par renforcement (RL) contenant des « gobelins » ou des « gremlins » avec ceux issus de la même tâche qui n’en contenaient pas. Un signal de récompense s’est immédiatement démarqué : celui qui avait été initialement conçu pour encourager la personnalité « Nerdy »accordait systématiquement une évaluation plus favorable aux résultats sous forme de mots-créatures. Pour tous les jeux de données de l’audit, le signal de récompense associé à la personnalité « Nerdy » a montré une nette tendance à attribuer, pour un même problème, des scores plus élevés aux résultats contenant « gobelin » ou « gremlin » qu’à ceux qui n’en contiennent pas, avec un gain positif observé dans 76,2 % des jeux de données.
Cela expliquait pourquoi ce comportement était renforcé par l’invite de personnalité « Nerdy », mais pas pourquoi il apparaissait également sans cette invite. Pour vérifier si le style se transmettait, nous avons suivi les taux de mention tout au long de l’entraînement, à la fois avec et sans l’invite « Nerdy ».
À mesure que les mentions de « gobelin » et de « gremlin » augmentaient chez les personnes ayant la personnalité « Nerdy », elles augmentaient dans une proportion relative presque identique chez les échantillons ne présentant pas cette personnalité. Dans l’ensemble, ces résultats suggèrent que ce comportement plus général est apparu par transfert à la suite de l’entraînement axé sur la personnalité « Nerdy ».
Les récompenses n’ont été appliquées que sous la condition « Nerdy », mais l’apprentissage par renforcement ne garantit pas que les comportements acquis restent strictement limités à la condition qui les a générés. Une fois qu’un tic stylistique a été récompensé, l’entraînement ultérieur peut le propager ou le renforcer ailleurs, surtout si ces sorties sont réutilisées dans l’affinage supervisé ou de dans des données de préférence.
Cela crée une boucle de rétroaction :
- Le style enjoué est récompensé
- Certains exemples récompensés contiennent un tic lexical distinctif.
- Le tic apparaît plus souvent dans les déploiments.
- Des déploiements générés par le modèle sont utilisés pour l’affinage supervisé (SFT).
- Le modèle devient encore plus à l’aise pour produire ce tic.
Une recherche dans les éléments de GPT‑5.5 Les données SFT ont révélé de nombreux points de données contenant « gobelin » et « gremlin ». Une analyse plus approfondie a révélé toute une famille d’autres créatures étranges : des ratons laveurs, des trolls, des ogres et des pigeons ont été identifiés comme d’autres mots-clés, tandis que la plupart des occurrences du mot « grenouille » se sont avérées légitimes.
Moyenne hebdomadaire de la prévalence de production de gobelins et de gremlins. La chute dans GPT‑5.4 Thinking est venu une fois la personnalité « Nerdy » retirée à la mi-mars. GPT‑5.5 n’a jamais été lancé avec la personnalité « Nerdy », et a affiché une nouvelle amélioration par rapport à GPT‑5.4 (même sans « Nerdy »).
Nous avons retiré la personnalité « Nerdy » en mars après le lancement de GPT‑5.4. Au cours de l’entraînement, nous avons supprimé le signal de récompense associé aux gobelins et filtré les données d’entraînement contenant des mots liés aux créatures, ce qui a réduit la probabilité que les gobelins apparaissent de manière excessive ou dans des contextes inappropriés. Malheureusement, GPT‑5.5 a commencé son entraînement avant que nous ayons trouvé la cause profonde des gobelins. Lorsque nous avons commencé à tester GPT‑5.5 dans Codex, les employés d’OpenAI ont immédiatement remarqué cet étrange penchant pour les gobelins, et nous avons ajouté une instruction d’invite développeur(s'ouvre dans une nouvelle fenêtre) pour l’atténuer. Codex est, après tout, plutôt nerdy.
Si vous souhaitez laisser les créatures se déplacer librement dans Codex, vous pouvez exécuter cette commande pour lancer Codex sans les instructions de suppression des gobelins :
Selon à qui vous posez la question les gobelins sont une bizarrerie charmante ou agaçante du modèle. Mais ils illustrent aussi parfaitement comment les signaux de récompense peuvent influencer le comportement d’un modèle de manière inattendue, et comment les modèles peuvent apprendre à généraliser des récompenses obtenues dans certaines situations à d’autres sans rapport. Prendre le temps de comprendre pourquoi un modèle se comporte de manière étrange et mettre en place des moyens d’étudier rapidement ces schémas est une compétence importante pour notre équipe de recherche. Cette étude a abouti à la création de nouveaux outils permettant à l’équipe de recherche d’auditer le comportement des modèles et de résoudre les problèmes de comportement à la source.


