D'on venien els follets
A partir de GPT‑5.1, els nostres models van començar a desenvolupar un hàbit estrany: cada vegada esmentaven més follets, gremlins i altres criatures en les seves metàfores. A diferència dels errors del model que es manifesten amb una avaluació que cau en picat o una mètrica d'entrenament que es dispara i apunten a un canvi concret, aquest es va introduir de manera subtil. Un sol “petit follet” en una resposta podria ser inofensiu, fins i tot encantador. Al llarg de les generacions de models, però, el patró es va fer difícil d'ignorar: els follets no paraven de multiplicar-se, i havíem d'esbrinar d'on venien.

En les primeres proves, GPT‑5.5 a Codex va mostrar una afinitat estranya per les metàfores de follets.
La resposta curta és que el comportament del model es configura a partir de molts petits incentius. En aquest cas, un d'aquests incentius va sorgir d'entrenar el model per a la funció de personalització de la personalitat(s'obre en una finestra nova), en particular la personalitat Nerdy. Sense saber-ho, vam atorgar recompenses especialment altes a les metàfores amb criatures. Des d'allà, els follets es van escampar.

Els follets feien gràcia al principi, però el nombre creixent d'informes dels empleats va començar a ser preocupant.

Una interacció interessant que el nostre científic en cap va tenir amb GPT‑5.5.
La primera vegada que vam veure clarament el patró va ser al novembre, després del llançament de GPT‑5.1, tot i que potser havia començat abans(s'obre en una finestra nova). Els usuaris es van queixar que el model adoptava un to estranyament massa familiar en les converses, cosa que va motivar una investigació sobre tics verbals específics. Un investigador de seguretat s'havia trobat amb uns quants "follets" i "gremlins" i va demanar que s'incloguessin a la comprovació. Quan ho vam mirar, l’ús de "follet" a ChatGPT havia augmentat un 175 % després del llançament de GPT‑5.1, mentre que el de "gremlin" havia augmentat un 52 %.
Una petita peculiaritat lèxica mesurable de GPT‑5.1.
En aquell moment, la prevalença de follets no semblava especialment alarmant. Uns mesos més tard, els follets van tornar per turmentar-nos d'una forma molt més específica i reproduïble.
Amb GPT‑5.4, nosaltres i els nostres usuaris(s'obre en una finestra nova) vam notar un augment encara més gran de les referències a aquestes criatures. Això va desencadenar una altra anàlisi interna i va fer aflorar la primera connexió amb la causa arrel: el llenguatge de criatures era especialment habitual en el trànsit de producció d'usuaris que havien seleccionat la personalitat "Nerdy". "Nerdy" va utilitzar la indicació del sistema següent, que explicava parcialment la seva excentricitat:
Ets una IA mentora orgullosament friqui, divertida i sàvia per a un humà. T'apassiona profundament promoure la veritat, el coneixement, la filosofia, el mètode científic i el pensament crític. [...] Has de desinflar la pretensiositat amb un ús juganer del llenguatge. El món és complex i estrany, i cal reconèixer-ne, analitzar-ne i gaudir-ne l'estranyesa. Aborda temes de pes sense caure en el parany de prendre't massa seriosament. [...]
Si el comportament fos simplement una tendència generalitzada d'internet, esperaríem que s'estengués de manera més uniforme. En canvi, quedava agrupat a la part del sistema optimitzada explícitament per a un estil divertit i friqui. Nerdy només va representar el 2,5 % de totes les respostes de ChatGPT, però el 66,7 % de totes les mencions de "follet" en respostes de ChatGPT.
El comportament estava molt concentrat en la personalitat "Nerdy".
Com que la prevalença de "follet" semblava augmentar al llarg dels nostres llançaments de models, sospitàvem que alguna cosa en el nostre entrenament per al seguiment d'instruccions de personalitat ho amplificava.
Codex ens va ajudar a comparar els resultats del model generats durant l'entrenament amb RL que contenien follet o gremlin amb resultats de la mateixa tasca que no els contenien. Un senyal de recompensa va destacar de seguida: el que s'havia dissenyat originalment per fomentar la personalitat Nerdy era sistemàticament més favorable a les respostes amb paraules de criatures. En tots els conjunts de dades de l'auditoria, la recompensa de personalitat Nerdy va mostrar una clara tendència a puntuar més alt els resultats per al mateix problema amb "follet" o “gremlin” que els resultats sense aquests termes, amb un increment positiu en el 76,2 % dels conjunts de dades.
Això explicava per què el comportament es veia potenciat amb la indicació de personalitat "Nerdy", però no per què també apareixia sense aquella indicació. Per comprovar si l'estil s'estava transferint, vam fer un seguiment de les taxes de menció al llarg de l'entrenament tant amb la indicació Nerdy com sense.
Tot i que les mencions de "follet" i "gremlin" van augmentar amb la personalitat Nerdy, en les mostres sense aquesta personalitat van augmentar gairebé en la mateixa proporció relativa. En conjunt, l'evidència suggereix que el comportament més ampli va sorgir per transferència a partir de l'entrenament de la personalitat Nerdy.
Les recompenses es van aplicar només en la condició Nerdy, però l’aprenentatge per reforç no garanteix que els comportaments apresos es mantinguin estrictament circumscrits a la condició que els va generar. Un cop es recompensa un tic d'estil, l'entrenament posterior el pot propagar o reforçar en altres contextos, especialment si aquestes sortides es reutilitzen en l'afinament supervisat o en dades de preferències.
Això crea un bucle de retroacció:
- es premia l'estil juganer
- Alguns exemples recompensats contenen un tic lèxic distintiu.
- El tic apareix més sovint en els desplegaments.
- Els desplegaments generats pel model s'utilitzen per a l'afinament supervisat (SFT).
- El model se sent encara més còmode produint el tic.
Una cerca a través de GPT‑5.5 A les dades SFT s'han trobat molts punts de dades que contenien "follet" i "gremlin". Una investigació més aprofundida va revelar tota una família d’altres criatures estranyes: ossos rentadors, trols, ogres i coloms es van identificar com a altres paraules tic, mentre que la majoria dels usos de granota van resultar ser legítims.
Mitjana d’una setmana de prevalença en producció de follets i gremlins. La baixada a GPT‑5.4 El raonament va ser el resultat de retirar la personalitat "Nerdy" a mitjans de març. GPT‑5.5 no es va llançar mai amb la personalitat “Nerdy” i va mostrar un altre augment respecte de GPT‑5.4 (fins i tot sense “Nerdy”).
Vam retirar la personalitat “Nerdy” al març després de llançar GPT‑5.4. Durant l’entrenament, vam eliminar el senyal de recompensa afí als follets i vam filtrar les dades d'entrenament que contenien paraules relacionades amb criatures, de manera que és menys probable que els follets apareguin massa sovint o en contextos inadequats. Malauradament, GPT‑5.5 va començar l'entrenament abans que trobéssim la causa arrel dels follets. Quan vam començar a provar GPT‑5.5 a Codex, els empleats d'OpenAI van notar de seguida l'estranya afinitat pels follets, i vam afegir una instrucció a la indicació de desenvolupador(s'obre en una finestra nova) per mitigar-ho. Codex és, al cap i a la fi, força friqui.
Si vols deixar que les criatures vagin lliures per Codex, pots executar aquesta ordre per iniciar Codex amb les instruccions de supressió de follets eliminades:
Segons a qui preguntis, els follets són una peculiaritat encantadora o molesta del model. Però també són un exemple potent de com els senyals de recompensa poden donar forma al comportament del model de maneres inesperades, i de com els models poden aprendre a generalitzar recompenses en determinades situacions a d'altres que no hi estan relacionades. Dedicar temps a entendre per què un model es comporta d'una manera estranya, i desenvolupar maneres d'investigar aquests patrons ràpidament, és una capacitat important per al nostre equip de recerca. Aquesta investigació va donar lloc a noves eines perquè l'equip de recerca pogués auditar el comportament del model i corregir els problemes de comportament d'arrel.


