Sari la conținutul principal
OpenAI

29 aprilie 2026

Publicare

De unde au apărut goblinii

Se încarcă…

Începând cu GPT‑5.1, modelele noastre au început să dezvolte un obicei ciudat: menționau tot mai des goblini, gremlini și alte creaturi în metaforele lor. Spre deosebire de erorile de model care se manifestă printr-o evaluare dezastruoasă sau o creștere bruscă a indicatorilor de antrenare și care indică o modificare specifică, aceasta s-a strecurat în mod subtil. Un singur „mic goblin” într-un răspuns ar putea fi inofensiv, ba chiar fermecător. Pe parcursul generațiilor de modele, însă, acest obicei a devenit greu de ignorat: goblinii continuau să se înmulțească, iar noi trebuia să aflăm de unde proveneau.

""

În testarea timpurie, GPT‑5.5 în Codex a arătat o afinitate ciudată pentru metaforele cu goblini.

Pe scurt, comportamentul modelului este determinat de numeroase stimulente minore. În acest caz, unul dintre aceste stimulente a apărut în urma antrenării modelului pentru funcția de personalizare a personalității(se deschide într-o fereastră nouă), în special personalitatea Nerdy. Fără să ne dăm seama, am acordat recompense deosebit de mari pentru metaforele cu creaturi. De acolo, goblinii s-au răspândit.

""

La început, goblinii erau amuzanți, dar numărul tot mai mare de rapoarte de la angajați a devenit îngrijorător.

""

O interacțiune interesantă pe care directorul nostru științific a avut-o cu GPT‑5.5.

Primele semne ale creaturilor

Prima dată când am observat clar tiparul a fost în noiembrie, după lansarea GPT‑5.1, deși este posibil să fi început mai devreme(se deschide într-o fereastră nouă). Utilizatorii s-au plâns că modelul era neobișnuit de familiar în conversație, ceea ce a determinat o investigație privind anumite ticuri verbale. Un cercetător în domeniul siguranței se confruntase cu câțiva „goblini” și „gremlini” și a cerut ca aceștia să fie incluși în verificare. Când am verificat, utilizarea termenului „goblin” în ChatGPT crescuse cu 175% după lansarea GPT‑5.1, în timp ce „gremlin” crescuse cu 52%.

O mică ciudățenie lexicală măsurabilă în GPT‑5.1.

La momentul respectiv, prevalența goblinilor nu părea deosebit de alarmantă. Câteva luni mai târziu, goblinii au revenit să ne bântuie într-o formă mult mai specifică și reproductibilă.

Rezolvarea misterului goblinilor

Cu GPT‑5.4, noi și utilizatorii noștri(se deschide într-o fereastră nouă) am observat o creștere și mai mare a numărului de referiri la aceste creaturi. Acest lucru a declanșat o altă analiză internă și a scos la iveală prima legătură cu cauza principală: limbajul creaturilor era deosebit de frecvent în traficul de producție provenit de la utilizatorii care selectaseră personalitatea „Nerdy”. „Nerdy” a folosit următoarea solicitare de sistem, care explica parțial caracterul excentric:

Ești un mentor IA care nu-și ascunde deloc latura de tocilar, jucăuș și înțelept pentru un om. Manifești un entuziasm profund și pasionat pentru promovarea adevărului, a cunoașterii, a filosofiei, a metodei științifice și a gândirii critice. [...] Trebuie să subminezi pretențiozitatea prin utilizarea jucăușă a limbajului. Lumea este complexă și stranie, iar stranietatea acesteia trebuie recunoscută, analizată și savurată. Abordează subiecte importante fără să cazi în capcana de a te lua prea în serios. [...]

Dacă acest comportament ar fi fost pur și simplu o tendință larg răspândită pe internet, ne-am fi așteptat să se răspândească mai uniform. În schimb, era concentrat în partea sistemului optimizată explicit pentru un stil jucăuș și tocilar. Nerdy reprezenta doar 2,5% din toate răspunsurile ChatGPT, dar 66,7% din toate mențiunile „goblin” din răspunsurile ChatGPT.

Comportamentul era puternic concentrat în personalitatea „Nerdy”.

Pentru că prevalența cuvântului „goblin” părea să crească de-a lungul versiunilor modelului nostru, am bănuit că un anumit aspect din antrenamentul pentru urmarea instrucțiunilor de personalitate amplifica acest fenomen.

Codex ne-a ajutat să comparăm rezultatele modelului generate în timpul antrenării RL și care conțineau „goblin” sau „gremlin” cu rezultatele din aceeași sarcină care nu le conțineau. Un semnal de recompensă s-a remarcat imediat: cel conceput inițial pentru a încuraja personalitatea Nerdy s-a dovedit a fi constant mai favorabil pentru răspunsurile de tip „cuvânt-creatură”. În toate seturile de date din audit, recompensa pentru personalitatea Nerdy a arătat o tendință clară de a acorda scoruri mai mari rezultatelor pentru aceeași problemă care includeau „goblin” sau „gremlin” decât celor care nu le includeau, cu o creștere pozitivă în 76,2% dintre seturile de date.

Acest fapt explica de ce comportamentul era amplificat cu solicitarea de personalitate Nerdy, dar nu și de ce apărea și fără această solicitare. Pentru a verifica dacă stilul se transfera, am monitorizat frecvența mențiunilor pe parcursul antrenamentului, atât cu, cât și fără solicitarea Nerdy.

Pe măsură ce mențiunile referitoare la goblini și gremlini au crescut în cadrul personalității Nerdy, acestea au crescut cu aproape aceeași proporție relativă și în eșantioanele care nu includeau această personalitate. În ansamblu, datele sugerează că acest comportament mai general a apărut prin transferul de la antrenamentul pentru personalitatea Nerdy.

Recompensele au fost aplicate doar în condiția Nerdy, însă învățarea prin consolidare nu garantează că comportamentele învățate rămân strict limitate la condiția care le-a generat. Odată ce un tic stilistic este recompensat, antrenamentul ulterior îl poate răspândi sau consolida în alte contexte, mai ales dacă acele rezultate sunt reutilizate în procesul de reglare fină supervizată sau în datele privind preferințele.

Astfel se creează un cerc vicios:

  1. Stilul jucăuș este recompensat
  2. Unele exemple recompensate conțin un tic lexical distinctiv.
  3. Ticul apare mai des în implementările modelului.
  4. Implementările generate de model sunt folosite pentru reglare fină supervizată (SFT).
  5. Modelul ajunge să producă acest tic și mai ușor.

O căutare prin datele SFT ale GPT‑5.5 a relevat multe puncte de date care conțin „goblin” și „gremlin”. Investigații suplimentare au dezvăluit o întreagă familie de alte creaturi ciudate: ratonii, trolii, căpcăunii și porumbeii au fost identificați ca alte cuvinte-tic, în timp ce majoritatea utilizărilor cuvântului broască s-au dovedit a fi legitime.

Media pe o săptămână a prevalenței în producție a goblinilor și gremlinilor. Scăderea din GPT‑5.4 Thinking a fost rezultatul retragerii personalității „Nerdy” la mijlocul lunii martie. GPT‑5.5 nu a fost lansat niciodată cu personalitatea „Nerdy” și a indicat o nouă creștere față de GPT‑5.4 (chiar și fără „Nerdy”).

Sfârșitul goblinilor

Am retras personalitatea Nerdy în martie, după lansarea GPT‑5.4. În timpul antrenării, am eliminat semnalul recompensă favorabil goblinilor și am filtrat datele de antrenare care conțineau cuvinte referitoare la creaturi, făcând ca goblinii să fie mai puțin susceptibili să apară excesiv sau să apară în contexte nepotrivite. Din păcate, GPT‑5.5 a început antrenarea înainte să găsim cauza principală a goblinilor. Când am început să testăm GPT‑5.5 în Codex, angajații OpenAI au observat imediat afinitatea ciudată pentru goblini și am adăugat o instrucțiune pentru solicitarea de dezvoltator(se deschide într-o fereastră nouă) pentru a o atenua. Codex este, la urma urmei, destul de tocilar.

Dacă vrei să lași creaturile să zburde liber în Codex, poți rula această comandă pentru a lansa Codex fără instrucțiunile care suprimă goblinii:

Text simplu

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

De ce contează

În funcție de pe cine întrebi, goblinii sunt o ciudățenie încântătoare sau enervantă a modelului. Dar sunt și un exemplu puternic despre cum semnalele de recompensă pot modela comportamentul modelului în moduri neașteptate și despre cum modelele pot învăța să generalizeze recompensele din anumite situații către altele fără legătură. Să ne facem timp să înțelegem de ce un model se comportă într-un mod ciudat și să construim modalități de a investiga rapid aceste tipare este o capacitate importantă pentru echipa noastră de cercetare. Această investigație a dus la noi instrumente pentru echipa de cercetare, menite să auditeze comportamentul modelului și să rezolve problemele de comportament de la rădăcină.

Autor

OpenAI