29. aprill 2026

Kust päkapikud tulid

Laadimine…

Alates GPT‑5.1‑st hakkas meie mudelitel kujunema kummaline harjumus: nad mainisid metafoorides üha sagedamini goblineid, gremlineid ja muid olendeid. Erinevalt mudeli vigadest, mis ilmnevad hindamiste järsu halvenemise või treeningumõõdiku hüppelise muutusena ning viitavad kindlale muudatusele, hiilis see sisse märkamatult. Üksainus „väike goblin” vastuses võis olla kahjutu, isegi võluv. Kuid mudelipõlvkondade lõikes muutus harjumus liiga silmatorkavaks, et seda eirata: goblineid tuli aina juurde ja meil oli vaja välja selgitada, kust nad tulid.

Varajastes testides ilmnes, et GPT‑5.5 Codexis on kummaline tõmme goblinimetafooride vastu.

Lühike vastus on, et mudeli käitumist kujundavad paljud väikesed stiimulid. Sel juhul tulenes üks neist stiimulitest mudeli treenimisest isiksuse kohandamise funktsiooni⁠(avaneb uues aknas) jaoks, täpsemalt nohikliku isiksuse jaoks. Me tasustasime endale teadmata eriti kõrgelt olendeid sisaldavaid metafoore. Sealt levisid goblinid.

Goblinid olid algul naljakad, kuid töötajate teadete sagenemine muutus murettekitavaks.

Huvitav suhtlus, mis meie juhtivteadlasel oli GPT‑5.5‑ga.

Olendite esimesed märgid

Esimest korda nägime seda mustrit selgelt novembris, pärast GPT‑5.1 väljalaset, kuigi see võis alata varem⁠(avaneb uues aknas). Kasutajad kurtsid, et mudel oli vestluses kummaliselt familiaarne, mis ajendas uurima konkreetseid verbaalseid tikke. Ohutusuuringute ekspert oli kokku puutunud mõningate „goblinitega“ ja „gremlinitega“ ning palus, et need kontrolli kaasataks. Kui me seda uurisime, oli sõna „goblin“ kasutus ChatGPT‑s pärast GPT‑5.1 väljalaset kasvanud 175%, samas kui sõna „gremlin“ kasutus oli kasvanud 52%.

Mõõdetav väike leksikaalne veidrus GPT‑5.1‑s.

Toona ei tundunud goblinite levimine eriti murettekitav. Mõni kuu hiljem tulid goblinid meid taas kummitama palju konkreetsemal ja korratavamal kujul.

Goblinite müsteeriumi lahendamine

GPT‑5.4‑ga, meie ja meie kasutajad⁠(avaneb uues aknas) märkasime veelgi suuremat kasvu nende olendite mainimises. See käivitas uue sisemise analüüsi ja tõi esile esimese seose algpõhjusega: olenditega seotud keelekasutus oli eriti sage tootmisliikluses nende kasutajate puhul, kes olid valinud isiksuse „Nerdy”. „Nerdy“ kasutas järgmist süsteemiviipa, mis selgitas osaliselt veidrust:

Sa oled inimesele häbenematult nohiklik, mänguline ja tark tehisintellektist mentor. Oled kirglikult innustunud tõe, teadmiste, filosoofia, teadusliku meetodi ja kriitilise mõtlemise edendamisest. [...] Peate mängulise keelekasutusega ülespuhutust õõnestama. Maailm on keeruline ja kummaline ning selle kummalisust tuleb tunnistada, analüüsida ja nautida. Käsitle kaalukaid teemasid, langemata ennast liiga tõsiselt võtmise lõksu. [...]

Kui selline käitumine oleks lihtsalt lai internetitrend, eeldaksime, et see levib ühtlasemalt. Selle asemel koondus see süsteemi ossa, mida optimeeriti otseselt mängulise ja nohikliku stiili jaoks. Nerdy moodustas vaid 2,5% kõigist ChatGPT vastustest, kuid 66,7% kõigist „goblini” mainimistest ChatGPT vastustes.

Selline käitumine koondus tugevalt isiksusse „Nerdy”.

Kuna „goblini” levimus näis meie mudeliväljalasete jooksul suurenevat, tekkis meil kahtlus, et miski meie isiksusejuhiste järgimise treeningus võimendab seda.

Codex aitas meil võrrelda RL-treeningu käigus genereeritud mudeli väljundeid, mis sisaldasid sõnu „goblin” või „gremlin”, sama ülesande väljunditega, mis neid ei sisaldanud. Üks preemiasignaal paistis kohe silma: see, mis oli algselt loodud Nerdy-isiksuse soodustamiseks, eelistas järjekindlalt olendisõna-väljundeid. Kõigis auditi andmestikes ilmnes Nerdy isiksusetasul selge kalduvus hinnata sama probleemi vastuseid, mis sisaldasid sõnu „goblin” või „gremlin”, kõrgemalt kui vastuseid, mis neid ei sisaldanud; positiivne tõus esines 76,2% andmestikest.

See selgitas, miks käitumine tugevnes isiksuse „Nerdy” viiba korral, kuid mitte seda, miks see ilmus ka ilma selle viibata. Et testida, kas stiil kandub üle, jälgisime mainimissagedusi treeningu jooksul nii „Nerdy” viibaga kui ka ilma selleta.

Kui goblini ja gremlini mainimised suurenesid Nerdy isiksuse all, suurenesid need peaaegu samas suhtelises proportsioonis ka proovides, kus seda polnud. Kokkuvõttes viitavad tõendid sellele, et laiem käitumine tekkis ülekande kaudu Nerdy isiksuse treeningust.

Preemiaid rakendati ainult Nerdy tingimuses, kuid kinnistav õppimine ei taga, et õpitud käitumised jäävad kenasti selle tingimuse piiresse, mis need tekitas. Kui mingit stiilivõtet premeeritakse, võib hilisem treening seda mujal levitada või tugevdada, eriti kui neid väljundeid kasutatakse uuesti järelevalvega peenhäälestuses või eelistusandmetes.

See loob tagasisideahela:

Mängulist stiili premeeritakse
Mõned premeeritud näited sisaldavad eristuvat korduvat väljendit.
See keeleline tik ilmub sagedamini genereeritud väljundites.
Mudeli loodud väljundeid kasutatakse järelevalvega peenhäälestuseks (SFT).
Mudel tunneb end selle korduva väljendi kasutamisel veelgi mugavamalt.

Otsing GPT‑5.5‑s SFT-andmetest leiti palju andmepunkte, mis sisaldasid sõnu „goblin“ ja „gremlin“. Edasine uurimine paljastas terve perekonna muid veidraid olendeid: pesukarud, trollid, koletised ja tuvid tuvastati teiste koruvsõnadena, samas kui enamik sõna „konn” kasutusi osutus asjakohaseks.

Goblinite ja gremlinite levimuse ühe nädala keskmine tootmiskeskkonnas. GPT‑5.4 langus Mõtlemine oli „Nerdy“ isiksuse märtsi keskel kasutuselt kõrvaldamise tulemus. GPT‑5.5 ei ilmunud kunagi „Nohikliku“ isiksusega ja näitas veel üht kasvu võrreldes GPT‑5.4‑ga (isegi ilma „Nohiklikuta“).

Goblinite lõpp

Võtsime „Nerdy“ isiksuse märtsis pärast GPT‑5.4 käivitamist kasutuselt maha. Treenimisel eemaldasime goblinitele kalduva preemiasignaali ja filtreerisime välja olendisõnu sisaldavad treeningandmed, mistõttu on vähem tõenäoline, et goblinid esinevad liiga sageli või ilmuvad sobimatutes kontekstides. Kahjuks alustas GPT‑5.5 treenimist enne, kui leidsime goblinite algpõhjuse. Kui alustasime GPT‑5.5 testimist Codexis, märkasid OpenAI töötajad kohe kummalist kiindumust goblinite vastu ja lisasime selle leevendamiseks arendaja viip juhise⁠(avaneb uues aknas). Codex on lõppude lõpuks üsna nohiklik.

Kui soovid lasta olenditel Codexis vabalt ringi joosta, saad käivitada selle käsu, et avada Codex ilma goblineid mahasuruva juhiseta:

Lihtne tekst

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Miks see oluline

Sõltuvalt sellest, kellelt küsida, on goblinid mudeli veetlev või tüütu veidrus. Kuid need on ka võimas näide sellest, kuidas preemiasignaalid võivad mudeli käitumist ootamatul viisil kujundada ja kuidas mudelid võivad teatud olukordades õppida preemiaid üldistama mitteseotud olukordadele. Aja võtmine, et mõista, miks mudel käitub kummaliselt, ja kiirete viiside loomine nende mustrite uurimiseks on meie uurimisrühma jaoks oluline võimekus. Selle uurimise tulemusena valmisid uued tööriistad, mis aitavad uurimisrühmal mudeli käitumist auditeerida ja käitumisprobleeme nende juurpõhjuses parandada.

2026

Autor

OpenAI

Jätka lugemist

Vaata kõiki

GPT-Red: enesetäiustus suurema vastupidavuse nimel

Ohutus15. juuli 2026

Signaali ja müra eristamine kodeerimise hindamistes

Teadustöö8. juuli 2026

Tutvustame GeneBench-Pro’d

Teadustöö30. juuni 2026