Mistä peikot tulivat
GPT‑5.1:stä alkaen malleihimme alkoi kehittyä outo tapa: ne mainitsivat yhä useammin peikkoja, riiviöitä ja muita olentoja metaforissaan. Toisin kuin mallivirheet, jotka näkyvät romahtaneena arviointituloksena tai piikkinä koulutusmetriikassa ja johtavat takaisin tiettyyn muutokseen, tämä hiipi esiin hienovaraisesti. Yksi vastausta koristava ”pikku peikko” saattoi olla harmiton, jopa hurmaava. Mallisukupolvien myötä tapa kävi kuitenkin mahdottomaksi olla huomaamatta: peikot lisääntyivät jatkuvasti, ja meidän piti selvittää, mistä ne tulivat.

Varhaisessa testauksessa Codexin GPT‑5.5 osoitti outoa mieltymystä peikkometaforiin.
Lyhyt vastaus on, että mallin käyttäytymistä ohjaavat monet pienet kannustimet. Tässä tapauksessa yksi näistä kannustimista tuli mallin kouluttamisesta persoonallisuuden mukautusominaisuutta(avautuu uudessa ikkunassa) varten, erityisesti Nörtti-persoonallisuutta varten. Annoimme tietämättämme erityisen suuria palkkioita metaforille, joissa esiintyi olentoja. Sieltä peikot sitten levisivät.

Peikot (goblins) olivat aluksi hauskoja, mutta työntekijäraporttien kasvava määrä alkoi huolestuttaa.

Mielenkiintoinen vuorovaikutus, joka päätutkijallamme oli GPT‑5.5:n kanssa.
Havaitsimme tämän kaavan selvästi ensimmäisen kerran marraskuussa GPT‑5.1:n julkaisun jälkeen, vaikka sitä on saattanut esiintyä jo aiemmin(avautuu uudessa ikkunassa). Käyttäjät valittivat, että malli oli keskustelussa oudosti liian tuttavallinen, mikä käynnisti tiettyjen kielellisten maneerien tutkimisen. Eräs turvallisuustutkija oli kohdannut muutamia ”peikkoja” (goblins) ja ”riiviöitä” (gremlins) ja pyysi sisällyttämään ne tarkistukseen. Tarkasteluhetkellä sanan “goblin” käyttö ChatGPT:ssä oli kasvanut 175 % GPT‑5.1:n julkaisun jälkeen, kun taas sanan “gremlin” käyttö oli kasvanut 52 %.
Mitattava pieni sanastollinen omituisuus GPT‑5.1:ssä.
Tuolloin peikkojen esiintyvyys ei näyttänyt erityisen hälyttävältä. Muutamaa kuukautta myöhemmin peikot palasivat kummittelemaan paljon täsmällisemmässä ja toistettavammassa muodossa.
GPT‑5.4:n myötä me ja käyttäjämme(avautuu uudessa ikkunassa) huomasimme vielä suuremman kasvun viittauksissa näihin olentoihin. Se käynnisti uuden sisäisen analyysin ja toi esiin ensimmäisen yhteyden perimmäiseen syyhyn: olentoihin viittaava kieli oli erityisen yleistä tuotantoliikenteessä käyttäjillä, jotka olivat valinneet ”Nörtti”-persoonallisuuden (Nerdy). ”Nerdy” käytti seuraavaa järjestelmäkehotetta, joka selitti osittain sen omintakeisuutta:
Olet ihmiselle häpeilemättömän nörttimäinen, leikkisä ja viisas tekoälymentori. Olet intohimoisen innostunut edistämään totuutta, tietoa, filosofiaa, tieteellistä menetelmää ja kriittistä ajattelua. [...] Sinun tulee purkaa mahtipontisuutta leikittelevällä kielenkäytöllä. Maailma on monimutkainen ja outo, ja sen outous on tunnustettava, sitä on analysoitava ja siitä on nautittava. Käsittele painavia aiheita sortumatta ryppyotsaisuuden ansaan. [...]
Jos käyttäytyminen olisi ollut vain laaja internettrendi, odottaisimme sen leviävän tasaisemmin. Sen sijaan se keskittyi järjestelmän osaan, joka oli nimenomaisesti optimoitu leikkisää, nörttimäistä tyyliä varten. Nörtti vastasi vain 2,5 %:sta kaikista ChatGPT‑vastauksista, mutta 66,7 %:sta kaikista ChatGPT‑vastausten ”goblin”-maininnoista.
Käyttäytyminen keskittyi voimakkaasti ”Nörtti”-persoonallisuuteen.
Koska ”goblin”-sanan esiintyvyys näytti kasvavan mallijulkaisujemme myötä, epäilimme, että jokin persoonallisuuden ohjeiden noudattamiseen tähtäävässä koulutuksessamme vahvisti tätä.
Codex auttoi meitä vertailemaan RL-koulutuksen aikana tuotettuja mallin tuotoksia, jotka sisälsivät sanan goblin tai gremlin, saman tehtävän tuotoksiin, jotka eivät sisältäneet kumpaakaan. Yksi palkintosignaali erottui heti: se, joka oli alun perin suunniteltu kannustamaan Nörtti-persoonallisuutta, suhtautui johdonmukaisesti suotuisammin olentosanoja sisältäviin tuotoksiin. Kaikissa auditoinnin tietojoukoissa nörttimäisen persoonallisuuden palkkio osoitti selvää taipumusta pisteyttää samaan ongelmaan annetut tuotokset, joissa oli “goblin” tai “gremlin”, korkeammalle kuin tuotokset, joissa niitä ei ollut; positiivista nousua havaittiin 76,2 %:ssa tietojoukoista.
Se selitti, miksi käyttäytyminen voimistui Nörtti-persoonallisuuden kehotteen yhteydessä, mutta ei sitä, miksi sitä esiintyi myös ilman sitä. Testataksemme siirtyikö tyyli, seurasimme mainintamääriä koulutuksen aikana sekä Nörtti-kehotteen kanssa että ilman sitä.
Kun goblin- ja gremlin-maininnat lisääntyivät Nörtti-persoonallisuuden yhteydessä, ne lisääntyivät lähes samassa suhteessa myös otoksissa ilman sitä. Yhdessä tarkasteltuna näyttö viittaa siihen, että laajempi käyttäytyminen syntyi Nörtti-persoonallisuuden koulutuksesta siirtymisen kautta.
Palkkioita sovellettiin vain Nörtti-tilanteessa, mutta vahvistusoppiminen ei takaa, että opitut käyttäytymistavat pysyvät siististi rajattuina siihen tilanteeseen, joka ne synnytti. Kun jokin tyylillinen maneeri palkitaan, myöhempi koulutus voi levittää tai vahvistaa sitä muualla, etenkin jos näitä tuotoksia käytetään uudelleen valvotussa hienosäädössä tai preferenssidatassa.
Siitä syntyy palautesilmukka:
- Leikkisä tyyli palkitaan
- Jotkin palkitut esimerkit sisältävät erottuvan sanallisen maneerin.
- Maneeri esiintyy useammin mallin tuottamissa vastauksissa.
- Mallin tuottamia vastauksia käytetään valvotussa hienosäädössä (SFT).
- Mallista tulee entistäkin tottuneempi tuottamaan maneeria.
Haku GPT‑5.5:n SFT-datasta löysi monia datapisteitä, jotka sisälsivät sanat ”goblin” ja ”gremlin.” Lisätutkimus paljasti kokonaisen perheen muitakin outoja olentoja: pesukarhut, haltijat, jättiläiset ja kyyhkyset tunnistettiin muiksi maneerisanoiksi, kun taas suurin osa sammakko-sanan käytöstä osoittautui oikeutetuksi.
Yhden viikon keskiarvo peikkojen ja riiviöiden tuotantoesiintyvyydestä. Pudotus GPT‑5.4 Thinkingissä oli seurausta “Nörtti”-persoonallisuuden poistamisesta käytöstä maaliskuun puolivälissä. GPT‑5.5:tä ei koskaan julkaistu “Nörtti”-persoonallisuudella, ja siinä nähtiin jälleen nousua verrattuna GPT‑5.4:ään (myös ilman “Nörtti”-persoonallisuutta).
Poistimme ”Nörtti”-persoonallisuuden käytöstä maaliskuussa GPT‑5.4:n julkaisun jälkeen. Koulutuksessa poistimme peikkoja suosivan palkintosignaalin ja suodatimme koulutusdatasta pois olentoihin viittaavia sanoja sisältävän aineiston, jolloin peikot esiintyvät aiempaa epätodennäköisemmin liikaa tai sopimattomissa yhteyksissä. Valitettavasti GPT‑5.5:n koulutus alkoi ennen kuin löysimme peikkojen perimmäisen syyn. Kun aloimme testata GPT‑5.5:tä Codexissa, OpenAI:n työntekijät huomasivat heti oudon mieltymyksen peikkoihin, ja lisäsimme kehittäjäkehotteen ohjeistuksen(avautuu uudessa ikkunassa) hillitäksemme sitä. Codex on loppujen lopuksi melko nörttimäinen.
Jos haluat päästää olennot vapaiksi Codexissa, voit suorittaa tämän komennon käynnistääksesi Codexin ilman peikkoja hillitseviä ohjeita:
Riippuen siitä, keneltä kysyy, peikot ovat mallin viehättävä tai ärsyttävä erikoisuus. Ne ovat kuitenkin myös voimakas esimerkki siitä, miten palkintosignaalit voivat muovata mallin käyttäytymistä odottamattomilla tavoilla ja miten mallit voivat oppia yleistämään palkkioita tietyistä tilanteista muihin, niihin liittymättömiin tilanteisiin. Sen ymmärtäminen, miksi malli käyttäytyy oudolla tavalla, ja keinojen rakentaminen näiden mallien nopeaan tutkimiseen on tutkimustiimillemme tärkeä kyvykkyys. Tämä tutkinta johti uusiin työkaluihin, joiden avulla tutkimustiimi voi auditoida mallin käyttäytymistä ja korjata käyttäytymisongelmia niiden juuritasolla.


