Pereiti prie pagrindinio turinio
OpenAI

2026 m. balandžio 29 d.

Publikacija

Iš kur atsirado goblinai

Įkeliama...

Nuo GPT‑5.1 versijos mūsų modeliai išsiugdė keistą įprotį: metaforoms vis dažniau pasitelkdavo goblinus, gremlinus ir kitas būtybes. Skirtingai nei modelio klaidos, išryškėjančios suprastėjusiais vertinimo rezultatais ar staigiai šoktelėjusiais mokymo rodikliais ir susijusios su konkrečiu pakeitimu, ši keistenybė atsirado nepastebimai. Vienas „mažas goblinas“ atsakyme atrodė nekenksmingas ar net žavus. Tačiau su kiekviena modelio karta šį įprotį darėsi sunku ignoruoti: goblinų vis daugėjo, todėl turėjome išsiaiškinti jų kilmę.

„“

Per ankstyvuosius bandymus „Codex“ sistemoje naudojamas GPT‑5.5 išsiskyrė keistu polinkiu į goblinų metaforas.

Trumpai tariant, modelio elgseną formuoja daugybė nedidelių paskatų. Šiuo atveju viena tokių paskatų atsirado mokant modelį naudoti asmenybės tinkinimo funkciją(atsidaro naujame lange), ypač „Moksliuko“ asmenybę. Patys to nežinodami, skyrėme ypač didelį atlygį už metaforas su būtybėmis. Taip goblinai ir išplito.

„“

Iš pradžių goblinai kėlė šypseną, tačiau augantis darbuotojų pranešimų skaičius ėmė kelti nerimą.

„“

Įdomus mūsų vyriausiojo mokslininko pokalbis su GPT‑5.5.

Pirmieji būtybių pėdsakai

Pirmą kartą šį dėsningumą aiškiai pastebėjome lapkritį, išleidę GPT‑5.1, nors viskas galėjo prasidėti ir anksčiau(atsidaro naujame lange). Naudotojai skundėsi, kad pokalbiuose modelis tapo keistai familiarus, todėl ėmėme nagrinėti konkrečius kalbos tikus. Saugos tyrėjas, susidūręs su keliais „goblinais“ ir „gremlinais“, paprašė juos įtraukti į patikrą. Atlikę patikrą pamatėme, kad išleidus GPT‑5.1, „goblinų“ vartojimas „ChatGPT“ išaugo 175 proc., o „gremlinų“ – 52 proc.

Išmatuojama nedidelė GPT‑5.1 leksikos keistenybė.

Tuo metu goblinų paplitimas nekėlė didelio nerimo. Po kelių mėnesių goblinai sugrįžo ir vėl ėmė kelti rūpesčių daug konkretesne ir lengviau atkuriama forma.

Goblinų mįslės įminimas

Pasirodžius GPT‑5.4, mes ir mūsų naudotojai(atsidaro naujame lange) pastebėjome dar didesnį šių būtybių minėjimo šuolį. Tai paskatino atlikti dar vieną vidaus analizę, atskleidusią pirmąjį ryšį su pagrindine priežastimi: būtybės ypač dažnai minėtos realiomis sąlygomis gaunamame naudotojų, pasirinkusių „Moksliuko“ asmenybę, užklausų sraute. „Moksliuko“ asmenybei naudota toliau pateikta sistemos užklausa, iš dalies paaiškinanti šį keistumą:

„You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]“ (Esi tikras moksliukas, žaismingas ir išmintingas DI mentorius žmogui. Aistringai ir entuziastingai skatini tiesą, žinias, filosofiją, mokslinį metodą ir kritinį mąstymą. [...] Privalai griauti pretenzingumą žaismingai naudodamas kalbą. Pasaulis sudėtingas ir keistas, todėl šį keistumą reikia pripažinti, analizuoti ir juo mėgautis. Imkis rimtų temų, tačiau neįkliūk į perdėto rimtumo spąstus. [...])

Jei ši elgsena būtų tiesiog bendra interneto tendencija, tikėtumės, kad ji plistų tolygiau. Tačiau ji susitelkė toje sistemos dalyje, kuri optimizuota žaismingam, moksliukiškam stiliui. „Moksliuko“ asmenybė sudarė tik 2,5 proc. visų „ChatGPT“ atsakymų, bet net 66,7 proc. visų „goblinų“ paminėjimų juose.

Ši elgsena labiausiai išryškėjo naudojant „Moksliuko“ asmenybę.

Kadangi atrodė, jog „goblinų“ paplitimas auga su kiekvienu nauju modeliu, įtarėme, kad tai stiprina tam tikras asmenybių nurodymų vykdymo mokymo proceso veiksnys.

„Codex“ padėjo palyginti per skatinamojo mokymosi procesą sugeneruotas modelio išvestis su „goblinais“ ar „gremlinais“ su tos pačios užduoties išvestimis, kuriose šių žodžių nebuvo. Iš karto išsiskyrė vienas atlygio signalas: iš pradžių sukurtas „Moksliuko“ asmenybei skatinti, jis nuosekliai palankiau vertino išvestis su būtybių pavadinimais. Visuose audito duomenų rinkiniuose „Moksliuko“ asmenybės atlygis rodė aiškią tendenciją geriau įvertinti tos pačios problemos išvestis su „goblinu“ ar „gremlinu“ nei išvestis be jų – teigiamas pokytis pastebėtas 76,2 proc. duomenų rinkinių.

Tai paaiškino, kodėl ši elgsena sustiprėjo naudojant „Moksliuko“ asmenybės užklausą, bet nepaaiškino, kodėl ji pasireikšdavo ir be šios užklausos. Siekdami patikrinti, ar šis stilius persiduoda, stebėjome minėjimo dažnumą per visą mokymą tiek su „Moksliuko“ užklausa, tiek be jos.

Goblinų ir gremlinų minėjimui dažnėjant „Moksliuko“ asmenybėje, jų beveik tokia pačia proporcija padaugėjo ir pavyzdžiuose be šios asmenybės. Visi šie duomenys rodo, kad platesnio masto elgsena susiformavo dėl „Moksliuko“ asmenybės mokymo informacijos persidavimo.

Atlygis taikytas tik esant „Moksliuko“ sąlygai, tačiau skatinamasis mokymasis negarantuoja, kad išmokta elgsena griežtai apsiribos tik ją sukėlusia sąlyga. Atlyginus už stiliaus tiką, vėlesnis mokymas gali jį išplatinti arba sustiprinti kitur, ypač jei tos išvestys pakartotinai naudojamos prižiūrimam suderinimui arba pirmenybės duomenyse.

Taip susidaro grįžtamojo ryšio ciklas:

  1. žaismingas stilius gauna atlygį;
  2. kai kuriuose atlygį gavusiuose pavyzdžiuose pasitaiko savitas leksikos tikas;
  3. šis tikas vis dažniau pasirodo modelio išvestyse;
  4. modelio sugeneruotos išvestys naudojamos prižiūrimam suderinimui (SFT);
  5. modelis dar labiau įgunda generuoti šį tiką.

Atlikus paiešką GPT‑5.5 SFT duomenyse rasta daug įrašų, kuriuose minimi „goblinas“ ir „gremlinas“. Tolesnis tyrimas atskleidė ištisą šeimą kitų keistų būtybių: meškėnai, troliai, ograi ir balandžiai nustatyti kaip kiti tiko žodžiai, o dauguma žodžio „varlė“ pavartojimų pasirodė pagrįsti.

Goblinų ir gremlinų paplitimo realiomis sąlygomis vienos savaitės vidurkis. Sumažėjimas „GPT‑5.4 „Mąstantis“ modelyje įvyko dėl kovo viduryje išjungtos „Moksliuko“ asmenybės. GPT‑5.5 taip ir nebuvo išleistas su „Moksliuko“ asmenybe, tačiau jame užfiksuotas dar vienas padidėjimas, palyginti su GPT‑5.4 (net ir be „Moksliuko“).

Goblinų istorijos pabaiga

Išleidę GPT‑5.4, kovo mėnesį „Moksliuko“ asmenybės atsisakėme. Per mokymą pašalinome goblinams palankų atlygio signalą ir išfiltravome mokymo duomenis, kuriuose minimos būtybės, todėl sumažėjo tikimybė, kad goblinai pasirodys per dažnai arba netinkamuose kontekstuose. Deja, GPT‑5.5 mokymas prasidėjo dar prieš nustatant pagrindinę goblinų atsiradimo priežastį. Pradėjus testuoti GPT‑5.5 „Codex“ aplinkoje, „OpenAI“ darbuotojai iškart pastebėjo keistą polinkį į goblinus, todėl, norėdami sušvelninti padėtį, pridėjome kūrėjo užklausos nurodymą(atsidaro naujame lange). Juk „Codex“ – tikras moksliukas.

Jei norite leisti būtybėms laisvai sukiotis „Codex“ sistemoje, galite paleisti šią komandą, atidarančią „Codex“ be goblinus slopinančių nurodymų:

Paprastas tekstas

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Kodėl tai svarbu

Nelygu, kieno paklausite, goblinai – žavi arba erzinanti modelio keistenybė. Tačiau tai ir puikus pavyzdys, kaip atlygio signalai gali netikėtai formuoti modelio elgseną ir kaip modeliai išmoksta apibendrinti atlygį bei pritaikyti jį visiškai nesusijusioms situacijoms. Mūsų mokslinių tyrimų komandai ypač svarbu suprasti, kodėl modelis elgiasi neįprastai, ir rasti būdų greitai ištirti šiuos dėsningumus. Šio tyrimo rezultatas – naujos priemonės, padėsiančios tyrėjų komandai audituoti modelio elgseną ir šalinti jos problemų priežastis.

Autorius

OpenAI