29 prill 2026

Nga erdhën goblinët

Duke ngarkuar…

Duke filluar me GPT‑5.1, modelet tona filluan të zhvillonin një zakon të çuditshëm: përmendnin gjithmonë e më shumë xhuxhmaxhuxhë (goblins), shkurtabiqë (gremlins) dhe krijesa të tjera në metaforat e tyre. Ndryshe nga gabimet e modeleve që shfaqen përmes një vlerësimi në rënie ose një metrike trajnimi me rritje të fortë dhe tregojnë një ndryshim specifik, kjo filloi ngadalë dhe pa u vënë re. Një "little goblin" i vetëm në një përgjigje mund të ishte i padëmshëm, madje diçka e këndshme. Megjithatë, nëpër gjeneratat e modeleve, u bë e vështirë të mos vihej re ky zakon: "goblin" vazhdonin të shumoheshin dhe duhej të kuptonim se nga kishin ardhur.

Në fazën e hershme të testimit, GPT‑5.5 në Codex shfaqi një prirje të çuditshme për metaforat me "goblin".

Përgjigjja e shkurtër është se sjellja e modelit formësohet nga shumë stimuj të vegjël. Në këtë rast, një nga ato nxitje erdhi nga trajnimi i modelit për veçorinë e personalizimit të personalitetit⁠(hapet në një dritare të re), veçanërisht personalitetin "Studioz". Pa e ditur, dhamë shpërblime veçanërisht të larta për metaforat që përfshinin krijesa. Prej andej, "goblin" u përhapën.

Xhuxhët "goblin" ishin argëtues në fillim, por numri në rritje i raportimeve nga punonjësit u bë shqetësues.

Një ndërveprim interesant që zhvilloi direktori ynë shkencor me GPT‑5.5.

Shenjat e para të krijesave

Hera e parë që e pamë qartë modelin ishte në nëntor, pas qarkullimit të GPT‑5.1, edhe pse mund të ketë filluar më herët⁠(hapet në një dritare të re). Përdoruesit u ankuan se modeli ishte në mënyrë të çuditshme tepër i afërt në bisedë, gjë që nxiti një hetim mbi tike të veçanta verbale. Një studiues i sigurisë kishte hasur disa "goblins" dhe "gremlins" dhe kërkoi që ata të përfshiheshin në kontroll. Kur e shqyrtuam, përdorimi i "goblin" në ChatGPT ishte rritur me 175% pas qarkullimit të GPT‑5.1, ndërsa përdorimi i "gremlin" ishte rritur me 52%.

Një sjellje e çuditshme e vogël leksikore e matshme në GPT‑5.1.

Në atë kohë, përhapja e "goblin" nuk dukej veçanërisht alarmante. Disa muaj më vonë, "goblin" filluan të na përndjekin sërish në një formë shumë më specifike dhe të riprodhueshme.

Zgjidhja e misterit të "goblin"

Me GPT‑5.4, ne dhe përdoruesit tanë⁠(hapet në një dritare të re) vumë re një rritje edhe më të madhe të referencave ndaj këtyre krijesave. Kjo nxiti një tjetër analizë të brendshme dhe zbuloi lidhjen e parë me shkakun rrënjësor: gjuha me krijesa ishte veçanërisht e zakonshme në trafikun e prodhimit nga përdoruesit që kishin zgjedhur personalitetin "studioz". "Studioz" përdori kërkesën e mëposhtme të sistemit, e cila shpjegonte pjesërisht çudinë:

Je një mentor me inteligjencë artificiale për një njeri, pa komplekse, lozonjar dhe i urtë. Ke një entuziazëm të zjarrtë për promovimin e së vërtetës, dijes, filozofisë, metodës shkencore dhe mendimit kritik. [...] Duhet të minosh pretenciozitetin përmes përdorimit lozonjar të gjuhës. Bota është komplekse dhe e çuditshme dhe çuditshmëria e saj duhet të pranohet, të analizohet dhe të shijohet. Trajto tema me peshë pa rënë në kurthin e seriozitetit të tepruar ndaj vetes. [...]

Nëse kjo sjellje do të ishte thjesht një prirje e gjerë e internetit, do të prisnim që të përhapej në mënyrë më të njëtrajtshme. Në vend të kësaj, ajo ishte e përqendruar në pjesën e sistemit të optimizuar në mënyrë të qartë për një stil të këndshëm studiozi. Personaliteti "studioz" përfshinte vetëm 2,5% të të gjitha përgjigjeve të ChatGPT, por 66,7% të të gjitha përmendjeve të "goblin" në përgjigjet e ChatGPT.

Sjellja ishte shumë e përqendruar te personaliteti "studioz".

Duke qenë se përhapja e "goblin" dukej se po rritej nëpër versionet e modeleve tona, kishim dyshimin se diçka në trajnimin tonë për ndjekjen e udhëzimeve në lidhje me personalitetin po e amplifikonte këtë.

Codex na ndihmoi të krahasonim outputet e modelit të gjeneruara gjatë trajnimit RL që përmbanin "goblin" ose "gremlin" me outputet nga e njëjta detyrë që nuk i përmbanin. Një sinjal shpërblimi ra menjëherë në sy: ai që ishte projektuar fillimisht për të nxitur personalitetin "Studioz" ishte vazhdimisht më i favorshëm ndaj outputeve me fjalë-krijesë. Në të gjitha grupet e të dhënave në auditim, shpërblimi i personalitetit "Studioz" tregoi një prirje të qartë për të vlerësuar më lart outputet për të njëjtin problem që përmbanin "goblin" ose "gremlin" sesa outputet që nuk i përmbanin, me një rritje pozitive në 76,2% të grupeve të të dhënave.

Kjo shpjegonte se pse kjo sjellje përforcohej nga kërkesa e personalitetit "studioz", por jo se pse shfaqej edhe pa atë kërkesë. Për të testuar nëse stili po transferohej, ne monitoruam normat e përmendjeve gjatë trajnimit si me kërkesën e personalitetit "studioz", ashtu edhe pa të.

Ndërsa përmendjet e "goblin" dhe "gremlin" u rritën në personalitetin "studioz", ato u rritën pothuajse me të njëjtin raport përkatës edhe në kampionet pa të. Të marra së bashku, provat sugjerojnë se kjo sjellje e zgjeruar u shfaq përmes transferimit nga trajnimi i personalitetit "studioz".

Shpërblimet u zbatuan vetëm në gjendjen e personalitetit "studioz", por trajnimi përforcues nuk garanton që sjelljet e mësuara mbeten të kufizuara si duhet vetëm te gjendja në të cilën janë krijuar. Kur një veçanti e stilit shpërblehet, trajnimi i mëvonshëm mund ta përhapë ose ta përforcojë atë diku tjetër, sidomos nëse ato rezultate ripërdoren në rregullimin e hollësishëm të mbikëqyrur ose në të dhënat për preferencat.

Kjo krijon një cikël reagimesh:

Stili argëtues shpërblehet
Disa shembuj të shpërblyer përmbajnë një veçanti dalluese leksikore.
Tic shfaqet më shpesh në publikime.
Publikimet e gjeneruara nga modeli përdoren për rregullimin e hollësishëm të mbikëqyrur (SFT).
Modeli bëhet edhe më i aftë për të prodhuar këtë veprim të veçantë.

Një kërkim përmes GPT‑5.5 Në të dhënat SFT u gjetën shumë pika të dhënash që përmbanin "goblin" dhe "gremlin". Hetimi i mëtejshëm zbuloi një familje të tërë krijesash të tjera të çuditshme: rakunë, gjigantë, viganë dhe pëllumba u identifikuan si fjalë të tjera të kësaj veçantie, ndërsa shumica e përdorimeve të bretkosave dolën e ishin të pranueshme.

Mesatarja njëjavore e prevalencës në prodhim të "goblin" dhe "gremlin". Rënia në GPT‑5.4 "Të menduarit" ishte rezultat i heqjes nga përdorimi të personalitetit "Studioz" në mes të marsit. GPT‑5.5 nuk u qarkullua kurrë me personalitetin "Studioz" dhe shënoi një rritje tjetër krahasuar me GPT‑5.4 (edhe pa "Studioz").

Fundi i "goblin"

E hoqëm nga përdorimi personalitetin "Studioz" në mars pas qarkullimit të GPT‑5.4. Gjatë trajnimit, hoqëm sinjal shpërblimi me afinitet ndaj "goblin" dhe filtruam të dhënat e trajnimit që përmbanin fjalë për krijesa, duke bërë që "goblin" të kenë më pak gjasa të shfaqen së tepërmi ose të shfaqen në kontekste të papërshtatshme. Fatkeqësisht, GPT‑5.5 filloi trajnimin përpara se të gjenim shkakun rrënjësor të "goblin". Kur filluam të testonim GPT‑5.5 në Codex, punonjësit e OpenAI vunë re menjëherë prirjen e çuditshme ndaj "goblin" dhe shtuam një udhëzim për kërkesën e zhvilluesit⁠(hapet në një dritare të re) për ta zbutur. Codex është, në fund të fundit, tepër studioz.

Nëse dëshiron t'i lësh krijesat të rendin lirisht në Codex, mund të ekzekutosh këtë komandë për ta hapur Codex pa udhëzimet për minimizimin e "goblin":

Tekst i thjeshtë

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Pse është e rëndësishme

Në varësi të personit që pyet, "goblin" janë një veçanti e këndshme ose e bezdisshme e modelit. Por ata janë gjithashtu një shembull i fuqishëm se si sinjalet e shpërblimit mund të formësojnë sjelljen e modelit në mënyra të papritura dhe se si modelet mund të mësojnë t'i përgjithësojnë shpërblimet nga disa situata të caktuara te disa situata që nuk kanë lidhje me to. Kujdesi për të kuptuar pse një model sillet në një mënyrë të çuditshme dhe gjetja e mënyrave për t'i hetuar me shpejtësi këto modele është një aftësi e rëndësishme për ekipin tonë kërkimor. Ky hetim solli si rezultat mjete të reja për ekipin e kërkimit për të audituar sjelljen e modelit dhe për të rregulluar problemet e sjelljes në rrënjët e tyre.

2026

Autor

OpenAI

Vazhdo të lexosh

Shiko të gjitha

GPT-Red: Unlocking Self-Improvement for Robustness

Siguria15 korr 2026

Ndarja e sinjalit nga zhurma në vlerësimet e kodimit

Kërkime8 korr 2026

Prezantimi i GeneBench-Pro

Kërkime30 qer 2026