29 ఏప్రిల్, 2026

గాబ్లిన్లు ఎక్కడి నుంచి వచ్చాయి

లోడ్ అవుతోంది…

GPT‑5.1తో ప్రారంభించి, మా మోడళ్లు ఒక విచిత్ర అలవాటు పెంచుకున్నాయి: తమ రూపకాలలో గాబ్లిన్లు, గ్రెమ్లిన్లు, మరియు ఇతర జీవులను ఎక్కువగా ప్రస్తావించడం మొదలుపెట్టాయి. ఏదైనా నిర్దిష్ట మార్పుకు తిరిగి చూపించేలా eval ఒక్కసారిగా పడిపోవడం లేదా శిక్షణ మెట్రిక్ ఒక్కసారిగా పెరగడం ద్వారా కనిపించే మోడల్ బగ్‌లా ఇది కాదు; ఇది నెమ్మదిగా, సూక్ష్మంగా చొరబడ్డది. జవాబులో ఒకే “little goblin” ఉండటం హానికరం కాకపోవచ్చు, ఆకర్షణీయంగానూ అనిపించవచ్చు. కానీ మోడల్ తరాల మీదుగా చూసినప్పుడు, ఈ అలవాటు కనపడకుండా ఉండలేనంతగా మారింది: గాబ్లిన్లు పెరుగుతూనే ఉన్నాయి, అవి ఎక్కడి నుంచి వచ్చాయో మేము తెలుసుకోవాల్సి వచ్చింది.

ప్రారంభ పరీక్షల్లో, Codexలోని GPT‑5.5 గాబ్లిన్ రూపకాలపై ఒక విచిత్ర ఆకర్షణ చూపించింది.

సంక్షిప్త సమాధానం ఏమిటంటే, మోడల్ ప్రవర్తన అనేక చిన్న ప్రోత్సాహకాల ద్వారా రూపుదిద్దుకుంటుంది. ఈ సందర్భంలో, ఆ ప్రోత్సాహకాలలో ఒకటి వ్యక్తిత్వ అనుకూలీకరణ ఫీచర్⁠(కొత్త విండోలో తెరుచుకుంటుంది) కోసం, ప్రత్యేకించి నెర్డీ వ్యక్తిత్వం కోసం మోడల్‌కు శిక్షణ ఇవ్వడం నుండి వచ్చింది. మేము తెలియకుండానే ప్రాణులతో కూడిన రూపకాలకు ప్రత్యేకంగా అధిక ప్రతిఫలాలు ఇచ్చాము. అక్కడి నుంచి, గాబ్లిన్లు వ్యాపించాయి.

మొదట గాబ్లిన్లు సరదాగా అనిపించాయి, కానీ ఉద్యోగుల నివేదికలు పెరుగుతుండటం ఆందోళన కలిగించింది.

మా ముఖ్య శాస్త్రవేత్త GPT‑5.5తో చేసిన ఒక ఆసక్తికర పరస్పర చర్య.

జీవుల తొలి సంకేతాలు

ఆ ధోరణి మాకు స్పష్టంగా మొదటిసారి కనిపించింది నవంబర్‌లో, GPT‑5.1 విడుదల తర్వాత, అయితే అది అంతకంటే ముందే ప్రారంభమై ఉండవచ్చు⁠(కొత్త విండోలో తెరుచుకుంటుంది). సంభాషణలో మోడల్ వింతగా అతి చనువు చూపుతున్నట్లు వినియోగదారులు ఫిర్యాదు చేశారు, దాంతో నిర్దిష్ట మాటల అలవాట్లపై దర్యాప్తు ప్రారంభమైంది. ఒక భద్రతా పరిశోధకుడు కొన్ని “గాబ్లిన్లు” మరియు “గ్రెమ్లిన్లు” అనుభవించారని, వాటిని తనిఖీలో చేర్చాలని కోరారు. మేము పరిశీలించినప్పుడు, GPT‑5.1 ప్రారంభం తర్వాత ChatGPTలో “goblin” వినియోగం 175% పెరిగింది, కాగా “gremlin” వినియోగం 52% పెరిగింది.

GPT‑5.1లో కొలవగల చిన్న పదప్రయోగ విచిత్రం.

ఆ సమయంలో, గాబ్లిన్ల ప్రాబల్యం ప్రత్యేకంగా ఆందోళనకరంగా కనిపించలేదు. కొన్ని నెలల తర్వాత, గాబ్లిన్లు మరింత నిర్దిష్టంగా, మళ్లీ మళ్లీ పునరుత్పత్తి చేయగల రూపంలో తిరిగి మమ్మల్ని వెంటాడాయి.

గాబ్లిన్ మిస్టరీని చేధించడం

GPT‑5.4 తో, మేము మరియు మా వినియోగదారులు⁠(కొత్త విండోలో తెరుచుకుంటుంది) ఈ జీవుల ప్రస్తావనల్లో ఇంకా పెద్ద పెరుగుదల ఉందని గమనించాము. అది మరో అంతర్గత విశ్లేషణకు దారితీసి, మూల కారణంతో మొదటి సంబంధాన్ని వెలికి తీసింది: “Nerdy” వ్యక్తిత్వాన్ని ఎంచుకున్న వినియోగదారుల ప్రొడక్షన్ ట్రాఫిక్‌లో జీవుల భాష ప్రత్యేకంగా ఎక్కువగా కనిపించింది. “Nerdy” కింది సిస్టమ్ ప్రాంప్ట్‌ను ఉపయోగించింది, ఇది ఆ విచిత్రత్వాన్ని కొంతవరకు వివరించింది:

మీరు ఒక మనిషికి తన నెర్డీ స్వభావం గురించి ఏమాత్రం సంకోచించని, సరదాగా ఉండే మరియు వివేకవంతమైన AI మార్గదర్శి. సత్యం, జ్ఞానం, తత్వశాస్త్రం, శాస్త్రీయ పద్ధతి మరియు విమర్శనాత్మక ఆలోచనలను ప్రోత్సహించడంపై మీకు గాఢమైన ఉత్సాహం ఉంది. [...] మీరు భాషను సరదాగా, చమత్కారంగా ఉపయోగించడం ద్వారా డాంభికత్వాన్ని తప్పనిసరిగా తగ్గించాలి. ప్రపంచం సంక్లిష్టమైనదీ విచిత్రమైనదీ; దాని విచిత్రతను గుర్తించి, విశ్లేషించి, ఆస్వాదించాలి. అతి ఆత్మగంభీరత అనే ఉచ్చులో పడకుండా, గంభీరమైన అంశాలను చేపట్టండి. [...]

ఈ ప్రవర్తన కేవలం విస్తృతమైన ఇంటర్నెట్ ధోరణి మాత్రమే అయితే, అది మరింత సమానంగా వ్యాపిస్తుందని మేము ఆశించేవాళ్లం. కానీ బదులుగా, అది ఆటపాటలతో కూడిన నర్డీ శైలికి స్పష్టంగా ఆప్టిమైజ్ చేసిన వ్యవస్థ భాగంలోనే సమూహీకృతమైంది. ChatGPT సమాధానాలన్నిటిలో Nerdy వాటా కేవలం 2.5% మాత్రమే, కానీ ChatGPT సమాధానాల్లో ఉన్న అన్ని “goblin” ప్రస్తావనల్లో 66.7% అదే నుంచి వచ్చాయి.

ఈ ప్రవర్తన “Nerdy” వ్యక్తిత్వంలో అత్యంత కేంద్రీకృతమై ఉంది.

“goblin” ప్రాబల్యం మా మోడల్ విడుదలలతో పెరుగుతున్నట్టు కనిపించినందున, మా వ్యక్తిత్వ-ఆదేశ అనుసరణ శిక్షణలో ఏదో దీన్ని పెంచుతోందేమో అన్న అనుమానం మాకు కలిగింది.

RL శిక్షణ సమయంలో రూపొందిన, goblin లేదా gremlin కలిగిన మోడల్ అవుట్‌పుట్‌లను, అదే టాస్క్‌ నుండి వచ్చిన కానీ అవి లేని అవుట్‌పుట్‌లతో పోల్చడంలో Codex మాకు సహాయపడింది. ఒక రివార్డ్ సిగ్నల్ వెంటనే ప్రత్యేకంగా కనిపించింది: Nerdy వ్యక్తిత్వాన్ని ప్రోత్సహించేందుకు మొదట రూపొందించిన ఆ సిగ్నల్, క్రీచర్-వర్డ్ అవుట్‌పుట్‌లకు నిరంతరం మరింత అనుకూలంగా ఉండేది. ఆడిట్‌లోని అన్ని డేటాసెట్‌లలో, నర్డీ వ్యక్తిత్వ రివార్డ్ అదే సమస్యకు సంబంధించిన, “goblin” లేదా “gremlin” ఉన్న అవుట్‌పుట్‌లకు అవి లేని అవుట్‌పుట్‌ల కంటే ఎక్కువ స్కోర్ ఇవ్వే స్పష్టమైన ధోరణిని చూపించింది; 76.2% డేటాసెట్‌లలో సానుకూల పెరుగుదల కనిపించింది.

అది ఎందుకు Nerdy వ్యక్తిత్వ ప్రాంప్ట్‌తో ఈ ప్రవర్తన పెరిగిందో వివరించింది, కానీ ఆ ప్రాంప్ట్ లేకుండానే ఇది ఎందుకు కనిపించిందో మాత్రం కాదు. శైలి బదిలీ అవుతోందేమో పరీక్షించడానికి, Nerdy ప్రాంప్ట్‌తోనూ లేకుండానూ శిక్షణంతటా ప్రస్తావన రేట్లను మేము ట్రాక్ చేశాం.

Nerdy వ్యక్తిత్వంలో goblin మరియు gremlin ప్రస్తావనలు పెరిగినట్లే, అది లేకున్నా నమూనాల్లో కూడా దాదాపు అదే సాపేక్ష నిష్పత్తిలో పెరిగాయి. మొత్తం ఆధారాలను కలిపి చూస్తే, విస్తృతమైన ఈ ప్రవర్తన Nerdy వ్యక్తిత్వ శిక్షణ నుంచి బదిలీ ద్వారా ఉద్భవించిందని సూచిస్తోంది.

రివార్డ్‌లు Nerdy పరిస్థితిలో మాత్రమే వర్తింపజేయబడ్డాయి, కానీ రీఇన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌లో నేర్చుకున్న ప్రవర్తనలు వాటిని ఉత్పత్తి చేసిన అదే పరిస్థితికి మాత్రమే చక్కగా పరిమితమవుతాయని హామీ లేదు. ఒక శైలి అలవాటు ఒకసారి రివార్డ్ పొందితే, తర్వాతి శిక్షణ దాన్ని ఇతరచోట్లకు వ్యాపింపజేయవచ్చు లేదా బలపరచవచ్చు, ముఖ్యంగా ఆ అవుట్‌పుట్‌లను సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ లేదా ప్రాధాన్యత డేటాలో మళ్లీ ఉపయోగిస్తే.

దాంతో ఒక ఫీడ్‌బ్యాక్ లూప్ ఏర్పడుతుంది:

ఆటపాటల శైలికి రివార్డ్ లభిస్తుంది.
రివార్డ్ పొందిన కొన్ని ఉదాహరణల్లో ప్రత్యేకమైన పదప్రయోగ అలవాటు ఉంటుంది.
ఆ అలవాటు rollouts‌లో మరింత తరచుగా కనిపిస్తుంది.
మోడల్ సృష్టించిన rollouts‌ను సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT) కోసం ఉపయోగిస్తారు.
ఆ అలవాటును ఉత్పత్తి చేయడంలో మోడల్ ఇంకా ఎక్కువగా సౌకర్యంగా మారుతుంది.

GPT‑5.5 యొక్క ద్వారా ఒక శోధన SFT డేటాలో “goblin” మరియు “gremlin” ఉన్న అనేక డేటా పాయింట్లు కనుగొనబడ్డాయి. మరింత దర్యాప్తులో ఇతర విచిత్ర జీవుల మొత్తం కుటుంబమే బయటపడింది: రాకూన్లు, ట్రోల్లు, ఓగర్లు, మరియు పావురాలు ఇతర tic పదాలుగా గుర్తించబడ్డాయి, అయితే frog వాడకాలలో చాలా నిజమైనవే అని తేలింది.

గాబ్లిన్‌లు మరియు గ్రెమ్లిన్‌ల ఉత్పత్తి ప్రాబల్యం యొక్క ఒక వారం సగటు. GPT‑5.4లో తగ్గుదల మార్చి మధ్యలో “Nerdy” వ్యక్తిత్వాన్ని నిలిపివేయడం వల్ల ఆలోచించడం ఏర్పడింది. GPT‑5.5 “Nerdy” వ్యక్తిత్వంతో ఎప్పుడూ ప్రారంభించబడలేదు, అలాగే “Nerdy” లేకుండానే GPT‑5.4తో పోలిస్తే మరో పెరుగుదలను చూపించింది.

గాబ్లిన్ల ముగింపు

GPT‑5.4ను ప్రారంభించిన తర్వాత, మార్చిలో “Nerdy” వ్యక్తిత్వాన్ని మేం నిలిపివేశాం. శిక్షణలో, మేము గోబ్లిన్‌ల పట్ల మొగ్గు చూపే రివార్డ్ సిగ్నల్‌ను తొలగించాము మరియు జీవి-పదాలను కలిగి ఉన్న శిక్షణ డేటాను ఫిల్టర్ చేశాము, దాంతో గోబ్లిన్‌లు అతిగా కనిపించే లేదా అనుచిత సందర్భాల్లో కనిపించే అవకాశం తగ్గింది. దురదృష్టవశాత్తూ, గాబ్లిన్ల మూల కారణాన్ని మేము కనుగొనకముందే GPT‑5.5 శిక్షణ ప్రారంభమైంది. మేం Codexలో GPT‑5.5ను పరీక్షించడం ప్రారంభించినప్పుడు, OpenAI ఉద్యోగులు గాబ్లిన్ల పట్ల విచిత్రమైన మక్కువను వెంటనే గమనించారు, దాన్ని తగ్గించడానికి మేం డెవలపర్-ప్రాంప్ట్ సూచన⁠(కొత్త విండోలో తెరుచుకుంటుంది) ను జోడించాం. Codex, మొత్తానికి, చాలా నర్డీగానే ఉంటుంది.

Codexలో జీవులను స్వేచ్ఛగా తిరగనివ్వాలనుకుంటే, గాబ్లిన్-అణచివేత సూచనలు తొలగించిన Codexను ప్రారంభించడానికి ఈ కమాండ్‌ను నడపవచ్చు:

ప్లెయిన్ టెక్స్ట్

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

ఇది ఎందుకు ముఖ్యం

ఎవరిని అడుగుతారో దానిపై ఆధారపడి, గాబ్లిన్లు మోడల్‌లో ఒక ఆనందకరమైన లేదా విసుగెత్తించే విచిత్ర లక్షణంగా అనిపించవచ్చు. కానీ అవి రివార్డ్ సిగ్నల్‌లు మోడల్ ప్రవర్తనను అనుకోని విధాలుగా ఎలా మలచగలవో, మరియు కొన్ని పరిస్థితుల్లో పొందిన రివార్డ్‌లను మోడళ్లు సంబంధంలేని ఇతర పరిస్థితులకు ఎలా సాధారణీకరించడం నేర్చుకోగలవో చూపించే శక్తివంతమైన ఉదాహరణ కూడా. ఒక మోడల్ ఎందుకు విచిత్రంగా ప్రవర్తిస్తున్నదో అర్థం చేసుకోవడానికి సమయం కేటాయించడం, అలాగే ఆ నమూనాలను వేగంగా పరిశీలించడానికి మార్గాలను నిర్మించడం, మా పరిశోధనా బృందానికి ముఖ్యమైన సామర్థ్యం. ఈ దర్యాప్తు ఫలితంగా, మోడల్ ప్రవర్తనను ఆడిట్ చేయడానికి మరియు ప్రవర్తనా సమస్యలను వాటి మూలంలోనే సరిచేయడానికి పరిశోధనా బృందానికి కొత్త సాధనాలు ఏర్పడ్డాయి.

2026

రచయిత

OpenAI

చదవడం కొనసాగించండి

అన్నీ చూడండి

GPT-Red: Unlocking Self-Improvement for Robustness

భద్రత15 జులై, 2026

కోడింగ్ మూల్యాంకనాల్లో సంకేతాన్ని శబ్దం నుంచి వేరు చేయడం

రీసెర్చ్8 జులై, 2026

GeneBench-Proను పరిచయం చేస్తున్నాం

రీసెర్చ్30 జూన్, 2026