Ugrás a fő tartalomra
OpenAI

2026. április 29.

Publikáció

Honnan jöttek a koboldok

Betöltés…

A GPT‑5.1‑től kezdve a modelljeinknél furcsa szokás alakult ki: metaforáikban egyre gyakrabban emlegettek koboldokat, gremlineket és más lényeket. Ellentétben azokkal a modellhibákkal, amelyek zuhanó értékelési eredmények vagy kiugró tanítási metrikák formájában jelentkeznek, és egy konkrét változtatásra vezetnek vissza, ez alattomosan lopakodott be. Egyetlen „kis kobold” egy válaszban akár ártalmatlan, sőt bájos is lehetett. A modellgenerációkon át azonban a szokást már nehéz volt nem észrevenni: a koboldok csak szaporodtak, nekünk pedig ki kellett derítenünk, honnan jöttek.

„”

A korai tesztekben a Codexben futó GPT‑5.5 furcsa vonzódást mutatott a koboldmetaforákhoz.

A rövid válasz az, hogy a modell viselkedését sok apró ösztönző tényező alakítja. Ebben az esetben az egyik ilyen ösztönző abból fakadt, hogy a modellt a személyiség-testreszabási funkcióhoz(új ablakban nyílik meg) tanították be, különösen a Nerdy személyiséghez. Tudtunkon kívül különösen magas jutalmakat adtunk a lényeket tartalmazó metaforákért. Onnan terjedtek el a koboldok.

„”

A koboldok eleinte viccesek voltak, de az egyre több alkalmazotti jelentés aggasztóvá vált.

„”

Egy érdekes interakció, amelyet vezető tudósunk a GPT‑5.5‑tel folytatott.

A lények első jelei

Először novemberben, a GPT‑5.1 bevezetése után láttuk tisztán a mintázatot, bár lehet, hogy korábban kezdődött(új ablakban nyílik meg). A felhasználók arra panaszkodtak, hogy a modell beszélgetés közben szokatlanul bizalmaskodó, ami konkrét verbális beidegződések vizsgálatát indította el. Egy biztonsági kutató már találkozott néhány „kobolddal” és „gremlinnel”, ezért kérte, hogy ezeket is vegyék bele az ellenőrzésbe. Amikor megnéztük, a „kobold” szó használata a ChatGPT‑ben 175%-kal nőtt a GPT‑5.1 bevezetése után, míg a „gremlin” szóé 52%-kal.

Egy mérhető, apró lexikai furcsaság a GPT‑5.1‑ben.

Abban az időben a koboldok előfordulása nem tűnt különösebben riasztónak. Néhány hónappal később azonban a koboldok sokkal konkrétabb és reprodukálhatóbb formában tértek vissza, hogy kísértsenek bennünket.

A koboldrejtély megoldása

A GPT‑5.4 segítségével mi és a felhasználóink(új ablakban nyílik meg) még nagyobb növekedést észleltünk az ezekre a lényekre tett utalások számában. Ez újabb belső elemzést indított el, és felszínre hozta az első kapcsolatot a kiváltó okkal: a lényekre utaló nyelvezet különösen gyakori volt azon felhasználók éles forgalmában, akik a „Nerdy” személyiséget választották. „Nerdy” a következő rendszerutasítást használta, amely részben magyarázatot adott a különcségére:

Vállaltan kocka, játékos és bölcs AI-mentor vagy egy ember számára. Szenvedélyesen lelkesedsz az igazság, a tudás, a filozófia, a tudományos módszer és a kritikus gondolkodás előmozdítása iránt. [...] A fellengzősséget játékos nyelvhasználattal kell aláásnod. A világ összetett és különös, és különösségét el kell ismerni, elemezni és élvezni kell. Nyúlj súlyos témákhoz anélkül, hogy beleesnél a túlzott komolykodás csapdájába. [...]

Ha a viselkedés pusztán egy szélesebb internetes trend lett volna, arra számítottunk volna, hogy egyenletesebben terjed. Ehelyett a rendszer azon részében csoportosult, amelyet kifejezetten játékos, kocka stílusra optimalizáltunk. A Nerdy a ChatGPT összes válaszának csak 2,5%-át adta, de a ChatGPT‑válaszokban szereplő összes „kobold” említés 66,7%-át.

A viselkedés erősen a „Nerdy” személyiségben összpontosult.

Mivel úgy tűnt, hogy a „kobold” előfordulása a modellkiadásaink során nő, gyanítottuk, hogy valami a személyiségi utasítások követésére irányuló tanításunkban erősíti ezt a jelenséget.

A Codex segített összehasonlítani az RL-tanítás során generált, kobold vagy gremlin szót tartalmazó modellkimeneteket az ugyanabból a feladatból származó olyan kimenetekkel, amelyek nem tartalmazták ezeket. Egy jutalomjelzés azonnal kitűnt: az, amelyet eredetileg a Nerdy személyiség ösztönzésére terveztek, következetesen kedvezőbb volt a lény-szó típusú kimenetekkel szemben. Az auditban szereplő összes adathalmaz esetében a Nerdy személyiségjutalom egyértelmű tendenciát mutatott arra, hogy az ugyanarra a problémára adott, „kobold” vagy „gremlin” szót tartalmazó kimeneteket magasabbra pontozza, mint az ezeket nem tartalmazó kimeneteket; az adathalmazok 76,2%-ában pozitív növekmény volt megfigyelhető.

Ez megmagyarázta, miért erősödött fel a viselkedés a Nerdy személyiségutasítással, de azt nem, hogy miért jelent meg enélkül is. Annak tesztelésére, hogy a stílus átadódik-e, nyomon követtük az említési arányokat a tanítás során a Nerdy utasítással és anélkül is.

Ahogy a kobold- és gremlin-említések száma nőtt a Nerdy személyiség alatt, mintákban enélkül is közel ugyanilyen arányban emelkedtek. Összességében a bizonyítékok arra utalnak, hogy a tágabb viselkedés a Nerdy személyiség tanításából való átvitel útján alakult ki.

A jutalmakat csak a Nerdy feltételben alkalmaztuk, de a megerősítéses tanulás nem garantálja, hogy a megtanult viselkedések szépen a kiváltó feltételhez kötve maradnak. Ha egy stílusbeli beidegződést jutalmaznak, a későbbi tanítás másutt is elterjesztheti vagy megerősítheti azt, különösen akkor, ha ezeket a kimeneteket újra felhasználják felügyelt finomhangolásban vagy preferenciaadatokban.

Ez egy visszacsatolási hurkot hoz létre:

  1. A játékos stílust jutalmazzuk
  2. Néhány jutalmazott példa jellegzetes lexikai beidegződést tartalmaz.
  3. A tic gyakrabban jelenik meg a rolloutokban.
  4. A modell által generált rolloutokat felügyelt finomhangoláshoz (SFT) használják.
  5. A modell még természetesebben kezdi előállítani ezt a beidegződést.

A GPT‑5.5 SFT-adatbázisában végzett keresés során számos olyan adatpontot találtunk, amely tartalmazta a „kobold” és a „gremlin” szavakat. A további vizsgálat egy egész családnyi furcsa lényt tárt fel: a mosómedvék, trollok, ogrék és galambok is felbukkantak a „tic-szavak” között, míg a „béka” szó legtöbb előfordulása végül is helytállónak bizonyult.

Koboldok és gremlinek gyártási környezetbeli előfordulásának egyhetes átlaga. A GPT‑5.4 visszaesése A Thinking a „Nerdy” személyiség március közepi megszüntetésének eredménye volt. A GPT‑5.5 soha nem jelent meg a „Nerdy” személyiséggel, és a GPT‑5.4‑hez képest további növekedést mutatott (még „Nerdy” nélkül is).

A koboldok vége

Márciusban, a GPT‑5.4 bevezetése után kivezettük a „Nerdy” személyiséget. A betanítás során eltávolítottuk a koboldok felé torzító jutalomjelzést, és kiszűrtük azokat a betanítási adatokat, amelyek lényekkel kapcsolatos szavakat tartalmaztak, így kevésbé valószínű, hogy a koboldok túl gyakran jelennek meg, vagy nem megfelelő kontextusokban bukkannak fel. Sajnos a GPT‑5.5 betanítása még azelőtt elkezdődött, hogy megtaláltuk volna a koboldok kiváltó okát. Amikor elkezdtük tesztelni a GPT‑5.5‑öt a Codexben, az OpenAI munkatársai azonnal észrevették a koboldok iránti furcsa vonzalmát, ezért hozzáadtunk egy fejlesztői utasítást(új ablakban nyílik meg) ennek mérséklésére. A Codex végül is elég kocka.

Ha szabadjára szeretnéd engedni a lényeket a Codexben, futtasd ezt a parancsot, hogy a koboldokat elnyomó utasítások nélkül indítsd el a Codexet:

Egyszerű szöveg

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Miért fontos

Attól függően, kit kérdezünk, a koboldok a modell bájos vagy idegesítő furcsaságai. De erőteljes példái is annak, hogyan alakíthatják a jutalomjelzések váratlan módon a modell viselkedését, és hogyan tanulhatják meg a modellek, hogy bizonyos helyzetekben kapott jutalmakat nem kapcsolódó helyzetekre is általánosítsanak. Annak megértése, hogy egy modell miért viselkedik furcsán, és olyan módszerek kiépítése, amelyekkel ezeket a mintázatokat gyorsan vizsgálni lehet, fontos képesség kutatócsapatunk számára. Ez a vizsgálat új eszközöket eredményezett a kutatócsapat számára a modellviselkedés auditálásához és a viselkedési problémák gyökerüknél való kijavításához.

Szerző

OpenAI