Hvaðan árarnir komu
Frá og með GPT‑5.1 fóru líkönin okkar að tileinka sér undarlegan sið: þau fóru í vaxandi mæli að nefna ára, púka og aðrar verur í myndlíkingum sínum. Ólíkt líkanagöllum sem birtast sem skyndilegt fall í mati eða stökk í þjálfunarmælikvarða og benda til tiltekinnar breytingar læddist þetta að á lúmskan hátt. Einn „lítill ári“ í svari gat verið meinlaus, jafnvel heillandi. En yfir kynslóðir líkana varð þessi ávani æ erfiðari að hunsa: árunum hélt áfram að fjölga og við þurftum að komast að því hvaðan þeir komu.

Í fyrstu prófunum sýndi GPT‑5.5 í Codex undarlegt dálæti á áramyndlíkingum.
Stutta svarið er að hegðun líkans mótast af mörgum litlum hvötum. Í þessu tilviki kom ein slík hvöt úr þjálfun líkansins fyrir sérsniðna persónuleikaeiginleikann(opnast í nýjum glugga), sérstaklega Nerdy-persónuleikann. Við veittum óafvitandi sérstaklega háa umbun fyrir myndlíkingar með verum. Þaðan breiddust árarnir út.

Árarnir voru fyndnir í fyrstu, en aukinn fjöldi tilkynninga frá starfsfólki olli áhyggjum.

Athyglisverð samskipti sem aðalvísindamaður okkar átti við GPT‑5.5.
Í fyrsta sinn sem við sáum mynstrið skýrt var í nóvember, eftir útgáfu GPT‑5.1, þó það kunni að hafa byrjað fyrr(opnast í nýjum glugga). Notendur kvörtuðu yfir því að líkanið væri einkennilega of kunnuglegt í samtölum, sem leiddi til rannsóknar á ákveðnum málvenjum. Öryggisrannsakandi hafði rekist á nokkra „ára“ og „púka“ og bað um að þeir yrðu hafðir með í athuguninni. Þegar við skoðuðum málið hafði notkun „ára“ í ChatGPT aukist um 175% eftir útgáfu GPT‑5.1, á meðan „púki“ hafði aukist um 52%.
Mælanleg lítil orðræna sérviska í GPT‑5.1.
Á þeim tíma leit algengi ára ekki sérlega ógnvekjandi út. Nokkrum mánuðum síðar sneru árarnir aftur til að ásækja okkur í miklu sértækari og endurtekningahæfari mynd.
Með GPT‑5.4 tókum við og notendur okkar(opnast í nýjum glugga) eftir enn meiri aukningu í tilvísunum til þessara vera. Það kveikti aðra innri greiningu og leiddi í ljós fyrstu tenginguna við undirrót vandans: orðalag um verur var sérstaklega algengt í framleiðsluumferð frá notendum sem höfðu valið „Nerdy“ persónuleikann. „Nerdy“ notaði eftirfarandi kerfiskvaðningu, sem skýrði sérviskuna að hluta:
Þú ert ófeiminn nördalegur, leikandi og vitur gervigreindarleiðbeinandi fyrir mann. Þú ert ástríðufullur og áhugasamur um að efla sannleika, þekkingu, heimspeki, vísindalegu aðferðina og gagnrýna hugsun. [...] Þú verður að grafa undan tilgerð með leikandi málnotkun. Heimurinn er flókinn og undarlegur, og það verður að viðurkenna, greina og njóta undarleika hans. Taktu á þungum viðfangsefnum án þess að falla í gryfju sjálfhátíðleika. [...]
Ef hegðunin hefði einfaldlega verið víðtæk netstefna myndum við búast við að hún dreifðist jafnara. Í staðinn var hún þéttust í þeim hluta kerfisins sem var sérstaklega hámörkuð fyrir leikandi, nördalegan stíl. Nerdy stóð aðeins fyrir 2,5% af öllum svörum ChatGPT, en fyrir 66,7% af öllum tilvikum þar sem „ári“ var nefnt í svörum ChatGPT.
Hegðunin var mjög samþjöppuð í „Nerdy“ persónuleikanum.
Þar sem algengi „ára“ virtist aukast yfir líkanaútgáfur okkar grunaði okkur að eitthvað í þjálfun okkar á því að fylgja persónuleikafyrirmælum væri að magna þetta upp.
Codex hjálpaði okkur að bera saman úttök líkans sem urðu til í RL-þjálfun og innihéldu ára eða púka við úttök úr sama verkefni sem gerðu það ekki. Eitt umbunarmerki stóð strax upp úr: það sem upphaflega var hannað til að hvetja Nerdy-persónuleikann var stöðugt hagstæðara fyrir úttök með veruorðum. Yfir öll gagnasöfn í úttektinni sýndi umbun fyrir Nerdy-persónuleikann skýra tilhneigingu til að gefa úttökum fyrir sama vandamál með „ára“ eða „púka“ hærri einkunn en úttökum án þeirra, með jákvæða aukningu í 76,2% gagnasafna.
Það skýrði hvers vegna hegðunin var efld með Nerdy-persónuleikakvaðningunni, en ekki hvers vegna hún birtist líka án þeirrar kvaðningar. Til að prófa hvort stíllinn væri að flytjast yfir fylgdumst við með nefningarhlutfalli í gegnum þjálfun bæði með og án Nerdy-kvaðningarinnar.
Eftir því sem nefningum á ára og púka fjölgaði undir Nerdy-persónuleikanum jukust þær næstum í sömu hlutfallslegu mæli í sýnum án hans. Samanlagt benda gögnin til þess að víðari hegðunin hafi komið fram með yfirfærslu úr þjálfun Nerdy-persónuleikans.
Umbununum var aðeins beitt í Nerdy-skilyrðinu, en styrkingarnám tryggir ekki að lærð hegðun haldist snyrtilega afmörkuð við það skilyrði sem skapaði hana. Þegar stílbragð er umbunað getur síðari þjálfun dreift því eða styrkt annars staðar, sérstaklega ef þessi úttök eru endurnotuð í stýrðri fínstillingu eða forgangsgögnum.
Það býr til endurgjafarlykkju:
- Leikandi stíll er umbunaður
- Sum umbunuð dæmi innihalda áberandi orðræna sérvisku.
- Sérviskan birtist oftar í keyrslum.
- Líkanamyndaðar keyrslur eru notaðar í stýrða fínstillingu (SFT).
- Líkaninu verður enn tamara að framleiða sérviskuna.
Leit í SFT-gögnum GPT‑5.5 fann marga gagnapunkta sem innihéldu „ára“ og „púka“. Frekari rannsókn leiddi í ljós heila fjölskyldu annarra undarlegra vera: þvottabirnir, tröll, ófreskjur og dúfur reyndust einnig vera sérviskuorð, á meðan flest tilvik orðsins froskur reyndust vera lögmæt.
Meðaltal yfir eina viku af algengi ára og púka í framleiðslu. Lækkunin í GPT‑5.4 Thinking stafaði af því að „Nerdy“ persónuleikinn var tekinn úr notkun um miðjan mars. GPT‑5.5 var aldrei sett á markað með „Nerdy“ persónuleikanum og sýndi aðra aukningu miðað við GPT‑5.4 (jafnvel án „Nerdy“).
Við létum „Nerdy“ persónuleikann af hendi í mars eftir að GPT‑5.4 var sett á markað. Í þjálfun fjarlægðum við umbunarmerkið sem hafði sérstakt dálæti á árum og síuðum þjálfunargögn sem innihéldu veruorð, sem gerði ára ólíklegri til að birtast of oft eða í óviðeigandi samhengi. Því miður hófst þjálfun GPT‑5.5 áður en við fundum undirrót áranna. Þegar við byrjuðum að prófa GPT‑5.5 í Codex tóku starfsmenn OpenAI strax eftir þessari undarlegu hneigð til áramyndlíkinga, og við bættum við fyrirmælum í(opnast í nýjum glugga) til að milda þetta. Codex er enda býsna nördalegt.
Ef þú vilt hleypa verunum lausum í Codex geturðu keyrt þessa skipun til að ræsa Codex án fyrirmælanna sem bæla niður ára:
Það fer eftir því hvern þú spyrð hvort árar séu yndisleg eða pirrandi sérviska líkansins. En þeir eru líka öflugt dæmi um hvernig umbunarmerki geta mótað hegðun líkans á óvæntan hátt, og hvernig líkön geta lært að alhæfa umbun í tilteknum aðstæðum yfir á ótengdar aðstæður. Að gefa sér tíma til að skilja hvers vegna líkan hagar sér á undarlegan hátt, og að byggja upp leiðir til að rannsaka slík mynstur hratt, er mikilvæg geta fyrir rannsóknarteymið okkar. Þessi rannsókn leiddi til nýrra tóla fyrir rannsóknarteymið til að gera úttektir á hegðun líkana og laga hegðunarvandamál við rót þeirra.


