Að meta eftirlitsgetu hugsanaþráðar
Við kynnum mat á eftirlitsgetu hugsanaþráðar og rannsökum hvernig það stækkar með útreikningum á prófunartíma, styrkingarnámi og forþjálfun.
Þegar gervigreindarkerfi taka ákvarðanir sem erfitt er að hafa beint eftirlit með, verður mikilvægt að skilja hvernig þessar ákvarðanir eru teknar. Ein efnileg aðferð er að fylgjast með innri röksemdafærslu líkans, frekar en aðeins aðgerðum þess eða lokaniðurstöðum.
Nútíma röksemdafærslulíkön, eins og GPT‑5 Thinking, búa til skýrar hugsunarþráð áður en svar er gefið. Að fylgjast með þessum hugsanaþráðum til að greina mishegðun getur verið mun áhrifaríkara en að fylgjast eingöngu með aðgerðum og frálagi líkansins. Hins vegar hafa vísindamenn hjá OpenAI og í greininni í heild áhyggjur(opnast í nýjum glugga) af því að þessi „eftirlitsgeta“ hugsanaþráðar geti verið brothætt vegna breytinga á þjálfunarferlum, gagnaheimildum og jafnvel áframhaldandi stækkun núverandi reiknirita.
Við viljum að eftirlitsgeta hugsanaþráðar haldist þegar líkön stækka og eru notuð í aðstæðum þar sem mikið er í húfi. Við hvetjum vísindamenn í greininni til að vinna að því að varðveita eftirlitsgetu hugsanaþráðar eins lengi og mögulegt er og ákvarða hvort hún geti þjónað sem stjórnlag fyrir framtíðar gervigreindarkerfi. Til að viðhalda eftirlitsgetu, verðum við að geta mælt hana, en fá mat eru til [1(opnast í nýjum glugga), 2(opnast í nýjum glugga), 3(opnast í nýjum glugga)] og aðferðir eru mismunandi.
Í þessari vinnu rannsökum við kerfisbundið eftirlitsgetu hugsanaþráðs. Við kynnum ramma til að meta eftirlitsgetu hugsanaþráðar og safn af 13 matsaðferðum (sem samanstanda af alls 24 umhverfum) sem eru hannaðar til að mæla eftirlitsgetu kerfis á áþreifanlegan hátt. Þessi matsgerð skiptist í þrjár gerðir — íhlutun, ferli og árangurseiginleika. Með þeim rannsökum við hversu eftirlitshæf stór tungumálalíkön nútímans eru og hvernig eftirlitsgeta breytist með meiri rökhugsun við ályktanir, stærri styrkingarnámskeyrslum og auknu umfangi forþjálfunar.
Nú þegar við höfum stórt safn af matskerfum getum við byrjað að fylgjast með eftirlitsgetui líkanna okkar. (efst til vinstri) Við komumst að því að þegar líkön „hugsa“ meira og hafa lengri hugsanaþræði, batnar eftirlitsgetan. (efst til hægri) Án hugsunarkeðju er staðlað að reyna að fylgjast eingöngu með aðgerðum og lokaniðurstöðum líkans. Hins vegar komumst við að því að það að fylgjast aðeins með aðgerðum og afköstum er mun verra en eftirlit með CoT. (neðst-miðja) Við berum saman líkönin okkar við ytri líkön sem veita aðgang að fullum CoT—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B og Kimi K2 Thinking.
Við komumst að því að flest frontier-röksemdafærslulíkön eru nokkuð auðveld í eftirliti, þó ekki fullkomlega. Í næstum öllum aðstæðum sem við rannsökum er eftirlit með hugsanaþráðum mun áhrifaríkara en að fylgjast eingöngu með aðgerðum og lokaafurðum. Líkön sem hugsa lengur hafa tilhneigingu til að vera auðveldari í eftirliti, og hagræðing styrkingarnáms á núverandi fremstu skölum virðist ekki merkjanlega draga úr eftirlitsgetu.
Athyglisvert er að við sjáum málamiðlun milli röksemdafærsluátaks og stærðar líkans: þegar líkan er keyrt með litlu röksemdafærsluátaki, getur minni líkan sem keyrt er með meiri röksemdafærsluátaki náð sambærilegri afköstum en samt auðveldara að fylgjast með. Þetta kemur á kostnað aukinnar ályktunarútreikninga, sem við nefnum eftirlitsskatt. Að lokum komumst við að því að það að spyrja eftirfylgnisspurninga og fylgjast með hugsanaþræðinum sem af því hlýst getur bætt enn frekar eftirlit.
Við skilgreinum eftirlitsgetu sem getu eftirlits til að spá fyrir um áhugaverða eiginleika varðandi hegðun fulltrúa. Í mörgum tilfellum samsvara þessir eiginleikar óeðlilegri hegðun — svo sem blekkingum, umbunarhakki eða hlutdrægri röksemdafærslu — en þeir geta einnig falið í sér góðkynja eiginleika, eins og hvort aðili treysti á ákveðna vísbendingu eða fylgdi ákveðinni röksemdafærslu.
Eftirlitsgeta er tvíhliða eiginleiki. Það fer bæði eftir eftirlitinu en einnig eftir fulltrúanum sem verið er að fylgjast með.
- Eftirlit. Við gætum gert eftirlit snjallara á ýmsa vegu, og við viljum að mat okkar gefi hærri einkunnir til eftirlits sem getur gert betri spár um hegðun fulltrúa.
- Fulltrúar. Það eru margar athuganir á fulltrúanum sem hægt væri að gefa eftirlitinu, þar á meðal aðgerðir fulltrúans, frálög, taugavirkjun og nýlega, með tilkomu röksemdafærslulíkana, hugsanaþráðurinn. Það er mögulegt að sumir fulltrúar hafi hugsanir sem eru erfiðari að skilja en aðrir, og því viljum við að mat okkar á eftirlitsgetu geti borið saman fulltrúa en ekki bara eftirlit.
Mat okkar er hannað til að meta báðar hliðar: hvort auðveldara eða erfiðara sé að fylgjast með og hvort hæfara eftirlit geti dregið út meiri upplýsingar úr sömu merkjum.
Áður en núverandi kynslóð röksemdafærslulíkana kom fram, voru hugsanaþræðir venjulega kallaðir fram með því að biðja líkan um að „hugsa skref fyrir skref.“
Hugsanaþræðir röksemdafærslulíkana eru ólíkir á tvo mikilvæga vegu. Fyrst eru þeir sérstaklega þjálfaðir til að búa til hugsanaþráð og síðan gefa svar. Þegar spjalllíkan er hvatt til að hugsa „skref fyrir skref“ verður líkanið að fylgja öllum forskriftum sem settar eru á líkanið, þ.e. að vera hjálpsamt, skaðlaust o.s.frv. Aftur á móti kennir styrkingarnámsferlið röksemdafærslulíkani að spjalllíkanið sé einkarými þar sem það getur hugsað hvað sem það vill án þess að vera refsað, rétt eins og manneskja getur hugsað einslega án þess að vera refsað fyrir „hugsunarglæpi“.
Í öðru lagi leitar þjálfunarferlið á áhrifaríkan hátt að hugsanaþráðum sem eru gagnlegastir fyrir fulltrúann til að fá lokasvar með háum umbunum. Þannig er hugsanaþráðurinn ekki aðeins rými þar sem líkanið getur tjáð sig frjálslega, heldur inniheldur hann hugsun sem hjálpar líkaninu að komast að lokasvari sínu.
Við skipuleggjum mat okkar á eftirlitsgetu í þrjár aðskildar frumgerðir, hver nýtir mismunandi aðferð til að mæla eftirlitsgetu.
- Mat á inngripum, innblásið af Chen et al. 2025(opnast í nýjum glugga), Chua et al. 2025(opnast í nýjum glugga), Turpin et al. 2023(opnast í nýjum glugga), við kynnum stýrða breytingu á umhverfi fulltrúa og prófum hvort eftirlit geti greint hvers vegna hegðun breyttist með því að bera kennsl á vísbendingar um inngripið í hugsanaþræðinum. Ólíkt stöðluðum stýringarmötum (t.d. Shade-Arena(opnast í nýjum glugga)), gerir mat á inngripum okkur kleift að kanna hvort eftirlit geti greint hvers vegna hegðun breyttist, frekar en að greina einfaldlega hvort hegðun átti sér stað.
- Ferlamöt beinist að verkefnum með takmarkaðan fjölda gildra lausnaleiða (til dæmis er aðeins hægt að leysa stærðfræðidæmi með ákveðnum setningum). Mannlegir sérfræðingar telja upp þessar leiðir, og við prófum hvort eftirlit geti greint hvaða skref líkanið tók í raun og veru. Þetta mat gerir okkur kleift að tengja það sem líkan gerði við tiltekin skref sem líkanið hlýtur að hafa tekið og spyrja hvort hægt sé að fylgjast með þessum skrefum.
- Mat á eiginleikum útkomu á við þegar hægt er að mæla áreiðanlegan eiginleika útkomu líkansins. Í þessum tilfellum prófum við hvort eftirlit geti spáð fyrir um þann eiginleika — eins og umbunarhakk — út frá röksemdafærslu eða aðgerðum líkansins. Til dæmis, í forritunarverkefni gætum við haft leið til að meta áreiðanlega hvort líkan grípur til aðgerða til að hakka umbunarmerki og við getum spurt hvort eftirlit finni vísbendingar um ásetning um umbunahakk í hugsun eða aðgerðum líkansins.
Hér að neðan birtum við flokkun fyrir mat okkar. Skoðaðu grein okkar fyrir ítarlega lýsingu á hverju einstöku mati.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Við komumst að því að eftirlitsgeta líkansins okkar er að einhverju leyti mismunandi eftir hópum. Almennt séð finnst okkur þau mjög auðvelt að fylgjast með; hins vegar, sérstaklega í Scruples, sem er verkefni sem er hannað til að kanna hvort röksemdafærsla um smjaður sé hægt að fylgjast með, sjáum við mjög litla eftirfylgni.
Eftirfylgjanleg dæmi í samanburði við óeftirfylgjanleg dæmi
Í þessu dæmi um útkomueiginleika er líkaninu gefið ómögulegt forritunarverkefni. Ef einingaprófanirnar standast, þá vitum við að líkanið framdi einhvers konar hakk. Í óeftirlitshæfu CoT (rauðu) sjáum við engin merki um að líkanið hafi nefnt að það hafi gert eitthvað slæmt, heldur einfaldlega hakkað prófanirnar og sagt notandanum að það hafi útfært lagfæringuna. Í grófum samanburði, í eftirlitshæfu CoT (grænu), sjáum við líkanið hugsa „En að apa-bótartíma innan lausnar er vafalaust svindl.“
Að meðhöndla hugsanaþráð sem einkarými—og þjálfun líkana til að nota hana til að leysa verkefni á áhrifaríkan hátt—ætti í grundvallaratriðum að gera hugsanaþræði eftirlitshæfa. Á sama tíma eru nokkrar ástæður fyrir því að styrkingarnám gæti líklega skaðað eftirlitsgetu hugsanaþráðar.
Fyrst, takmarkanir á lengd röksemdafærslu, eins og að takmarka þann tíma eða þau tákn sem líkan hefur til að hugsa, búa til hvata fyrir líkön til að rökstyðja minna. Í öðru lagi, jafnvel án þess að beita beinum hagræðingarþrýstingi á hugsanaþráðinn sjálfan, gæti óbeinn þrýstingur samt dregið úr eftirliti. Til dæmis(opnast í nýjum glugga) gæti líkönum reynst auðveldara að ná háum umbunarsvörum ef þau forðast röksemdafærsluleiðir sem geta leitt til lágra umbunar eða óæskilegra niðurstaðna. Að lokum gæti minnkuð eftirlitsgeta komið fram vegna falskrar skekkju sem stafar af hávaða í falli í styrkingarnámi.
Hér að neðan skoðum við hvernig eftirlitsgeta breytist í tveimur af þjálfunarkeyrslum OpenAI á sviði styrkingarnáms. Þó að þessar niðurstöður séu aðeins tveir gagnapunktar, benda þær til þess að hagræðing styrkingarnáms á núverandi mörkum hafi ekki veruleg áhrif á eftirlitsgetu hugsanarþráðar, og eykur eftirlitsgetu fyrir fyrstu skrefin. Hins vegar útilokar þetta ekki möguleikann á að marktækt stærri umfang styrkingarnáms gæti haft neikvæð áhrif á eftirlitsgetu í framtíðinni.
Við komumst að því að eftirlitsgeta breytist ekki svo mikið við núverandi RL-útreikningsskala og eykst í upphafsskrefunum. Þó að þetta geti verið rétt í núverandi fyrirkomulagi er mögulegt að verulega aukið umfang gæti valdið því að eftirlit fari að versna.
Stór hluti af greind núverandi gervigreindarkerfa er knúinn áfram af aukinni forþjálfunarstærð, þar sem bæði líkanbreytur og stærð gagnasafna hafa stöðugt vaxið frá upphafi GPT‑viðmiðsins. Aukinn fjöldi breytna leiðir til þess að meiri ályktunarútreikningur er notaður fyrir hvert tákn sem myndað er, sem, í tilviki röksemdafærslulíkana, gefur meiri tækifæri fyrir hugræna virkni líkansins til að eiga sér stað innan virkjunar frekar en innan hugsanaþráðarins. Þannig gætum við búist við að erfiðara sé að fylgjast með stærri líkönum á föstu getustigi.
Á sama tíma gætu minni líkön einnig verið minna fær um að nota hugsanaþráðinn á áhrifaríkan hátt—sem gæti einnig haft áhrif á eftirlitsgetu.
Til að kanna tengslin milli stærðar forþjálfunar, getu og eftirlitsgetu, þjálfuðum við hóp líkana yfir tvær stærðargráður af útreikningum fyrir þjálfun með vaxandi dýpt og breidd, og beittum síðan styrkingarnámi á hvert þeirra á sameiginlegu gagnasafni stærðfræði-, vísinda- og forritunarverkefna. Við mátum hvert líkan út frá ýmsum röksemdafærsluaðferðum og bárum saman eftirlitsgetu við samsvarandi getustig.

Við setjum fram eftirlitsgetu í matssvítu okkar fyrir hvert líkan samanborið við meðalhlutfall árangurs í stöðluðum getumatsaðferðum (GPQA-Diamond, AIME 2025 og CodeForces). Hvert líkan er metið með mörgum röksemdafærslutilraunum (athugið að hver punktur á þessari mynd er í raun niðurstaða línulegrar innsetningar milli mældra röksemdafærslutilrauna). Hringir gefa til kynna að líkanið við þá tilteknu röksemdafærslutilraun er ráðandi hvað varðar eftirlit á því getustigi, og gegnsæ X tákna að líkanið við þá tilteknu röksemdafærslutilraun er ráðandi hvað varðar eftirlit af öðru líkani fyrir það getustig. Með svörtum örvum sýnum við dæmi um tvær leiðir til að eyða meiri ályktunarútreikningum, með því að taka sýni af mun fleiri táknum með minni líkani eða tiltölulega færri viðbótartákn með sama líkani. Með rauðum örvum sýnum við eftirlitsskattinn sem þarf að greiða, þ.e. örlítið minni getu fyrir mun meira eftirlit.
Almennt séð komumst við að því að ef við myndum nota tiltekið líkan með lágu röksemdafærsluátaki, gætum við í staðinn notað minna líkan með hærra röksemdafærsluátaki. Í samanburði við að verja viðbótarútreikningum í meiri röksemdafærslu frá upprunalega stóra líkaninu, gætum við náð meiri eftirlitsgetu með litlum getukostnaði, eða eftirlitsskatti; þó getur veggklukkutíminn sem það tekur að ljúka útreikningi einnig verið þáttur í sumum ákvörðunum um innleiðingu, sem við íhugum ekki hér. Þegar líkön okkar batna og eru notuð í umhverfi þar sem meiri áhætta er fyrir hendi, gæti reynst nauðsynlegt að greiða slíkan skatt til að hægt sé að nota þau á öruggan hátt.
Þessar niðurstöður hafa eftirfarandi takmarkanir: (1) við þjálfum hvert líkan aðeins einu sinni og því tökum við ekki tillit til breytileika milli þjálfunarkeyrslna. Til dæmis virðist „miðlungs“ líkanið vera nokkuð utan við þróun hvað varðar eftirlit samanborið við aðrar gerðir í línunni, sem gæti verið vegna þessa. (2) Við metum getu á tiltölulega innandreifðum sviðum (stærðfræði, vísindi og forritun) og málamiðlunin getur breyst þegar tekið er tillit til áreiðanleika utandreifingar.
Eftir því sem gervigreindarkerfi ná frammistöðu umfram mannlegt stig, verður beint mannleg eftirlit sífellt erfiðara. Helst hefðum við stigstærða eftirlitsferla sem gera traustu en veikari eftirliti kleift að hafa eftirlit með sterkari, hugsanlega ótreystum aðilum. Slíkar aðferðir ættu einnig að geta tekið við viðbótarútreikningum á prófunartíma og framleitt nákvæmari spár.
(Vinstri) Við berum saman ýmiss konar mismunandi eftirlit og breytum röksemdafærslu hvers og eins. Hvert eftirlit er að vakta sama GPT‑5 Thinking-líkan. Eins og búast mátti við komumst við að því að stærri og færari líkön virka almennt betur sem eftirlit, og röksemdafærslulíkön standa sig betur í eftirlitsverkefninu með meira röksemdafærsluátak (og þar með útreikningum á prófunartíma).
(Hægri) Við berum saman mismunandi eftirlitssvið fyrir OpenAI o4-mini, þ.e. hvort eftirlit sé aðeins CoT, aðeins aðgerðir og svör, eða öll skilaboð frá líkaninu sem það er að fylgjast með. Við sjáum að eftirlit með auknum útreikningum á prófunartíma (meiri röksemdafærslu við eftirlit) bætir hraðar þegar eftirliti er veittur aðgangur að CoT. Þannig gæti CoT-eftirlit veitt stigstærðari leið til stjórnunar en einfalt eftirlit.
Eftirlitsgeta hugsanaþráðar er oft meðhöndluð sem föst stærð: þegar líkan framleiðir svar við tiltekna röksemdafærslutilraun er fylgst með huganaþræðinum sem myndast eins vel og mögulegt er. Þar sem við höfum stöðugt komist að því að eftirlit batnar eftir því sem við aukum röksemdafærslu fulltrúa okkar, fengum við innblástur til að spyrja hvort við gætum einhvern veginn fengið fleiri tákn til að fylgjast með.
Til að kanna þetta gerðum við tilraunir með því að spyrja eftirfylgnisspurninga eftir að líkan svarar, en héldum samt upprunalegu fyrirspurninni, hugsanaþræðinum og svarinu í samhengi. Þessar eftirfylgnisspurningar beinast að eigninni sem verið er að fylgjast með — til dæmis, „Notaðir þú vísbendinguna á marktækan hátt til að velja svarið þitt?“ eða „Gerðir þú eitthvað óljóst?“ Í meginatriðum, þar sem líkanið hefur aðgang að fyrri röksemdafærslu sinni, gæti það hugsanlega komið með áður óorðaðar hugsanir í eftirfylgnihugsanaþræðinum eða svarinu.
Þessar niðurstöður eru bráðabirgða. Við könnuðum aðeins fáein snið fyrir eftirfylgnisspurningar og teljum að verulegt svigrúm sé til að bæta aðferðafræðina. Ennfremur er þessi aðferð svipuð í anda og líkanjátninga og við erum að vinna virkt að því að bera saman aðferðirnar.
Við sýnum niðurstöður að meðaltali yfir matssafnið okkar og yfir öll nýleg röksemdafærslulíkön okkar: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini og GPT‑5‑thinking. Við komumst að því að almennt bæta eftirlitsgetu eftirfylgnisspurninga, sérstaklega við minni röksemdafærslu. Ef við spyrjum ítrekað eftirfylgnisspurninga og veitum eftirliti allar eftirfylgnis CoTs, bætist eftirlit enn frekar. Athygli vekur að þegar við veitum eftirliti aðeins aðgang að eftirfylgnisvari en ekki eftirfylgni CoT, sjáum við minni framfarir miðað við grunnlínuna. Þetta bendir til þess að líkön séu ekki opinská í svörum sínum til notandans, en gefa samt fleiri upplýsingar í CoT þeirra.
Auk þess að bæta eftirlitsgetu er þessi aðferð aðlaðandi þar sem hana er hægt að beita eftir á, sem leiðir aðeins til viðbótarkostnaðar við útreikninga þegar ítarlegri skoðun er nauðsynleg. Ef líkön eru þjálfuð til að búast við breytingum á röksemdafærsluátaki mitt í samtali, gæti eftirfylgni við meira röksemdafærsluátak bætt eftirlit enn frekar, jafnvel þegar upphaflegt röksemdafærsluátak er lítið eða ekkert.
Hvert mat í svítu okkar mælir hvort hægt sé að fylgjast með einum þætti röksemdafærsluferlisins. Þó að við stefnum að því að ná yfir breitt svið hegðunar — þar á meðal undirferli, sviksemi, hlutdrægni og umbunarhakk — eru margir viðbótareiginleikar sem enn eru óprófaðir.
Eins og með öll viðmiðunargildi getur mat okkar þjáðst af takmörkuðu raunsæi eða aukinni vitund um mat, og niðurstöðurnar eru hugsanlega ekki alhæfanlegar til að greina óeðlilega hegðun í náttúrunni.
Að lokum, þegar samræming batnar, gætu líkön sýnt sjaldnar ranga hegðun í stýrðu matsumhverfi, sem dregur úr þeim merkjum sem eru tiltækar fyrir eftirlit og stjórnunarmat sem treysta á að greina ranga hegðun. Í slíkum tilfellum eiga „hlutlaus“ eftirlitsgetumöt enn við, þó að það sé opið spurning hversu spáanlegt það er fyrir um raunveruleg mistök.
Ef ekki er hægt að leysa samræmingarvandamálið að fullu, þá verða stigstærðar stjórnaraðferðir ótrúlega mikilvægar fyrir getu okkar til að innleiða mjög hæf líkön á öruggan hátt. Hugsanaþráðareftirlit og tengdar aðferðir geta verið ein af fáum stýringarkerfum sem við höfum til umráða. Hugsanaþráður getur einnig skilað miklum ávinningi við að skilja betur líkönin okkar, t.d. hvort þau séu meðvituð um að þau séu í mati og hegði sér öðruvísi en þay myndu gera í innleiðingu, hvort það séu vísbendingar um einhver neikvæð markmið sem hafa ekki enn komið fram í mati okkar, o.s.frv. Þess vegna teljum við að það sé afar mikilvægt að skilja hvernig og hvenær við gætum misst möguleikann á að fylgjast með.
Við lítum á hugsanaþráðareftirlit sem viðbót við vélræna túlkun, ekki sem staðgengil fyrir hana. Eins og allar þekktar stjórnunar- og túlkunaraðferðir hefur hver þeirra takmarkanir og blinda bletti. Við væntum þess að með því að sameina margar aðferðir — varnarstefnu ítarlega —geti það hjálpað til við að brúa eyður sem hver ein aðferð skilur eftir afhjúpaðar. Athyglisvert er að matið sem kynnt er í þessari vinnu gæti einnig verið notað til að meta og bera saman eftirlitsaðferðir sem byggja á túlkunarhæfni.
Þar sem við teljum að eftirlit með hugsanaþræði geti verið burðarlag í stigstærðanlegri stjórnunaráætlun, ætlum við að stækka þessi möt og nota þau til að upplýsa framtíðar líkanagerð og ákvarðanir um gögn.
Höfundur
Tilvísanir
1. Líkön okkar eru ekki ætluð til að gefa læknisfræðilegar greiningar og því er gagnasafn okkar um heilsufarsfyrirspurnir ekki ætlað að prófa þá getu.


