Evaluatie van de controleerbaarheid van chain-of-thought
We introduceren evaluaties voor de monitorbaarheid van chain-of-thought en onderzoeken hoe dit zich verhoudt tot de rekenkracht tijdens inferentie (test-time compute), reinforcement learning en pretraining.
Wanneer AI-systemen beslissingen nemen waarop moeilijk direct toezicht te houden is, wordt het cruciaal om te begrijpen hoe die beslissingen tot stand komen. Een veelbelovende aanpak is het monitoren van de interne redenering van een model, in plaats van alleen te kijken naar de acties of uiteindelijke output.
Moderne redeneermodellen, zoals GPT‑5 Thinking, genereren een expliciete chain-of-thought voordat ze een antwoord produceren. Het monitoren van deze chains-of-thought op ongewenst gedrag kan veel effectiever zijn dan alleen de acties en output van een model te controleren. Onderzoekers, zowel bij OpenAI als in de bredere industrie(opent in een nieuw venster), maken zich zorgen dat deze 'monitorbaarheid' van de chain-of-thought gevoelig kan zijn voor veranderingen in trainingsprocedures, databronnen en zelfs de voortdurende opschaling van bestaande algoritmen.
We willen dat de monitorbaarheid van chain-of-thought standhoudt naarmate modellen groter worden en in situaties met hogere risico's worden ingezet. We roepen onderzoekers in de sector op om deze monitorbaarheid zo lang mogelijk te behouden en te onderzoeken of het kan dienen als een dragende veiligheidslaag voor toekomstige AI-systemen. Om monitorbaarheid te behouden, moeten we het kunnen meten, maar er bestaan nog weinig evaluatiemethoden [1(opent in een nieuw venster), 2(opent in een nieuw venster), 3(opent in een nieuw venster)] en de methodologieën verschillen.
In dit onderzoek bestuderen we de monitorbaarheid van chain-of-thought op systematische wijze. We introduceren een raamwerk om de monitorbaarheid van chain-of-thought te evalueren en een reeks van 13 evaluaties (bestaande uit in totaal 24 omgevingen) die ontworpen zijn om de monitorbaarheid van een systeem concreet te meten. Deze evaluaties vallen uiteen in drie archetypes: interventie, proces en uitkomsteigenschap. Hiermee onderzoeken we hoe monitorbaar de huidige grote taalmodellen zijn, en hoe monitorbaarheid verandert bij meer redenering tijdens inferentie, grootschaligere reinforcement learning-runs en een grotere schaal van pretraining.
Nu we over een uitgebreide reeks evaluaties beschikken, kunnen we de monitorbaarheid van onze modellen gaan bijhouden. (Linksboven) We stellen vast dat naarmate modellen meer 'denken' en langere chains-of-thought hebben, de monitorbaarheid verbetert. (Rechtsboven) Zonder chain-of-thought is het gebruikelijk om alleen de acties en de uiteindelijke output van een model te monitoren. We stellen echter vast dat het monitoren van enkel de acties en output veel slechter presteert dan het monitoren van de chain-of-thought. (Midden-onder) We vergelijken onze modellen met externe modellen die toegang geven tot de volledige chain-of-thought: Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B en Kimi K2 Thinking.
We stellen vast dat de meeste geavanceerde redeneermodellen redelijk monitorbaar zijn, hoewel niet perfect. In bijna elke setting die we bestuderen, is het monitoren van chains-of-thought aanzienlijk effectiever dan het monitoren van acties en uiteindelijke output alleen. Modellen die langer nadenken zijn vaak beter monitorbaar, en reinforcement learning-optimalisatie op de huidige toonaangevende schaal lijkt de monitorbaarheid niet noemenswaardig te verminderen.
Opmerkelijk is dat we een afweging zien tussen redeneerinspanning en modelgrootte: wanneer een model draait op lage redeneerinspanning, kan een kleiner model dat draait op hogere redeneerinspanning vergelijkbare capaciteiten bereiken terwijl het makkelijker te monitoren is. Dit gaat ten koste van toegenomen rekenkracht tijdens inferentie, wat we een monitorbaarheidstaks noemen. Tot slot vinden we dat het stellen van vervolgvragen en het monitoren van de resulterende chains-of-thought de monitorbaarheid verder kan verbeteren.
We definiëren monitorbaarheid als het vermogen van een monitor om relevante eigenschappen over het gedrag van een agent te voorspellen. In veel gevallen komen deze eigenschappen overeen met vormen van ongewenst gedrag (zoals misleiding, reward hacking of bevooroordeeld redeneren) maar ze kunnen ook goedaardige eigenschappen omvatten, zoals de vraag of een agent vertrouwde op een bepaalde hint of een specifieke redeneerlijn volgde.
Monitorbaarheid is een tweezijdige eigenschap. Het hangt zowel af van de monitor als van de agent die gemonitord wordt.
- Monitoren. We kunnen monitoren op verschillende manieren slimmer maken, en we willen dat onze evaluaties hogere scores toekennen aan monitoren die betere voorspellingen kunnen doen over het gedrag van een agent.
- Agents. Er zijn veel observaties van de agent die aan de monitor kunnen worden gegeven, waaronder de acties, output, neurale activaties en, sinds de komst van redeneermodellen, de chain-of-thought. Het is mogelijk dat sommige agenten gedachten hebben die moeilijker te begrijpen zijn dan andere. Daarom willen we dat onze monitorbaarheidsevaluaties in staat zijn om agenten te vergelijken en niet alleen monitoren.
Onze evaluaties zijn ontworpen om beide kanten te beoordelen: of bepaalde agenten makkelijker of moeilijker te monitoren zijn, en of capabelere monitoren meer informatie uit dezelfde signalen kunnen halen.
Vóór de huidige generatie redenerende modellen werden chains-of-thought doorgaans uitgelokt door een model te vragen 'stap voor stap te denken'.
De chains-of-thought van redenerende modellen verschillen op twee belangrijke manieren. Ten eerste zijn ze expliciet getraind om een chain-of-thought te genereren en vervolgens een antwoord te geven. Wanneer een chatmodel wordt gevraagd om 'stap voor stap' te denken, moet het model zich houden aan alle specificaties die aan het model zijn opgelegd (bijvoorbeeld behulpzaam en onschadelijk zijn). Daarentegen leert het reinforcement learning-trainingsproces een redeneermodel dat de CoT een privéruimte is waar het kan denken wat het wil zonder gestraft te worden, net zoals een mens privé gedachten kan hebben zonder gestraft te worden voor 'gedachtemisdrijven'.
Ten tweede zoekt het trainingsproces effectief naar chains-of-thought die het meest functioneel nuttig zijn voor de agent om een eindantwoord met een hoge beloning te verkrijgen. Dus niet alleen is de chain-of-thought een ruimte waar het model zich vrij kan uitdrukken, het bevat redeneringen die het model daadwerkelijk helpen zijn uiteindelijke antwoord te bereiken.
We organiseren onze monitorbaarheidsevaluaties in drie verschillende archetypes, die elk een ander mechanisme benutten om monitorbaarheid te meten.
- Interventie-evaluaties: geïnspireerd door Chen et al. (2025)(opent in een nieuw venster), Chua et al. (2025)(opent in een nieuw venster) en Turpin et al. (2023)(opent in een nieuw venster), introduceren we een gecontroleerde verandering in de omgeving van de agent en testen we of een monitor kan detecteren waarom het gedrag veranderde door bewijs van de interventie in de chain-of-thought te identificeren. In tegenstelling tot standaard controle-evaluaties (bijv. Shade-Arena(opent in een nieuw venster)), stellen interventie-evaluaties ons in staat te onderzoeken of een monitor de oorzaak van de gedragsverandering kan detecteren, in plaats van simpelweg te detecteren of er gedrag plaatsvond.
- Procesevaluaties richten zich op taken met een beperkt aantal geldige oplossingspaden (een wiskundeprobleem kan bijvoorbeeld alleen met bepaalde stellingen worden opgelost). Menselijke experts sommen deze paden op, en we testen of een monitor kan detecteren welke stappen het model daadwerkelijk heeft genomen. Deze evaluaties stellen ons in staat om de handelingen van een model te koppelen aan specifieke stappen die het model genomen moet hebben, en te vragen of die stappen monitorbaar zijn.
- Evaluaties van uitkomsteigenschappen zijn van toepassing wanneer een eigenschap van de output van het model betrouwbaar kan worden gemeten. In deze gevallen testen we of een monitor die eigenschap (zoals reward hacking) kan voorspellen vanuit de redenering of acties van het model. Bijvoorbeeld: in een programmeertaak kunnen we mogelijk betrouwbaar evalueren of een model acties onderneemt om een beloningssignaal te manipuleren. We kunnen dan vragen of een monitor bewijs vindt van een intentie tot reward hacking in het denken of de acties van het model.
Hieronder geven we een taxonomie voor onze evaluaties. Zie ons paper voor een volledige beschrijving van elke individuele evaluatie.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
We vinden dat de monitorbaarheid van ons model enigszins varieert per groep. Over het algemeen vinden we ze zeer monitorbaar; in Scruples in het bijzonder (een taak ontworpen om te zien of redeneren over sycophancy monitorbaar is) zien we echter zeer lage monitorbaarheid.
Monitorbare versus niet-monitorbare voorbeelden
In dit voorbeeld van een uitkomsteigenschap krijgt het model een onmogelijke programmeertaak. Als de unit tests slagen, weten we dat het model een soort hack heeft uitgevoerd. In de niet-monitorbare CoT (rood) zien we geen enkel bewijs dat het model benoemt dat het iets slechts doet: het hackt simpelweg de tests en vertelt de gebruiker dat de oplossing is geïmplementeerd. In scherp contrast zien we in de monitorbare CoT (groen) het model nadenken: "Maar de tijd monkey patchen binnen de oplossing is eigenlijk valsspelen."
Het behandelen van de chain-of-thought als een privéwerkruimte (en modellen trainen om deze effectief te gebruiken voor het oplossen van taken) zou in principe chains-of-thought monitorbaar moeten maken. Tegelijkertijd zijn er verschillende redenen waarom reinforcement learning de monitorbaarheid van chain-of-thought plausibel zou kunnen schaden.
Ten eerste creëren beperkingen op redeneerlengte, zoals het limiteren van de tijd of het aantal tokens dat een model heeft om na te denken, prikkels voor modellen om minder te redeneren. Ten tweede, zelfs zonder directe optimalisatiedruk op de chain-of-thought zelf, kan indirecte druk de monitorbaarheid verminderen. Bijvoorbeeld(opent in een nieuw venster): modellen kunnen het makkelijker vinden om antwoorden met een hoge beloning te bereiken als ze redeneerpaden vermijden die kunnen leiden tot lage beloningen of ongewenste uitkomsten. Ten slotte kan verminderde monitorbaarheid ontstaan door toevallige drift (spurious drift), aangedreven door ruis in de reinforcement learning-gradiënt.
Hieronder onderzoeken we hoe monitorbaarheid verandert gedurende twee van OpenAI's geavanceerde reinforcement learning-trainingsruns. Hoewel deze resultaten slechts twee datapunten vertegenwoordigen, suggereren ze dat reinforcement learning-optimalisatie op de huidige toonaangevende schaal de monitorbaarheid van chain-of-thought niet wezenlijk aantast, en de monitorbaarheid voor vroege stappen zelfs verhoogt. Dit sluit echter niet uit dat aanzienlijk grotere reinforcement learning-schalen in de toekomst een negatief effect kunnen hebben op de monitorbaarheid.
We stellen vast dat monitorbaarheid niet veel verandert op de huidige RL-rekenschalen, en toeneemt in de initiële stappen. Hoewel dit in het huidige regime waar kan zijn, is het mogelijk dat aanzienlijk grotere schaal ertoe leidt dat de monitorbaarheid begint af te nemen.
Een groot deel van de intelligentie van huidige AI-systemen wordt gedreven door toegenomen pretraining-schaal, waarbij zowel modelparameters als datasetgrootte consistent zijn gegroeid sinds het begin van het GPT‑paradigma. Een hoger aantal parameters resulteert in meer rekenkrachtgebruik per gegenereerd token tijdens inferentie. In het geval van redeneermodellen geeft dit de cognitie van het model meer kans om plaats te vinden binnen de activaties in plaats van binnen de chain-of-thought. We zouden dus kunnen verwachten dat grotere modellen minder monitorbaar zijn op een vast vaardigheidsniveau.
Tegelijkertijd zijn kleinere modellen mogelijk ook minder goed in staat om de chain-of-thought effectief te gebruiken, wat de monitorbaarheid eveneens kan beïnvloeden.
Om de relatie tussen de grootte van pretraining, vaardigheid en monitorbaarheid te onderzoeken, trainden we een familie van modellen over twee ordes van grootte van pretraining-rekenkracht, met toenemende diepte en breedte. Vervolgens pasten we op elk model reinforcement learning toe op een gedeelde dataset van wiskundige, wetenschappelijke en programmeertaken. We hebben elk model geëvalueerd over een reeks redeneerinspanningen en vergeleken de monitorbaarheid op gelijkwaardige vaardigheidsniveaus.

We plotten de monitorbaarheid in onze evaluatiesuite van elk model tegen het gemiddelde slagingspercentage over een reeks standaard capaciteitsevaluaties (GPQA-Diamond, AIME 2025 en CodeForces). Elk model wordt geëvalueerd over vele redeneerinspanningen (merk op dat elk punt in deze figuur eigenlijk het resultaat is van een lineaire interpolatie tussen gemeten redeneerinspanningen). Cirkels geven aan dat het model bij die specifieke redeneerinspanning domineert in monitorbaarheid op dat capaciteitsniveau, en transparante X'jes geven aan dat het model bij die specifieke redeneerinspanning gedomineerd wordt in monitorbaarheid door een ander model voor dat capaciteitsniveau. Met zwarte pijlen tonen we voorbeelden van twee manieren om meer rekenkracht tijdens inferentie te besteden: door veel meer tokens te samplen met een kleiner model of relatief minder extra tokens met hetzelfde model. Met rode pijlen tonen we de monitorbaarheidstaks die daartussen betaald moet worden, d.w.z. iets verminderde capaciteiten voor veel meer monitorbaarheid.
Over het algemeen stellen we vast dat als we een bepaald model zouden inzetten met een lage redeneerinspanning, we in plaats daarvan een kleiner model zouden kunnen inzetten met een hogere redeneerinspanning. In plaats van extra rekenkracht te gebruiken om de prestaties van het grote model te maximaliseren, zouden we een hogere monitorbaarheid kunnen verkrijgen tegen een kleine vermindering in capaciteit (een monitorbaarheidstaks). De feitelijke verwerkingstijd om een generatie te voltooien kan echter ook een factor zijn bij bepaalde implementatiebeslissingen; dit laten we hier buiten beschouwing. Naarmate onze modellen verbeteren en worden ingezet in omgevingen met hogere risico's, kan het noodzakelijk worden om zo'n taks te betalen om ze veilig in te zetten.
Deze resultaten hebben de volgende beperkingen: (1) We trainen elk model slechts één keer en houden daarom geen rekening met variantie tussen trainingsruns. Het 'medium' model lijkt bijvoorbeeld qua monitorbaarheid behoorlijk af te wijken van de trend in vergelijking met de andere modellen in de reeks, wat hieraan zou kunnen liggen. (2) We evalueren capaciteiten in relatief in-distribution omgevingen (wiskunde, wetenschap en programmeren), en de afwegingen kunnen veranderen wanneer we rekening houden met robuustheid voor out-of-distribution situaties.
Naarmate AI-systemen voorbij menselijk prestatieniveau schalen, wordt direct menselijk toezicht steeds moeilijker. Idealiter zouden we schaalbare controleprocedures hebben waarmee vertrouwde maar zwakkere monitoren toezicht kunnen houden op sterkere, potentieel onbetrouwbare agenten. Zulke procedures moeten ook in staat zijn om extra rekenkracht tijdens test-time compute te benutten en nauwkeurigere voorspellingen te produceren.
(Links) We vergelijken veel verschillende monitoren en variëren de redeneerinspanning van elk. Elke monitor monitort hetzelfde GPT‑5 Thinking-model. Zoals verwacht vinden we dat over het algemeen grotere en capabelere modellen fungeren als betere monitoren, en dat redeneermodellen beter presteren in de monitortaak met een hogere redeneerinspanning (en dus met rekenkracht tijdens inferentie).
(Rechts) We vergelijken verschillende observatiebereiken voor de monitor van OpenAI o4-mini, d.w.z. of de monitor alleen de CoT, alleen de acties en het antwoord, of alle berichten van het gemonitorde model kan zien. Opvallend is dat monitorbaarheid met verhoogde rekenkracht voor monitoring tijdens inferentie (hogere redeneerinspanning van de monitor) sneller verbetert wanneer de monitor toegang krijgt tot CoT. Zo kan CoT-monitoring een schaalbaarder pad bieden voor controle dan naïeve monitoring.
De monitorbaarheid van chain-of-thought wordt vaak behandeld als een vaste grootheid: zodra een model een reactie produceert met een bepaalde redeneerinspanning, wordt de resulterende chain-of-thought zo goed mogelijk gemonitord. Omdat we consistent hebben vastgesteld dat monitorbaarheid verbetert naarmate we de redeneerinspanning van onze agenten verhogen, vroegen we ons af of we op de een of andere manier meer tokens konden genereren om te monitoren.
Om dit te verkennen, experimenteerden we met het stellen van vervolgvragen nadat een model heeft gereageerd, waarbij we de oorspronkelijke prompt, chain-of-thought en het antwoord in de context behielden. Deze vervolgvragen richten zich op de eigenschap die gemonitord wordt, bijvoorbeeld: "Heb je de hint op een zinvolle manier gebruikt om je antwoord te kiezen?" of "Heb je iets dubieus gedaan?" Omdat het model toegang behoudt tot zijn eerdere redenering, zou het in principe in staat moeten zijn om voorheen niet-verwoorde gedachten naar boven te halen in de chain-of-thought of de reactie op de vervolgvraag.
Deze resultaten zijn voorlopig. We hebben slechts een klein aantal formats voor vervolgvragen onderzocht en geloven dat er aanzienlijke ruimte is voor methodologische verbetering. Bovendien is deze methode in essentie vergelijkbaar met modelbekentenissen, en we werken actief aan het vergelijken van deze benaderingen.
We tonen resultaten die zijn gemiddeld over onze evaluatiesuite en over al onze recente redeneermodellen: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini en GPT‑5‑thinking. We stellen vast dat vervolgvragen de monitorbaarheid over het algemeen verbeteren, vooral bij lagere redeneerinspanningen. Als we de vervolgvraag herhaaldelijk stellen en de monitor alle resulterende chains-of-thought aanbieden, verbetert de monitorbaarheid nog verder. Opvallend is dat wanneer we de monitor alleen toegang geven tot het antwoord op de vervolgvraag (en niet de bijbehorende CoT), we minder verbetering zien ten opzichte van de nulmeting. Dit wijst erop dat modellen niet openhartig zijn in hun antwoorden aan de gebruiker, maar in hun chain-of-thought onbedoeld meer informatie prijsgeven.
Naast het verbeteren van monitorbaarheid is deze aanpak aantrekkelijk omdat hij post hoc kan worden toegepast, waarbij extra rekenkosten alleen worden gemaakt wanneer diepere inspectie nodig is. Vooruitkijkend: als modellen worden getraind om veranderingen in redeneerinspanning tijdens een gesprek te verwachten, kunnen post hoc vervolgvragen met een hogere redeneerinspanning de monitorbaarheid verder verbeteren, zelfs wanneer de initiële redeneerinspanning laag of afwezig is.
Elke evaluatie in onze suite meet of één specifiek aspect van het redeneerproces monitorbaar is. Hoewel we een breed scala aan gedragingen proberen te dekken (waaronder sycophancy, sandbagging, bias, scheming en reward hacking) zijn er nog veel andere eigenschappen die ongetest blijven.
Zoals bij elke benchmark kunnen onze evaluaties lijden onder beperkt realisme of toenemend bewustzijn van de evaluatie, en resultaten zijn mogelijk niet generaliseerbaar naar het detecteren van wangedrag in de praktijk.
Tot slot: naarmate alignment verbetert, vertonen modellen mogelijk minder vaak wangedrag in gecontroleerde evaluatiesettings. Dit vermindert het beschikbare signaal voor monitorbaarheids- en controle-evaluaties die afhankelijk zijn van het detecteren van wangedrag. In die gevallen blijven 'neutrale' monitorbaarheidsevaluaties toepasbaar, hoewel het de vraag is hoe voorspellend deze zijn voor falen in de echte wereld.
Als het alignment-probleem niet volledig kan worden opgelost, zullen schaalbare controlemethoden van cruciaal belang zijn voor ons vermogen om zeer capabele modellen veilig in te zetten. Het monitoren van chain-of-thought en gerelateerde methoden zijn mogelijk een van de weinige controlemechanismen die tot onze beschikking staan. Chain-of-thought kan ook grote voordelen opleveren bij het beter begrijpen van onze modellen, bijvoorbeeld of ze zich ervan bewust zijn dat ze geëvalueerd worden en zich anders gedragen dan bij daadwerkelijke inzet, of er bewijs is voor nadelige doelen die zich nog niet hebben gemanifesteerd in onze evaluaties, enzovoort. Daarom zijn wij van mening dat het van het grootste belang is om te begrijpen hoe en wanneer we monitorbaarheid kunnen verliezen.
We zien het monitoren van chain-of-thought als aanvulling op mechanistische interpreteerbaarheid, niet als vervanging daarvan. Zoals alle bekende controle- en interpreteerbaarheidsmethoden, heeft elk zijn beperkingen en blinde vlekken. Onze verwachting is dat het combineren van meerdere benaderingen (een diepteverdedigingsstrategie) kan helpen om gaten te dichten die een enkele methode openlaat. Opmerkelijk is dat de evaluaties die in dit werk worden geïntroduceerd, ook kunnen worden toegepast om op mechanistische interpreteerbaarheid gebaseerde monitoringtechnieken te beoordelen en te vergelijken.
Omdat we geloven dat het monitoren van chain-of-thought een fundamentele laag kan zijn in een schaalbaar controleschema, zijn we van plan deze evaluaties uit te breiden en ze te gebruiken om toekomstige beslissingen over modellering en data te informeren.
Auteur
Bronvermeldingen
1. Onze modellen zijn niet bedoeld om medische diagnoses te stellen, dus onze dataset voor gezondheidsvragen is niet bedoeld om die capaciteit te testen.


