రీజనింగ్ మోడల్స్ తమ చైన్ ఆఫ్ థాట్ను నియంత్రించడంలో ఇబ్బంది పడతాయి, మరియు అది మంచిదే.
అత్యాధునిక మోడల్స్లోని ఒక పరిమితి AI సేఫ్టీకి ఎందుకు నమ్మకాన్ని ఇస్తుంది.
AI ఏజెంట్లు మరింత క్లిష్టమైన మరియు స్వతంత్ర టాస్క్లను నిర్వహించే సామర్థ్యం పెరుగుతున్న కొద్దీ, వారి ప్రవర్తనపై నమ్మదగిన పర్యవేక్షణను కొనసాగించడం మరింత ముఖ్యమవుతుంది. మా iterative deployment సిద్ధాంతానికి అనుగుణంగా, సిస్టమ్లు నిజ జీవిత పరిస్థితుల్లో ఎలా ప్రవర్తిస్తాయో మేము అధ్యయనం చేస్తాము మరియు సామర్థ్యాలు అభివృద్ధి చెందుతున్న కొద్దీ సేఫ్గార్డ్లను నిరంతరం మెరుగుపరుస్తాము. దీనికి మద్దతుగా, మా సేఫ్టీ అప్రోచ్ defense-in-depth విధానాన్ని ఉపయోగిస్తుంది. ఇందులో సేఫ్టీ ట్రైనింగ్, బిహేవియరల్ టెస్టింగ్, ఏజెంటిక్ కోడ్ రివ్యూ(కొత్త విండోలో తెరుచుకుంటుంది), మరియు చైన్-ఆఫ్-థాట్ (CoT) మానిటరింగ్. వంటి పరస్పరం అనుబంధమైన అనేక రక్షణ లేయర్లు ఉంటాయి. CoT మానిటరింగ్ టాస్క్లను పూర్తి చేసే సమయంలో ఏజెంట్లు రూపొందించే రీజనింగ్ స్టెప్లను విశ్లేషిస్తుంది. ఈ రీజనింగ్ ట్రేస్లు ట్రైనింగ్ మరియు డిప్లాయ్మెంట్ రెండింటిలోనూ విలువైన సంకేతాలను అందించగలవు. దీంతో మానిటరింగ్ సిస్టమ్లు ఏజెంట్ ప్రవర్తన అసురక్షితంగా ఉండే అవకాశం ఉన్నప్పుడు లేదా వినియోగదారు ఉద్దేశించిన లక్ష్యాలకు అనుగుణంగా లేనప్పుడు గుర్తించడంలో సహాయపడుతుంది.
ప్రస్తుతం, మోడళ్ల రీజనింగ్ సాధారణంగా అర్థం చేసుకోగలిగేలా ఉంటుంది మరియు సులభంగా మానిటర్ చేయగలిగేదిగా కనిపిస్తోంది. అయితే భవిష్యత్తులో, వివిధ కారణాల వల్ల(కొత్త విండోలో తెరుచుకుంటుంది). ఈ మానిటరబిలిటీ తగ్గిపోవచ్చు లేదా పనిచేయకపోవచ్చు. ఇక్కడ మేము అలాంటి ఒక పరిస్థితిపై దృష్టి పెడుతున్నాం: ఏజెంట్లు తమను మానిటర్ చేస్తున్నారని తెలుసుకున్నప్పుడు, తమ రీజనింగ్ను ఉద్దేశపూర్వకంగా మార్చడం లేదా దాచడం చేసే సామర్థ్యం పొందితే, ఈవాల్యుయేషన్లు ఒక సిస్టమ్ యొక్క అలైన్మెంట్ లేదా సేఫ్టీని అతిగా అంచనా వేయవచ్చు, అలాగే మానిటరింగ్ సిస్టమ్లు తక్కువ నమ్మదగినవిగా మారవచ్చు.
ఈ పనిలో, ప్రస్తుత రీజనింగ్ మోడళ్లు తమ చైన్-ఆఫ్-థాట్ను మానిటరబిలిటీ తగ్గే విధంగా నియంత్రించగలవా అనే విషయాన్ని మేము అధ్యయనం చేస్తున్నాము. AI సిస్టమ్లు మరింత సామర్థ్యవంతంగా మారుతున్నప్పుడు కూడా CoT మానిటరింగ్ ఒక బలమైన సేఫ్గార్డ్గా కొనసాగేందుకు ఈ సామర్థ్యాన్ని అర్థం చేసుకోవడం చాలా ముఖ్యమైనది. మా పరిశోధనలో, తమను మానిటర్ చేస్తున్నారని చెప్పినా కూడా ప్రస్తుత రీజనింగ్ మోడళ్లు తమ CoTలను నియంత్రించడంలో ఇబ్బంది పడుతున్నాయని మేము గమనించాము. పెద్ద మోడళ్లలో కంట్రోలబిలిటీ ఎక్కువగా ఉన్నప్పటికీ, మోడళ్లను ఎక్కువసేపు రీజనింగ్ చేయమని అడిగినప్పుడు లేదా అదనపు పోస్ట్-ట్రైనింగ్ చేసినప్పుడు అది తగ్గుతుంది. మా ఫలితాలు సూచిస్తున్నది ఏమిటంటే, ప్రస్తుతం CoT కంట్రోలబిలిటీ, CoT మానిటరబిలిటీకి పెద్ద ప్రమాదాన్ని కలిగించే అవకాశం తక్కువ. అయితే మోడళ్లు అభివృద్ధి చెందుతున్న కొద్దీ నిరంతర ఈవాల్యుయేషన్ చేయడం చాలా ముఖ్యంగా ఉంటుంది.
చైన్-ఆఫ్-థాట్ అనేది ఒక AI ఏజెంట్ ఒక టాస్క్ను పరిష్కరిస్తున్నప్పుడు రూపొందించే మధ్యంతర రీజనింగ్ స్టెప్లను సూచిస్తుంది. ఈ రీజనింగ్ ట్రేస్లు ఉపయోగకరమైన సేఫ్టీ సిగ్నల్లను అందించగలవు, దీని వల్ల మానిటరింగ్ సిస్టమ్లు ఏజెంట్ ప్రవర్తన సురక్షితంగా ఉందా లేదా వినియోగదారు ఉద్దేశించిన లక్ష్యాలకు అనుగుణంగా ఉందా అనే విషయాన్ని అంచనా వేయడంలో సహాయపడతాయి.
CoT కంట్రోలబిలిటీ అనేది ఒక రీజనింగ్ మోడల్ తన CoT లక్షణాలను మానిటరబిలిటీ తగ్గే విధంగా నియంత్రించే సామర్థ్యాన్ని సూచిస్తుంది. ప్రాక్టికల్ పరిస్థితుల్లో మానిటర్లను తప్పించుకోవడానికి ఉండే అన్ని వాస్తవిక ప్రోత్సాహాల పరిధిలో ఈ సామర్థ్యాన్ని కొలవడం సవాలుగా ఉంటుంది. అందువల్ల, మేము ఒక ప్రాక్టికల్ ప్రాక్సీని ఉపయోగిస్తాము: మోడల్ తన CoT గురించి వినియోగదారు ఇచ్చిన సూచనలను ఎంతవరకు అనుసరిస్తుందో కొలుస్తాము. ఉదాహరణకు, మోడల్ కేవలం కనిపించే అవుట్పుట్ను మార్చడమే కాకుండా, తన అంతర్గత రీజనింగ్పై ప్రభావం చూపే సూచనలను అనుసరించగలదా అనే విషయాన్ని పరీక్షిస్తాము—ఉదాహరణకు కేవలం లోయర్కేస్ అక్షరాలను ఉపయోగించడం, కొన్ని కీవర్డ్లను తప్పించడం, లేదా నిర్దిష్ట పదబంధాలను జోడించడం వంటి సూచనలు.
దీనిని అధ్యయనం చేయడానికి, మేము CoT-Control, అనే ఓపెన్-సోర్స్ ఈవాల్యుయేషన్ సూట్ను పరిచయం చేస్తున్నాము. ఇది రీజనింగ్ మోడళ్ల CoT కంట్రోలబిలిటీని కొలవడానికి రూపొందించబడింది. CoT-Controlలో స్థాపిత బెంచ్మార్క్ల నుంచి రూపొందించిన 13,000 కంటే ఎక్కువ టాస్క్లు ఉన్నాయి: GPQA, MMLU-Pro, HLE, BFCL మరియు SWE-Bench Verified. ప్రతి టాస్క్ ఒక బెంచ్మార్క్ సమస్యను ఒక CoT సూచనతో జతచేసి రూపొందించబడుతుంది. ఉదాహరణకు, CoTలో సమస్యకు సంబంధించిన కొన్ని కీవర్డ్లను తప్పించడం, కేవలం లోయర్కేస్ అక్షరాలను మాత్రమే ఉపయోగించడం, లేదా ప్రతి వాక్యానికి ఒక నిర్దిష్ట పదాన్ని జోడించడం వంటి సూచనలు.
మేము 13 రీజనింగ్ మోడళ్లపై ఈవాల్యుయేషన్లు నిర్వహించాము మరియు అవన్నీ తమ CoTలను నమ్మదగిన విధంగా నియంత్రించడంలో ఇబ్బంది పడుతున్నాయని గమనించాము. మోడల్ మా CoT సూచనలను విజయవంతంగా అనుసరించిన రీజనింగ్ ట్రేస్ల వాటాను ఆధారంగా కంట్రోలబిలిటీని కొలుస్తాము. ఫ్రంట్ియర్ మోడళ్లలో CoT కంట్రోలబిలిటీ స్కోర్లు తక్కువగా ఉన్నాయి, అవి 0.1% నుంచి ప్రారంభమై మేము పరీక్షించిన ఏ ప్రస్తుత ఫ్రంట్ియర్ మోడల్కైనా గరిష్టంగా 15.4% ను
ఈ అసమర్థత టాస్క్ను తప్పుగా అర్థం చేసుకోవడం వల్ల ఏర్పడినది కాదు: మోడళ్లు తమ CoTలో తాము ఇచ్చిన CoT సూచనలను పాటించడంలో విఫలమవుతున్నామని తరచుగా గుర్తిస్తాయి మరియు—ఆ విషయం గ్రహించిన తర్వాత కూడా—అవి ఇంకా విఫలమవుతూనే ఉంటాయి. ఈ ఆశ్చర్యకరంగా తక్కువ పనితీరు CoT మానిటరబిలిటీకి మంచి వార్తగా భావించవచ్చు: ఎందుకంటే ఇది మోడళ్లకు తమ రీజనింగ్ను దాచడం లేదా మార్చి మా మానిటర్లను తప్పించుకునే సామర్థ్యం కూడా తక్కువగా ఉండవచ్చని సూచిస్తుంది.
అనేక ఫ్రంటియర్ మోడళ్లు తమ అవుట్పుట్లు మరియు CoTsను నియంత్రించే సామర్థ్యం. తక్కువ CoT కంట్రోలబిలిటీ, ఎక్కువ మానిటరబిలిటీతో అనుబంధంగా ఉంటుంది; అందువల్ల భద్రత కూడా ఎక్కువగా ఉంటుంది.
CoT కంట్రోలబిలిటీ వైఫల్యాల ఉదాహరణలు
సంక్షిప్తత కోసం ప్రశ్నలను పునర్వ్యాఖ్యానించాము.
GPT-5.2 Thinking
GPT‑5.2 Thinking తాను నిషేధించబడిన పదం (red) ఉపయోగించకూడదని గ్రహిస్తుంది, కానీ ఇప్పటికే ఉపయోగించానని గాబరాగా భావిస్తూ దాన్ని ఇంకా 4 సార్లు ఉపయోగిస్తుంది.
మోడల్ పరిమాణం పెరుగుతున్న కొద్దీ కంట్రోలబిలిటీ పెరుగుతున్నట్లు మేము గమనించినప్పటికీ, పోస్ట్-ట్రైనింగ్ పరిమాణం మరియు టెస్ట్-టైమ్ కంప్యూట్ పెరిగే కొద్దీ అది వేగంగా తగ్గుతున్నట్లు కూడా కనుగొన్నాము. రెండు ఓపెన్-వెయిట్ మోడల్ కుటుంబాలను పరిశీలించినప్పుడు, పెద్ద మోడళ్లు తమ చైన్-ఆఫ్-థాట్ను నియంత్రించడంలో కొంత మెరుగ్గా ఉన్నాయని గమనించాము, అయితే పరిమాణం మరింత పెరిగినప్పుడు ఆ ప్రభావం తగ్గింది. కానీ మోడళ్లకు ఎక్కువసేపు రీజనింగ్ చేయడానికి అవకాశం ఇచ్చినప్పుడు, అవి ఆ చైన్-ఆఫ్-థాట్ను నియంత్రించే సామర్థ్యం తగ్గిపోయింది. OLMo-3-7B-RL-Zero-Math పై RL ట్రైనింగ్లో కూడా ఇదే విధమైన ధోరణి కనిపించింది: ట్రైనింగ్ జరుగుతున్న సమయంలో దాని కంట్రోలబిలిటీ స్కోర్ పది రెట్లకంటే ఎక్కువగా తగ్గింది.
ఓపెన్-వెయిట్ మోడళ్లలో స్కేల్ పెరిగే కొద్దీ కంట్రోలబిలిటీ పెరుగుతుంది, కానీ ఎక్కువసేపు రీజనింగ్ చేయడం మరియు మరింత RL ట్రైనింగ్తో అది తగ్గుతుంది.
మానిటర్లను తప్పించుకునేందుకు ఉండే వాస్తవిక ప్రోత్సాహాలను అనుకరించడానికి, మోడళ్లకు తాము మానిటర్ చేయబడుతున్నారని లేదా ఈవాల్యుయేట్ చేయబడుతున్నారని చెప్పినప్పుడు వాటి కంట్రోలబిలిటీని మేము కొలుస్తాము. ఇది కంట్రోలబిలిటీని స్వల్పంగా (కానీ గమనించదగ్గ విధంగా) పెంచుతుంది. అలాగే, ఎక్కువ కంట్రోలబిలిటీని ఉత్పత్తి చేసే ప్రాంప్ట్లను కనుగొనడానికి మేము ఆటోమేటెడ్ ప్రాంప్ట్ ఆప్టిమైజేషన్ను ఉపయోగిస్తాము. ఆప్టిమైజర్ ట్రైనింగ్ సెట్పై కంట్రోలబిలిటీని పెంచగలిగినప్పటికీ, ఈ మెరుగుదలలు కొత్త సూచన రకాలపై (ఉదాహరణకు పదాల మధ్య ఖాళీలు లేకుండా ఉండాలని కోరే సూచనలు) బాగా ట్రాన్స్ఫర్ కావు.
CoT కంట్రోలబిలిటీని అడ్వర్సరీయల్ పరిస్థితుల్లో కూడా పరీక్షిస్తాము. “మానిటర్ అవేర్నెస్” అంటే మోడళ్లకు వారి CoT మానిటర్ చేయబడుతున్నాయని తెలియజేసే సెట్టింగ్స్. “ఇవాల్ అవేర్నెస్” అంటే CoT కంట్రోలబిలిటీ కోసం వారు ఈవాల్యుయేట్ చేయబడుతున్నారని మోడళ్లకు తెలియజేసే సెట్టింగ్స్.
CoT-Control లోని టాస్క్లు ప్రాక్టికల్ ప్రాక్సీలు మాత్రమే: ఒక ఆదర్శ CoT కంట్రోలబిలిటీ ఈవాల్యుయేషన్లో, సహజంగా మిస్అలైన్ అయిన లక్ష్యాలను అనుసరించే మోడళ్లు మానిటరింగ్ను తప్పించుకోవడానికి తమ CoTను నియంత్రించగలవా అనే విషయాన్ని పరీక్షించాలి. దానికి బదులుగా, మేము ఏజెంట్లు తమ CoT గురించి ఇచ్చిన సూచనలను అనుసరించే సామర్థ్యాన్ని కొలిచి, వారు తమ CoTలను ఎంతవరకు నియంత్రించగలరో అంచనా వేస్తాము. అదనంగా, మోడళ్లు తమ CoTలోని కొన్ని లక్షణాలను ఇతర లక్షణాల కంటే మెరుగ్గా నియంత్రించగలవు, మరియు CoT-Control పరిమిత సంఖ్యలోని కంట్రోలబిలిటీ రకాలనే కొలవడం వల్ల కంట్రోలబిలిటీని ఎక్కువగా లేదా తక్కువగా అంచనా వేయవచ్చు.
తక్కువ CoT కంట్రోలబిలిటీ ఒక బగ్ కాదు, అది ఒక ఫీచర్. ప్రస్తుత రీజనింగ్ మోడళ్లలో తక్కువ కంట్రోలబిలిటీ ఉండటం వల్ల CoT మానిటరింగ్ ఒక సేఫ్గార్డ్గా మరింత నమ్మదగినదిగా మారుతుంది. అదే సమయంలో, ప్రస్తుత రీజనింగ్ మోడళ్లలో కంట్రోలబిలిటీ ఎందుకు తక్కువగా ఉందో—లేదా మోడళ్లు మరింత సామర్థ్యవంతంగా మారుతున్నప్పుడు ఈ లక్షణం కొనసాగుతుందో లేదో—మాకు ఇంకా పూర్తిగా అర్థం కాలేదు. అందువల్ల, CoT కంట్రోలబిలిటీ ఈవాల్యుయేషన్లను ఒక canary evalగా చూడవచ్చు: మోడళ్లు తమ రీజనింగ్ను ఆకృతీకరించడం లేదా దాచడం లో మెరుగుపడుతున్నాయా అనే విషయానికి ఇది ఒక ప్రారంభ హెచ్చరిక సంకేతంగా పనిచేస్తుంది.
మా ఫలితాలు సూచిస్తున్నది ఏమిటంటే ప్రస్తుతం CoT కంట్రోలబిలిటీ, CoT మానిటరబిలిటీకి పెద్ద ప్రమాదాన్ని కలిగించే అవకాశం తక్కువ. అయితే తక్కువ కంట్రోలబిలిటీ ఒక్కటే ఉన్నంత మాత్రాన అధిక మానిటరబిలిటీకి హామీ ఇవ్వదు, ఎందుకంటే CoTలపై నేరుగా ఉండే ఆప్టిమైజేషన్ ఒత్తిడి వంటి ఇతర విధానాల కారణంగా మానిటరబిలిటీ ఇంకా తగ్గే అవకాశం ఉంది.
ఈ మార్పులను కాలక్రమంలో ట్రాక్ చేయడానికి, భవిష్యత్ ఫ్రంట్ియర్ మోడళ్ల కోసం విడుదల చేసే సిస్టమ్ కార్డ్లలో CoT మానిటరబిలిటీ తో పాటు CoT కంట్రోలబిలిటీని కూడా రిపోర్ట్ చేయడం ప్రారంభించబోతున్నాము. ఇది GPT‑5.4 Thinkingతో ప్రారంభమవుతుంది. అలాగే ఫ్రంటియర్ రీజనింగ్ మోడళ్ల CoTలపై నేరుగా ఆప్టిమైజేషన్ ఒత్తిడిని వర్తింపజేయకూడదనే మా కొనసాగుతున్న కమిట్మెంట్ పై ఆధారపడి ఉంటుంది.
రచయితలు
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


