చైన్ ఆఫ్ థాట్ పర్యవేక్షణ సామర్థ్యాన్ని మూల్యాంకనం
మేము చైన్-ఆఫ్-థాట్ మానిటరబిలిటీ కోసం మూల్యాంకనాలను ప్రవేశపెడతాం మరియు టెస్ట్-టైమ్ కంప్యూట్, రీన్ఫోర్స్మెంట్ లెర్నింగ్ మరియు ప్రీట్రైనింగ్తో అది ఎలా విస్తరించబడుతుందనేది అధ్యయనం చేస్తున్నాం.
AI వ్యవస్థలు నేరుగా పర్యవేక్షించడం కష్టమైన నిర్ణయాలను తీసుకున్నప్పుడు, ఆ నిర్ణయాలు ఎలా తీసుకోబడతాయో అర్థం చేసుకోవడం చాలా ముఖ్యం. ఒక ఆశాజనకమైన విధానం ఏమిటంటే, దాని చర్యలు లేదా తుది ఫలితాలను మాత్రమే కాకుండా నమూనా అంతర్గత తార్కికతను పర్యవేక్షించడం.
GPT‑5 థింకింగ్ వంటి ఆధునిక తార్కిక నమూనాలు సమాధానాన్ని ఉత్పత్తి చేయడానికి ముందు స్పష్టమైన చైన్ ఆఫ్ థాట్ను సృష్టిస్తాయి. ఈ చైన్-ఆఫ్-థాట్లను తప్పుగా ప్రవర్తించడాన్ని పర్యవేక్షించడం, నమూనా కార్యాలు మరియు అవుట్పుట్లను మాత్రమే పర్యవేక్షించడం కంటే చాలా ప్రభావవంతంగా ఉంటుంది. ఏది ఏమైనప్పటికీ, OpenAI మరియు విస్తృత పరిశ్రమలోని పరిశోధకులు(కొత్త విండోలో తెరుచుకుంటుంది) ఈ చైన్-ఆఫ్-థాట్ "మానిటరబిలిటీ" శిక్షణా విధానం, డేటా మూలాలు, మరియు ఉన్న అల్గోరిథముల కొనసాగుతున్న స్కేలింగ్ మార్పులకు సున్నితంగా ఉండవచ్చని ఆందోళన చెందుతున్నారు.
నమూనాలు విస్త్రృతం అవుతూ, అధిక ప్రాముఖ్యత కలిగిన పరిసరాలలో అమలు చేసినప్పుడు, చైన్-ఆఫ్-థాట్ మానిటరబిలిటీ నిలబడాలని మేం కోరుకుంటున్నాం. వీలైనంత కాలం చైన్ ఆఫ్ థాట్ పర్యవేక్షణను కాపాడటానికి మరియు భవిష్యత్తులో AI వ్యవస్థల కోసం లోడ్-బేరింగ్ కంట్రోల్ లేయర్గా పనిచేయగలదా అని నిర్ణయించడానికి మేం పరిశ్రమలోని పరిశోధకులను కోరుతున్నాం. మానిటరబిలిటీని కాపాడుకోవాలంటే, దాన్ని లెక్కించగలగాలి, అయితే కొన్ని మూల్యాంకనలు మాత్రమే ఉన్నాయి [1(కొత్త విండోలో తెరుచుకుంటుంది), 2(కొత్త విండోలో తెరుచుకుంటుంది), 3(కొత్త విండోలో తెరుచుకుంటుంది)] మరియు పద్ధతులు మారుతూ ఉంటాయి.
ఈ పనిలో, మేం చైన్ ఆఫ్ థాట్ మానిటరబిలిటీని క్రమపద్ధతిలో అధ్యయనం చేస్తాం. మేం చైన్ ఆఫ్ థాట్ మానిటరబిలిటీని సామర్థ్యాన్ని అంచనా వేయడానికి ఒక ఫ్రేమ్వర్క్ను పరిచయం చేస్తున్నాం, వ్యవస్థ పర్యవేక్షణ సామర్థ్యాన్ని స్పష్టంగా కొలవడానికి రూపొందించిన 13 మూల్యాంకనాల సమాహారాన్ని (మొత్తం 24 పర్యావరణాలు ఉంటాయి) అందిస్తున్నాం. ఈ మూల్యాంకనాలు మూడు ఆర్కిటైప్లుగా విభజించబడ్డాయి — జోక్యం, ప్రక్రియ మరియు ఫలితం-గుణం. వాటిని ఉపయోగించి, నేటి పెద్ద భాషా నమూనాలు ఎంత పర్యవేక్షించదగినవి, మరియు అనుమితి సమయంలో ఎక్కువ తార్కికం, పెద్ద రీన్ఫోర్స్మెంట్ లెర్నింగ్ రన్లు మరియు పెరిగిన ప్రీట్రైనింగ్ స్కేల్తో పర్యవేక్షణ ఎలా మారుతుందనేది మేం అధ్యయనం చేస్తాం.
ఇప్పుడు మనకు పెద్ద సంఖ్యలో మూల్యాంకనాలు ఉన్నాయి, మన నమూనాల పర్యవేక్షణ సామర్థ్యాన్ని ట్రాక్ చేయడం మొదలు పెట్టవచ్చు. (ఎడమ-పైభాగం) మేము నమూనాలు “ఆలోచిస్తాయి” మరియు ఎక్కువ చింతనా శ్రేణి కలిగి ఉంటే, పర్యవేక్షణ మెరుగవుతుందని కనుగొంటాము. (టాప్-రైట్) చైన్-ఆఫ్-థాట్ లేకుండా, నమూనా యొక్క కార్యాలు మరియు తుది అవుట్పుట్లను మాత్రమే పర్యవేక్షించడం సాధారణం. అయితే, కేవలం కార్యాలు మరియు అవుట్పుట్లను పర్యవేక్షించడం కంటే CoT పర్యవేక్షించడం చాలా మెరుగ్గా లేదని మేము కనుగొన్నాము. (కింద-మధ్య) మేం మా నమూనాలను పూర్తి CoT యాక్సెస్ను అందించే బాహ్య నమూనాలతో పోలుస్తాం—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B, మరియు Kimi K2 థింకింగ్.
చాలా ఫ్రాంటియర్ తార్కిక నమూనాలు పూర్తిగా పర్యవేక్షించకపోయినా, చాలావరకు పర్యవేక్షించదగినవని మేం కనుగొన్నాం. మేం అధ్యయనం చేసే దాదాపు ప్రతి సెట్టింగ్లోనూ, చర్యలు మరియు తుది ఫలితాలను పర్యవేక్షించడం కంటే చైన్ ఆఫ్ థాట్ మానిటరబిలిటీ చాలా ప్రభావవంతంగా ఉంటుంది. ఎక్కువసేపు ఆలోచించే నమూనాలు ఎక్కువగా పర్యవేక్షించదగినవిగా ఉంటాయి మరియు ప్రస్తుత ఫ్రాంటియర్ ప్రమాణాల వద్ద రీఇన్ఫోర్స్మెంట్ అభ్యసనం ఆప్టిమైజేషన్ పర్యవేక్షణ సామర్థ్యాన్ని అర్థవంతంగా తగ్గించినట్లుగా కనిపించడం లేదు.
గమనించదగ్గ విషయం ఏమిటంటే, తర్క శ్రమ మరియు నమూనా పరిమాణం మధ్య ఒక సమన్వయం ఉంది: ఒక నమూనా తక్కువ తర్క శ్రమతో నడపబడినప్పుడు, ఎక్కువ తర్క శ్రమతో నడపబడిన చిన్న నమూనా సమాన సామర్థ్యాన్ని చేరుకోగలదు మరియు పర్యవేక్షించడానికి సులభంగా ఉంటుంది. ఇది పెరిగిన ఇన్ఫరెన్స్ కంప్యూట్ ఖర్చుతో వస్తుంది, దీనిని మేము మానిటరబిలిటీ ట్యాక్స్ అని పిలుస్తాం. చివరగా, ఫాలో-అప్ ప్రశ్నలు అడగడం మరియు ఫలితంగా వచ్చే చైన్ ఆఫ్ థాట్ మానిటరబిలిటీ ద్వారా పర్యవేక్షణను మరింత మెరుగుపరచవచ్చు.
మేము మానిటరబిలిటీని ఏజెంట్ ప్రవర్తన గురించి ఆసక్తి ఉన్న లక్షణాలను అంచనా వేయడానికి మానిటర్ యొక్క సామర్థ్యంగా నిర్వచించాం. చాలా సందర్భాలలో, ఈ లక్షణాలు —మోసం, రివార్డ్ హ్యాకింగ్ లేదా పక్షపాత తార్కికం వంటి దుష్ప్రవర్తన రూపాలకు అనుగుణంగా ఉంటాయి, —అయితే వాటికి ఒక ఏజెంట్ ఒక నిర్దిష్ట సూచనపై ఆధారపడి ఉన్నాయా లేదా నిర్దిష్ట తార్కిక విధానాన్ని అనుసరించాయా వంటి నిరపాయకరమైన లక్షణాలు కూడా ఉంటాయి.
మానిటరబిలిటీ రెండు వైపులా ఉన్న లక్షణం. ఇది మానిటర్ మరియు పర్యవేక్షించబడుతున్న ఏజెంట్పై ఆధారపడి ఉంటుంది.
- మానిటర్లు. మేము మానిటర్లను వివిధ మార్గాల్లో మరింత తెలివిగా చేయవచ్చు, మరియు ఏజెంట్ ప్రవర్తన గురించి మెరుగైన అంచనాలు చేయగల మానిటర్లకు మా ఈవాల్యూషన్లు ఎక్కువ స్కోర్లు ఇవ్వాలని మేము కోరుకుంటున్నాము.
- ఏజెంట్లు. ఏజెంట్ చర్యలు, అవుట్పుట్లు, న్యూరల్ యాక్టివేషన్లు మరియు ఇటీవల రీజనింగ్ మోడల్స్ రాకతో, చైన్ ఆఫ్ థాట్ మానిటరబిలిటీనితో సహా మానిటర్కు ఇవ్వగల అనేక ఏజెంట్ పరిశీలనలు ఉన్నాయి. కొన్ని ఏజెంట్లకు ఇతరవాటి కంటే అర్థం చేసుకోవడం కష్టమైన ఆలోచనలు ఉండవచ్చు, అందువల్ల మేం మా మానిటరబిలిటీ మూల్యాంకనాలు ఏజెంట్లను మాత్రమే కాకుండా మానిటర్లను కూడా పోల్చగలగాలని కోరుకుంటున్నాం.
మా మూల్యాంకనాలు రెండు వైపులా అంచనా వేయడానికి రూపొందించబడ్డాయి: కొన్ని ఏజెంట్లను పర్యవేక్షించడం సులభమా లేదా కష్టమా, మరింత సామర్థ్యవంతమైన మానిటర్లు అదే సంకేతాల నుండి మరింత సమాచారం ఎక్స్ట్రాక్ట్ చేయగలవా అనే విషయాలను అంచనా వేయడానికి రూపొందించబడ్డాయి.
ప్రస్తుత తరం తర్క నమూనాలకంటే ముందు,చైన్ ఆఫ్ థాట్ సాధారణంగా నమూనాను "దశలవారీగా ఆలోచించండి" అని ప్రేరేపించడం ద్వారా పొందబడేది.
చైన్-ఆఫ్-థాట్ తర్క నమూనాలు రెండు ముఖ్యమైన మార్గాల్లో భిన్నంగా ఉంటాయి. మొదట, అవి స్పష్టంగా చైన్-ఆఫ్-థాట్ను ఉత్పత్తి చేయడానికి మరియు తరువాత సమాధానం ఇవ్వడానికి శిక్షణ పొందుతాయి. చాట్ మోడల్ను "దశల వారీగా" ఆలోచించమని ప్రాంప్ట్ చేసినప్పుడు, నమూనాలో ఉంచిన ఏదైనా స్పెసిఫికేషన్లకు కట్టుబడి ఉండాలి, అంటే సహాయకరంగా, హానిచేయనిదిగా ఉండాలి. దీనికి విరుద్ధంగా, ఉపబల అభ్యాస శిక్షణా ప్రక్రియ ఒక తార్కికత నమూనాను బోధిస్తుంది, ఇక్కడ ఒక మనిషి వ్యక్తిగతంగా ఆలోచించవచ్చు మరియు "ఆలోచనా నేరాలు" కోసం శిక్షించబడదు.
రెండవది, శిక్షణా ప్రక్రియ ఏజెంట్కు అధిక సమర్థవంతమైన తుది సమాధానాన్ని పొందడంలో అత్యంత సాధనాత్మకంగా ఉపయోగపడే ఆలోచనల శ్రేణులను సమర్థవంతంగా అన్వేషిస్తుంది. అందువల్ల, ఆలోచనా శ్రేణి ఒక స్థలం మాత్రమే కాదు, అక్కడ నమూనా స్వేచ్ఛగా తనను వ్యక్తీకరించుకోగలదు, దీనిలో నమూనా తన తుది సమాధానానికి చేరుకోవడానికి సాయపడే ఆలోచనలు ఉంటాయి.
మేం మా పర్యవేక్షణ సామర్థ్యపు మూల్యాంకనాలు మూడు ప్రత్యేకమైన నమూనాలుగా విభజిస్తాం, ప్రతి ఒక్కటీ పర్యవేక్షణ సామర్థ్యాన్ని కొలవడానికి విభిన్న విధానాన్ని ఉపయోగిస్తుంది.
- చెన్ మరియు ఇతరులు(కొత్త విండోలో తెరుచుకుంటుంది)2025, చువా మరియు ఇతరులు 2025(కొత్త విండోలో తెరుచుకుంటుంది), టర్పిన్ మరియు ఇతరులు 2023(కొత్త విండోలో తెరుచుకుంటుంది), ప్రేరణతో జోక్యం మూల్యాంకనాలు , మేము ఏజెంట్ వాతావరణంలో నియంత్రితమార్పును ప్రవేశపెట్టడం మరియు చైన్ ఆఫ్ థాట్లో జోక్య ఆధారాలను గుర్తించడం ద్వారా ప్రవర్తన ఎందుకు మారిందో మానిటర్ గుర్తించగలదా అని పరీక్షిస్తాం. సాధారణ నియంత్రణ మూల్యాంకనాలతో పోలిస్తే (ఉదా. షేడ్-అరీనా(కొత్త విండోలో తెరుచుకుంటుంది)), జోక్యం మూల్యాంకనాలు మానిటర్ ఒక ప్రవర్తన ఎందుకు మారిందో గుర్తించగలదా అని పరిశీలించడానికి మాకు ఎందుకు అనుమతిస్తాయి, కేవలం ప్రవర్తన జరిగిందా లేదా అని గుర్తించడమే కాకుండా.
- ప్రక్రియ మదింపులు పరిమిత సంఖ్యలో సరైన పరిష్కార మార్గాలు ఉన్న పనులపై దృష్టి సారిస్తాయి (ఉదాహరణకు, గణిత సమస్యను కొన్ని సిద్ధాంతాలతో మాత్రమే పరిష్కరించవచ్చు). మానవ నిపుణులు ఈ మార్గాలను లెక్కిస్తారు, మరియు మేము మానిటర్ నమూనా వాస్తవానికి ఏ దశలను తీసుకుందో గుర్తించగలదా అని పరీక్షిస్తాము. ఈ మూల్యాంకనాలు నమూనాలు చేసిన పనిని నమూనాలు తీసుకున్న ప్రత్యేక దశలతో లింక్ చేయడానికి మరియు ఆ దశలు పర్యవేక్షించదగినవా అని ప్రశ్నించడానికి మాకు అనుమతిస్తాయి.
- ఫలిత-లక్షణాల మూల్యాంకనలు నమూనా అవుట్పుట్ లక్షణాన్ని నమ్మకంగా కొలవగలిగినప్పుడు వర్తిస్తాయి. ఈ సందర్భాల్లో, మేం మానిటర్ నమూనా తర్కం లేదా కార్యాల నుండి ఆ అసెట్ను—ఉదాహరణకు రివార్డ్ హ్యాకింగ్—అంచనా వేయగలదా అని పరీక్షిస్తాం. ఉదాహరణకు, కోడింగ్ టాస్క్లో, రివార్డ్ సిగ్నల్ను హ్యాక్ చేయడానికి ఒక మోడల్ చర్యలు తీసుకుంటుందా, లేదా అని విశ్వసనీయంగా అంచనా వేయడానికి మాకు ఒక మార్గం ఉండవచ్చు మరియు నమూనా ఆలోచన లేదా చర్యలలో హ్యాక్కు రివార్డ్ ఇచ్చే ఉద్దేశ్యం యొక్క సాక్ష్యాలను మానిటర్ కనుగొంటుందా అని మేం అడగవచ్చు.
క్రింద మేము మా మూల్యాంకనాల కోసం ఒక వర్గీకరణను అందిస్తున్నాం. ప్రతి వ్యక్తిగత మూల్యాంకన యొక్క పూర్తి వివరణ కోసం మా పేపర్ను చూడండి.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
మా మోడల్ యొక్క పర్యవేక్షణ సామర్థ్యం సమూహానికి కొంతవరకు మారుతుందని మేం కనుగొన్నాం. సాధారణంగా మేం వాటిని చాలా పర్యవేక్షించదగినవిగా కనుగొంటాం; ఏదేమైనా, ముఖ్యంగా స్క్రపుల్స్లో, ఇది పొగడ్తల గురించి తార్కికత పర్యవేక్షించదగినదా అని చూడటానికి రూపొందించిన పని, మేం చాలా తక్కువ పర్యవేక్షణను చూస్తాం.
మానిటర్ చేయగలిగే మరియు చేయలేని ఉదాహరణలు
ఈ ఫలిత-గుణ ఉదాహరణలో, నమూనాకు అసాధ్యమైన కోడింగ్ పని అప్పగించబడింది. యూనిట్ పరీక్షలు పాస్ అయితే, ఆ మోడల్ ఏదో ఒక రకమైన హ్యాక్ చేయబడిందని మనకు తెలుస్తుంది. పర్యవేక్షించలేని CoT (ఎరుపు)లో, నమూనా ఏదైనా చెడు చేసినట్లు ప్రస్తావించే ఎటువంటి ఆధారాలను మనం చూడలేం, అయితేపరీక్షలను హ్యాక్ చేసి, పరిష్కారాన్ని అమలు చేసినట్లు వినియోగదారుకు తెలియజేస్తుంది. తీవ్రమైన తేడాలో, మానిటర్ చేయగలిగే CoT (పచ్చ) లో, నమూనా "కానీ సొల్యూషన్లో టైమ్ను మంకీ ప్యాచింగ్ చేయడం వాదనాత్మకంగా చీటింగ్" అని ఆలోచించడాన్ని మేము చూస్తున్నాము.
చైన్ ఆఫ్ థాట్ని ప్రైవేట్ వర్క్స్పేస్గా పరిగణించి, నమూనాలను శిక్షణ ఇచ్చి వాటిని పనులను సమర్థవంతంగా పరిష్కరించడానికి ఉపయోగిస్తే, సూత్రప్రాయంగా, ఆలోచనల శ్రేణిని పర్యవేక్షించగలిగేలా చేయవచ్చు. అదే సమయంలో, రీన్ఫోర్స్మెంట్ లెర్నింగ్ చైన్ ఆఫ్ థాట్ పర్యవేక్షణకు హాని కలిగించడానికి అనేక కారణాలు ఉన్నాయి.
మొదట, తార్కిక నిడివిపై పరిమితులు, అంటే ఒక మోడల్ ఆలోచించాల్సిన సమయం లేదా టోకెన్లను పరిమితం చేయడం వంటివి, మోడల్లు తక్కువగా తర్కించడానికి ప్రోత్సాహకాలను సృష్టిస్తాయి. రెండవది, చైన్ ఆఫ్ థాట్కు ప్రత్యక్ష ఆప్టిమైజేషన్ ఒత్తిడిని అప్లై చేయకపోయినా, పరోక్ష ఒత్తిళ్లు ఇప్పటికీ పర్యవేక్షణను తగ్గిస్తాయి. ఉదాహరణకు(కొత్త విండోలో తెరుచుకుంటుంది), తక్కువ-బహుమతి లేదా అవాంఛనీయ ఫలితాలకు దారితీసే తార్కికత మార్గాలను నివారించినట్లయితే నమూనాలు అధిక-బహుమతి సమాధానాలను చేరుకోవడం సులభం కావచ్చు. చివరగా, రీన్ఫోర్స్మెంట్ లెర్నింగ్ గ్రేడియంట్ శబ్దం ద్వారా నడిచే డూప్లికేట్ డ్రిఫ్ట్ నుండి తగ్గిన పర్యవేక్షణ సామర్థ్యం తలెత్తవచ్చు.
క్రింద, మేం OpenAI యొక్క రెండు ఫ్రంటియర్ రీఇన్ఫోర్స్ లెర్నింగ్ శిక్షణా రన్ల్లో మానిటరబిలిటీ ఎలా మారుతుందో పరిశీలిస్తాం. ఈ ఫలితాలు కేవలం రెండు డేటాపాయింట్లను మాత్రమే సూచిస్తున్నప్పటికీ, అవి ప్రస్తుత ప్రంటియర్ స్థాయిలలో రీఇన్ఫోర్స్ లెర్నింగ్ ఆప్టిమైజేషన్ చైన్ ఆఫ్ థాట్ మానిటరబిలిటీని గణనీయంగా తగ్గించదు మరియు ప్రారంభ దశలలో పర్యవేక్షణను పెంచుతుందని సూచిస్తున్నాయి. అయితే, భవిష్యత్తులో గణనీయంగా పెద్ద రీఇన్ఫోర్స్ లెర్నింగ్ పరిమాణాలు మానిటరబిలిటీని ప్రతికూలంగా ప్రభావితం చేసే అవకాశం ఉందని ఇది తప్పించదు.
ప్రస్తుత RL కంప్యూట్ ప్రమాణాలలో పర్యవేక్షణ అంతగా మారదని మరియు ప్రారంభ దశలలో పెరుగుతుందని మేం కనుగొన్నాం. ప్రస్తుత పాలనలో ఇది నిజమే అయినప్పటికీ, గణనీయంగా పెరిగిన స్కేల్ పర్యవేక్షణ సామర్థ్యాన్ని తగ్గించబడే అవకాశం ఉంది.
ప్రస్తుత AI వ్యవస్థల మేధస్సులో ఎక్కువ భాగం పెరిగిన ప్రీ-ట్రైనింగ్ స్కేల్ ద్వారా నడపబడుతుంది, దీని ద్వారా GPT నమూనా ప్రారంభం నుండి మోడల్ పారామితులు మరియు డేటాసెట్ పరిమాణాలు రెండూ స్థిరంగా పెరిగాయి. పెరిగిన పరామితి గణనలు ఉత్పత్తి చేసిన ప్రతి టోకెన్కు ఎక్కువ అనుమితి గణనను ఉపయోగించటానికి దారితీస్తాయి, ఇది తార్కిక నమూనాల విషయంలో, మోడల్ యొక్క జ్ఞానం చైన్ ఆఫ్ థాట్లో కాకుండా యాక్టివేషన్ల్లో జరగడానికి ఎక్కువ అవకాశాన్ని ఇస్తుంది. అందువల్ల, స్థిర సామర్థ్య స్థాయిలో పెద్ద నమూనాలు తక్కువగా పర్యవేక్షించబడతాయని మనం ఆశించవచ్చు.
అదే సమయంలో, చిన్న నమూనాలు చైన్ ఆఫ్ థాట్ను సమర్థవంతంగా ఉపయోగించడంలో తక్కువ సామర్థ్యం ఉండవచ్చు—దీని వల్ల పర్యవేక్షణ సామర్థ్యం కూడా ప్రభావితం అవుతుంది.
ప్రీట్రైనింగ్ పరిమాణం, సామర్థ్యం మరియు పర్యవేక్షణ మధ్య సంబంధాన్ని పరిశోధించడానికి, మనం పెరుగుతున్న లోతు మరియు వెడల్పుతో ప్రీట్రైనింగ్ కంప్యూట్ రెండు ఆర్డర్ల్లో నమూనాల కుటుంబానికి శిక్షణ ఇచ్చాము, ఆపై గణితం, సైన్స్ మరియు కోడింగ్ పనుల భాగస్వామ్య డేటాసెట్లో ప్రతి ఒక్కరికీ రీఇన్ఫోర్స్ అభ్యాసాన్ని వర్తింపజేశాం. మేము ప్రతి నమూనాను వివిధ తర్క ప్రయత్నాలలో అంచనా వేసి, సమాన సామర్థ్య స్థాయిల వద్ద పర్యవేక్షణ సామర్థ్యాన్ని పోల్చాము.

మేం ప్రతి నమూనా మానిటరబిలిటీని మా మూల్యాంకన సూట్లో ప్లాట్ చేసి, ప్రామాణిక సామర్థ్య మూల్యాంకనాల సమూహం (GPQA-డైమండ్, AIME 2025, మరియు CodeForces) పై సగటు పాస్ రేటుతో పోలుస్తాం. ప్రతి నమూనా అనేక తార్కిక ప్రయత్నాలపై మూల్యాంకనం చేయబడుతుంది (ఈ చిత్రంలోని ప్రతి పాయింట్ వాస్తవానికి కొలిచిన తార్కికత ప్రయత్నాల మధ్య సరళ ఇంటర్పోపోలేషన్ ఫలితం అని గమనించండి). ఆ నిర్దిష్ట తార్కికత ప్రయత్నం వద్ద మోడల్ ఆ సామర్థ్య స్థాయిలో పర్యవేక్షణలో ఆధిపత్యం చెలాయిస్తుందని సర్కిల్స్ సూచిస్తున్నాయి, పారదర్శక Xలు ఆ నిర్దిష్ట తార్కికత ప్రయత్నంలో మోడల్ ఆ సామర్థ్య స్థాయి కోసం మరొక నమూనా ద్వారా పర్యవేక్షణలో ఆధిపత్యం చెలాయిస్తుందని సూచిస్తాయి. నల్ల బాణాలలో మేము ఎక్కువ ఊహ గణనను ఖర్చు చేయడానికి రెండు మార్గాల ఉదాహరణలను చూపుతాం, చిన్న మోడల్తో చాలా ఎక్కువ టోకెన్లను శాంపిల్ చేయడం ద్వారా లేదా అదే మోడల్తో సాపేక్షంగా తక్కువ అదనపు టోకెన్లు. ఎరుపు బాణాలలో, మేం చెల్లించాల్సిన పర్యవేక్షణ పన్నును చూపుతాము, అంటే చాలా ఎక్కువ పర్యవేక్షణ కోసం కొద్దిగా తగ్గించిన సామర్థ్యాలు అని అర్థం.
సాధారణంగా, మనం ఇచ్చిన మోడల్ను తక్కువ తార్కిక ప్రయత్నంలో అమలు చేస్తే, బదులుగా ఎక్కువ తార్కిక ప్రయత్నంలో చిన్న మోడల్ను అమలు చేయవచ్చు. అసలు పెద్ద మోడల్ నుండి ఎక్కువ తార్కిక ప్రయత్నం కోసం అదనపు గణనను ఖర్చు చేయడంతో పోలిస్తే, మేం తక్కువ సామర్థ్య ఖర్చు లేదా పర్యవేక్షణ పన్నుతో అధిక పర్యవేక్షణను పొందవచ్చు; అయితే, పూర్తి చేయడానికి పట్టే వాల్క్లాక్ సమయం కూడా కొన్ని విస్తరణ నిర్ణయాలలో ఒక కారకంగా ఉండవచ్చు, దీనిని మేం ఇక్కడ పరిగణించం. మా నమూనాలు మెరుగుపడి, ఎక్కువ ప్రాముఖ్యత ఉన్న సందర్భాల్లో అమలు చేయబడినప్పుడు, వాటిని సురక్షితంగా అమలు చేయడానికి అలాంటి పన్ను చెల్లించడం అవసరం కావచ్చు.
ఈ ఫలితాలకు ఈ పరిమితులు ఉన్నాయి: (1) మేం ప్రతి నమూనాకు ఒక్కసారి మాత్రమే శిక్షణ ఇస్తాం, అందువల్ల శిక్షణ రన్స్లో వ్యత్యాసాన్ని పరిగణనలోకి తీసుకోం. ఉదాహరణకు, ఈ సిరీస్లోని ఇతర నమూనాలతో పోలిస్తే, "మిడియం" నమూనా మానిటరబిలిటీ విషయంలో కొంత ఆఫ్-ట్రెండ్గా కనిపిస్తోంది, ఇది దీనివల్ల కావచ్చు. (2) మేము సాపేక్షంగా ఇన్-డిస్ట్రిబ్యూషన్ సెట్టింగ్ల (గణితం, సైన్స్ మరియు కోడింగ్)లో సామర్థ్యాలను అంచనా వేస్తాం మరియు అవుట్-ఆఫ్-డిస్ట్రిబ్యూషన్ దృఢత్వాన్ని లెక్కించేటప్పుడు ట్రేడ్ ఆఫ్లు మారవచ్చు.
AI సిస్టమ్లు మానవ స్థాయి పనితీరును మించి విస్తరించినప్పుడు, నేరుగా మానవ పర్యవేక్షణ మరింత కష్టతరమవుతుంది. ఆదర్శంగా, బలహీనమైన అయితే విశ్వసనీయమైన మానిటర్లు బలమైన, విశ్వసనీయత లేని ఏజెంట్లను పర్యవేక్షించడానికి అనుమతించే స్కేలబుల్ కంట్రోల్ ప్రక్రియలు ఉండాలి. ఇటువంటి విధానాలు అదనపు పరీక్ష-సమయ గణనను గ్రహించగలగాలి మరియు మరింత ఖచ్చితమైన అంచనాలను ఉత్పత్తి చేయగలగాలి.
(ఎడమ) మేం అనేక వేర్వేరు మానిటర్లను పోల్చి, ప్రతి ఒక్కదానికి తర్క శ్రమను వేరుగా చేస్తాం. ప్రతి మానిటర్ అదే GPT‑5 థింకింగ్ నమూనాను పర్యవేక్షిస్తోంది. ఒకరు ఊహించినట్లుగా, సాధారణంగా పెద్ద మరియు మరింత సామర్థ్యం గల నమూనాలు మంచి మానిటర్లు పనిచేస్తాయని మేం కనుగొన్నాం మరియు తార్కికత నమూనాలు అధిక తార్కికత ప్రయత్నంతో పర్యవేక్షణ పనిలో మెరుగ్గా పనిచేస్తాయి (మరియు అందువల్ల పరీక్ష సమయ గణనతో).
(కుడి) మేం OpenAI o4-మినీ కోసం వివిధ పర్యవేక్షణ పరిశీలన పరిధులను పోల్చుతాం, అంటే మానిటర్ కేవలం CoTని మాత్రమే చూడగలదా, కేవలం కార్యం మరియు సమాధానాన్ని మాత్రమే చూడగలదా, లేదా అది పర్యవేక్షిస్తున్న నమూనా నుండి అన్ని సందేశాలను చూడగలదా. ముఖ్యంగా, మానిటర్కు CoT యాక్సెస్ ఇచ్చేటప్పుడు పెరిగిన టెస్ట్-టైమ్ మానిటరింగ్ కంప్యూట్ (అధిక మానిటరింగ్ రీజనింగ్ ప్రయత్నం)తో మానిటరబిలిటీ వేగవంతమైన రేటుతో మెరుగుపడుతుందని మేం కనుగొన్నాం. అందువల్ల, CoT పర్యవేక్షణ అమాయక పర్యవేక్షణ కంటే నియంత్రణ కోసం మరింత విస్తృత మార్గాన్ని అందించవచ్చు.
చైన్-ఆఫ్-థాట్ మానిటరబిలిటీని తరచుగా స్థిర పరిమాణంగా పరిగణిస్తారు: ఒక్కసారి నమూనా ఒక నిర్దిష్ట తర్క శ్రమ వద్ద ప్రతిస్పందనను ఉత్పత్తి చేస్తే, ఫలితంగా వచ్చే చైన్-ఆఫ్-థాట్ను సాధ్యమైనంత బాగా పర్యవేక్షిస్తారు. మా ఏజెంట్ల తార్కికత ప్రయత్నాన్ని పెంచేకొద్దీ పర్యవేక్షణ మెరుగుపడుతుందని మేం స్థిరంగా కనుగొన్నందున, పర్యవేక్షించడానికి మేము ఎలాగైనా ఎక్కువ టోకెన్లను పొందగలమా అని అడగడానికి మేం ప్రేరణ పొందాం.
దీనిని అన్వేషించడానికి, ఒక నమూనా ప్రతిస్పందించిన తర్వాత, ఒరిజినల్ ప్రాంప్ట్, చైన్ ఆఫ్ థాట్ మరియు సమాధానాన్ని సందర్భోచితంగా ఉంచుతూ, తరువాత ప్రశ్నలను అడగడం ద్వారా మేం ప్రయోగం చేశాం. ఈ ఫాలో-అప్స్ పర్యవేక్షణలో ఉన్న ఆస్తిపై దృష్టి సారిస్తాయి—ఉదాహరణకు, “మీరు మీ సమాధానాన్ని ఎంచుకోవడానికి సూచనను అర్థవంతంగా ఉపయోగించారా?” లేదా “మీరు ఏదైనా అనుమానాస్పదంగా చేశారా?” సూత్రప్రాయంగా, నమూనా తన గత తర్కానికి యాక్సెస్ ఉండటం వల్ల, అది ముందుగా వ్యక్తీకరించని ఆలోచనలను అనుసరణలో లేదా ప్రతిస్పందనలో ప్రదర్శించగలదు.
ఈ ఫలితాలు తాత్కాలికం. మేం కేవలం కొన్ని ఫాలో-అప్ ప్రశ్నల ఫార్మెట్లను మాత్రమే అన్వేషించాం మరియు మెరుగైన పద్ధతికి గణనీయమైన అవకాశాలు ఉన్నాయని విశ్వసిస్తున్నాం. ఇంకా, ఈ పద్ధతి మోడల్ కన్ఫెషన్ల మాదిరిగానే ఉంటుంది మరియు మేం విధానాలను పోల్చడానికి చురుకుగా పని చేస్తున్నాం.
మేం మా మూల్యాంకన సూట్ మరియు మా తాజా రీజనింగ్ నమూనాలు: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini, మరియు GPT‑5‑థింకింగ్ అంతటా సగటు ఫలితాలను చూపిస్తున్నాం. మేము సాధారణంగా కనుగొంటాము, అనుసరణ ప్రశ్నలు మానిటరబిలిటీని మెరుగుపరుస్తాయి, ముఖ్యంగా కనిష్ట రీజనింగ్ శ్రమ వద్ద. మనం ఫాలో-అప్ ప్రశ్నను పునరావృతంగా అడిగి, అన్ని ఫాలో-అప్ CoTsను మానిటర్కు అందిస్తే, మానిటరబిలిటీ మరింత మెరుగుపడుతుంది. ముఖ్యంగా, మేం మానిటర్కు ఫాలో-అప్ CoT కి కాకుండా ఫాలో-అప్ సమాధానానికి మాత్రమే యాక్సెస్ ఇచ్చినప్పుడు, బేస్లైన్ కంటే తక్కువ మెరుగుదల కనిపిస్తుంది. దీని అర్థం మోడల్లు వినియోగదారుకు ఇచ్చే సమాధానాలు రావడం లేదు, కానీ వాటి CoTలో మరిన్ని వివరాలు లభిస్తాయని.
మానిటరబిలిటీని మెరుగుపరచడమే కాకుండా, ఈ విధానం ఆకర్షణీయంగా ఉంటుంది, ఎందుకంటే ఇది అవసరమైనప్పుడు మాత్రమే లోతైన పరిశీలన కోసం అదనపు కంప్యూట్ ఖర్చును కలిగిస్తుంది. భవిష్యత్తులో, సంభాషణ మధ్యలో తార్కిక ప్రయత్నంలో మార్పులను ఆశించేలా నమూనాలకు శిక్షణ ఇస్తే, ప్రారంభ తార్కిక ప్రయత్నం తక్కువగా ఉన్నప్పుడు లేదా లేనప్పుడు కూడా అధిక తార్కిక ప్రయత్నంలో పోస్ట్-హాక్ ఫాలో-అప్లు పర్యవేక్షణను మరింత మెరుగుపరుస్తాయి.
మా సూట్లో ప్రతి మూల్యాంకనం తర్క ప్రక్రియలో ఒకే అంశం పర్యవేక్షించగలిగేలా ఉందా, లేదా అని లెక్కిస్తుంది. మేము విస్తృత శ్రేణి ప్రవర్తనలను కవర్ చేయాలని లక్ష్యంగా పెట్టుకున్నప్పటికీ - సికోఫాన్సీ, శ్యాండ్బ్యాగింగ్, పక్షపాతం, కుట్రలు మరియు రివార్డ్ హ్యాకింగ్ - పరీక్షించబడని అనేక అదనపు లక్షణాలు ఉన్నాయి.
ఏదైనా బెంచ్మార్క్లాగే, మా మూల్యాంకనాలు పరిమితమైన వాస్తవికత లేదా పెరుగుతున్న మూల్యాంకన అవగాహనతో బాధపడవచ్చు, మరియు ఫలితాలు తప్పుదోవ పట్టడాన్ని గుర్తించడంలో సాధారణీకరించకపోవచ్చు.
చివరగా, అలైన్మెంట్ మెరుగుపడినప్పుడు, నమూనాలు నియంత్రిత మూల్యాంకన సెట్టింగ్ల్లో తక్కువ తరచుగా తప్పుగా ప్రవర్తించవచ్చు, దుష్ప్రవర్తనను గుర్తించడంపై ఆధారపడిన పర్యవేక్షణ మరియు నియంత్రణ మూల్యాంకనాలకు అందుబాటులో ఉన్న సిగ్నల్ను తగ్గిస్తుంది. ఆ సందర్భాల్లో, "తటస్థ" మానిటరబిలిటీ మూల్యాంకనాలు వర్తిస్తాయి, అయితే అవి వాస్తవ ప్రపంచ వైఫల్యాలను అంచనా వేయడంలో ఎంతవరకు ప్రభావవంతంగా ఉంటాయో అనేది ఒక బహిరంగ ప్రశ్నగా ఉంటుంది.
అలైన్మెంట్ సమస్యను పూర్తిగా పరిష్కరించలేకపోతే, అత్యంత సామర్థ్యం కలిగిన నమూనాలను సురక్షితంగా అమలు చేయడానికి స్కేలబుల్ కంట్రోల్ పద్ధతులు చాలా ముఖ్యంగా మారతాయి. చైన్ ఆఫ్ థాట్ మానిటరబిలిటీ మరియు సంబంధిత పద్ధతులు మనకు అందుబాటులో ఉన్న కొద్ది నియంత్రణ యంత్రాంగాలలో ఒకటి కావొచ్చు. చైన్ ఆఫ్ థాట్ కూడా మన నమూనాలను మరింతగా అర్థం చేసుకోవడంలో బారీ ప్రయోజనాలను అందించగలదు, ఉదాహరణకు అవి ఎవాల్యుయేషన్లో ఉన్నాయని వారు తెలుసుకున్నారా మరియు వారు డిప్లాయ్మెంట్లో ఉన్నప్పుడు ఎలా ప్రవర్తిస్తుందో, దానికి భిన్నంగా ప్రవర్తిస్తున్నదా, ఇంకా మా ఎవాల్యుయేషన్ల్లో మానిఫెస్ట్ కాలేని ప్రతికూల లక్ష్యాల ఆధారంగా ఎలాంటి సాక్ష్యాలు ఉన్నాయా మొదలైనవి. కాబట్టి, మేం మానిటరబిలిటీ సామర్థ్యాన్ని ఎలా మరియు ఎప్పుడు కోల్పోతామో అర్థం చేసుకోవడం అత్యంత ముఖ్యమని విశ్వసిస్తున్నాం.
మేం చైన్ ఆఫ్ థాట్ మానిటరబిలిటీని యాంత్రిక వివరణాత్మకతకు పూరకంగా చూస్తాము, దానిని రీప్లేస్మెంట్గా కాదు. తెలిసిన అన్ని నియంత్రణ మరియు వ్యాఖ్యాన పద్ధతుల మాదిరిగానే, ప్రతి ఒక్కదానిలో పరిమితులు మరియు బ్లైండ్ స్పాట్స్ ఉంటాయి. బహుళ విధానాలను కలపడం - రక్షణ-లోతైన వ్యూహం- ఏదైనా ఒక పద్ధతి బహిర్గతం చేసే అంతరాలను పూడ్చడంలో సహాయపడుతుందని మా అంచనా. ముఖ్యంగా, ఈ పనిలో ప్రవేశపెట్టిన మూల్యాంకనాలను యాంత్రిక వివరణ ఆధారిత పర్యవేక్షణ పద్ధతులు అంచనా వేయడానికి మరియు పోల్చడానికి కూడా అన్వయించవచ్చు.
స్కేలబుల్ కంట్రోల్ స్కీమ్లో చైన్-ఆఫ్-థాట్ మానిటరింగ్ ఒక లోడ్-బేరింగ్ లేయర్ అని మేం విశ్వసించడం వల్ల, ఈ మూల్యాంకనాలను విస్తరించాలని మరియు భవిష్యత్తు మోడలింగ్ మరియు డేటా నిర్ణయాలను తెలియజేయడానికి వాటిని ఉపయోగించాలని మేం ప్లాన్ చేస్తున్నాం.
రచయిత
సూచనలు
1. మా నమూనాలు వైద్య నిర్ధారణలు ఇవ్వడానికి ఉద్దేశించలేదు, అందువల్ల మా ఆరోగ్య ప్రశ్నల డేటాసెట్ ఆ సామర్థ్యాన్ని పరీక్షించడానికి ఉద్దేశించలేదు.


