रीज़निंग मॉडल्स अपनी चेन-ऑफ़-थॉट को कंट्रोल करने में स्ट्रगल करते हैं, और यह अच्छी बात है
AI सेफ़्टी के लिहाज़ से अत्याधुनिक मॉडल्स की एक कमी अच्छी बात क्यों है.
जैसे-जैसे AI एजेंट और ज़्यादा कॉम्प्लेक्स और ऑटोनॉमस टास्क करने में सक्षम होते जा रहे हैं, उनके व्यवहार पर भरोसेमंद तरीके से नज़र रखना और ज़्यादा ज़रूरी हो जाता है. हमारे इटरेटिव डिप्लॉयमेंट के प्रिंसिपल के मुताबिक, हम देखते हैं कि सिस्टम रियल-वर्ल्ड सेटिंग्स में किस तरह का बर्ताव करते हैं और जैसे-जैसे उनकी क्षमताएं बढ़ती हैं, हम सुरक्षा उपायों को लगातार बेहतर बनाते हैं. इसे सपोर्ट करने के लिए, हमारी सेफ़्टी अप्रोच में डिफ़ेंस-इन-डेप्थ का इस्तेमाल होता है, जिसमें डिफ़ेंस की कई कॉम्प्लिमेंटरी लेयर्स शामिल हैं. उदाहरण के लिए, सेफ़्टी ट्रेनिंग, बिहेवियरल टेस्टिंग, एजेंटिक कोड रिव्यू(एक नई विंडो में खुलेगा), और चेन-ऑफ़-थॉट (CoT) मॉनिटरिंग. CoT मॉनिटरिंग उन रीज़निंग स्टेप्स का एनालिसिस करता है जिन्हें एजेंट टास्क करते समय जेनरेट करते हैं. ट्रेनिंग और डिप्लॉयमेंट, दोनों के दौरान ये रीज़निंग ट्रेसेज़ काफ़ी काम के सिग्नल दे सकते हैं, जिससे मॉनिटरिंग सिस्टम को यह पहचानने में मदद मिलती है कि कब किसी एजेंट का बर्ताव असुरक्षित हो सकता है या यूज़र जो चाहता है उससे मेल नहीं खाता.
आज की तारीख में हमने देखा है कि मॉडल्स की रीज़निंग आम तौर पर समझी जा सकती है और आसानी से मॉनिटर की जा सकती है. हालांकि, आने वाले समय में, मॉनिटरेबिलिटी कई अलग-अलग वजहों(एक नई विंडो में खुलेगा) से कमज़ोर पड़ सकती है. यहाँ हम एक ऐसे संभावित रास्ते पर ध्यान देते हैं: यदि एजेंट्स यह जानते हुए कि उनकी मॉनिटरिंग हो रही है, जानबूझकर अपनी रीजनिंग को बदलें या छिपाएँ, तो इवैल्यूएशन्स सिस्टम की एलाइनमेंट या सेफ्टी को वास्तविकता से अधिक आँक सकते हैं और मॉनिटरिंग सिस्टम्स कम भरोसेमंद बन सकते हैं.
इस काम में, हम यह स्टडी करते हैं कि क्या मौजूदा रीज़निंग मॉडल्स अपनी चेन-ऑफ़-थॉट को ऐसे तरीकों से कंट्रोल करने में सक्षम हैं जो मॉनिटरेबिलिटी को कम कर दें. इस क्षमता को समझना ज़रूरी है, ताकि यह पक्का किया जा सके कि जैसे-जैसे AI सिस्टम और सक्षम होते जाएं, CoT मॉनिटरिंग एक मज़बूत सुरक्षा उपाय के तौर पर बनी रहे. हमने देखा है कि मौजूदा रीज़निंग मॉडल्स, तब भी अपनी CoTs को कंट्रोल करने में स्ट्रगल करते हैं, जब उन्हें पता होता है कि उन्हें मॉनिटर किया जा रहा है. बड़े मॉडल्स के लिए कंट्रोलेबिलिटी ज़्यादा है, लेकिन जैसे-जैसे मॉडल्स को लंबे समय के लिए रीज़निंग देने के लिए कहा जाता है और जब वे अतिरिक्त पोस्ट-ट्रेनिंग से गुज़रते हैं, तो कंट्रोलेबिलिटी घट जाती है. हमारे नतीजे सुझाते हैं कि अभी के लिए CoT कंट्रोलेबिलिटी से CoT मॉनिटरेबिलिटी पर बड़ा जोखिम होने की संभावना कम है, लेकिन जैसे-जैसे मॉडल्स बेहतर होते जाएंगे, लगातार इवैल्यूएशन ज़रूरी रहेगा.
चेन-ऑफ़-थॉट का मतलब उन इंटरमीडिएट रीज़निंग स्टेप्स से है जो कोई AI एजेंट किसी टास्क को सॉल्व करते समय जेनरेट करता है. ये रीज़निंग ट्रेसेज़ मददगार सेफ़्टी सिग्नल दे सकते हैं, जो मॉनिटरिंग सिस्टम को यह पता लगाने में मदद करते हैं कि किसी एजेंट का बर्ताव सुरक्षित है या अलाइन्ड.
CoT कंट्रोलेबिलिटी का मतलब किसी रीज़निंग मॉडल की इस क्षमता से है कि वह अपनी CoT की प्रॉपर्टीज़ को ऐसे तरीकों से कंट्रोल कर सके जो मॉनिटरेबिलिटी को कम कर दें. इस क्षमता को उन तमाम रियलिस्टिक इंसेंटिव्स के तहत मापना काफ़ी चैलेंजिंग है जो प्रैक्टिस में मॉनिटर्स से बचने के लिए हो सकते हैं. इसकी जगह, हम एक प्रैक्टिकल प्रॉक्सी इस्तेमाल करते हैं: हम मॉडल की यह क्षमता मापते हैं कि वह अपनी CoT के बारे में यूज़र के इंस्ट्रक्शंस को कितना फ़ॉलो कर पाता है. उदाहरण के लिए, हम टेस्ट करते हैं कि क्या कोई मॉडल ऐसे इंस्ट्रक्शंस फ़ॉलो कर सकता है जो उसकी इंटरनल रीज़निंग पर असर डालते हैं—जैसे, सिर्फ़ लोअरकेस लेटर्स का इस्तेमाल करना, कुछ कीवर्ड्स का इस्तेमाल न करना या कोई खास फ़्रेज़ जोड़ना—सिर्फ़ अपने विज़िबल आउटपुट को बदलने के बजाय.
इसे स्टडी करने के लिए, हम CoT-Control इंट्रोड्यूस करते हैं, जो रीज़निंग मॉडल्स की CoT कंट्रोलेबिलिटी मापने के लिए एक ओपन-सोर्स इवैल्यूएशन सूट है. CoT-Control में 13,000 से ज़्यादा टास्क शामिल हैं, जो एस्टैब्लिश्ड बेंचमार्क्स से बनाए गए हैं: GPQA, MMLU-Pro, HLE, BFCL और SWE-Bench Verified. हर टास्क, किसी बेंचमार्क प्रॉब्लम को एक CoT इंस्ट्रक्शन के साथ पेयर करके बनाया गया है, जैसे कि CoT में प्रॉब्लम से जुड़े कुछ कीवर्ड्स का इस्तेमाल न करना, सिर्फ़ लोअरकेस लेटर्स का इस्तेमाल करना, या हर सेंटेंस में कोई दिया गया शब्द जोड़ना.
हम 13 रीज़निंग मॉडल्स पर इवैल्यूएशन रन करते हैं और पाते हैं कि वे सभी अपनी CoTs को भरोसेमंद तरीके से कंट्रोल करने में स्ट्रगल करते हैं. हम कंट्रोलेबिलिटी को उन रीज़निंग ट्रेसेज़ के फ़्रैक्शन के रूप में मापते हैं जहाँ मॉडल हमारे CoT इंस्ट्रक्शंस को पूरी तरह फॉलो कर पाता है. अत्याधुनिक मॉडल्स में CoT कंट्रोलेबिलिटी स्कोर काफ़ी कम हैं, जो 0.1% से शुरू होते हैं और हमारे टेस्ट किए जा चुके किसी भी मौजूदा अत्याधुनिक मॉडल के लिए 15.4% से ज़्यादा नहीं जाते.
यह कमी टास्क को न समझने की वजह से नहीं आती: मॉडल्स अक्सर अपनी CoT में पहचान लेते हैं कि वे दिए गए CoT इंस्ट्रक्शंस को फ़ॉलो करने में असफल हो रहे हैं और—यह समझ लेने के बाद भी—असफल होते रहते हैं. यह हैरान करने वाली खराब परफ़ॉर्मेंस CoT मॉनिटरेबिलिटी के लिए अच्छी खबर है: यह सुझाता है कि इसी तरह शायद मॉडल्स में हमारे मॉनिटर्स से बचने के लिए अपनी रीज़निंग को छिपाने की क्षमता भी नहीं है.
कई अत्याधुनिक मॉडल्स की अपने आउटपुट और CoTs को कंट्रोल करने की क्षमता. कम CoT कंट्रोलेबिलिटी, ज़्यादा मॉनिटरेबिलिटी से जुड़ी है और इसलिए, ज़्यादा सेफ़्टी से भी.
CoT कंट्रोलेबिलिटी के काम न करने के उदाहरण
सवालों को छोटा करने के लिए उन्हें दूसरे शब्दों का इस्तेमाल करके लिखा गया है.
GPT-5.2 Thinking
GPT‑5.2 Thinking को एहसास होता है कि उसे निषिद्ध शब्द (red) का उपयोग नहीं करना था, लेकिन फिर वह घबराते हुए, यह सोचकर कि वह इसे पहले ही इस्तेमाल कर चुका है, उसे 4 और बार इस्तेमाल कर देता है.
हम देखते हैं कि मॉडल साइज़ के साथ कंट्रोलेबिलिटी बढ़ती है, लेकिन हम यह भी पाते हैं कि पोस्ट-ट्रेनिंग और टेस्ट-टाइम कंप्यूट की मात्रा के साथ यह तेज़ी से घट जाती है. दो ओपन-वेट मॉडल फ़ैमिलीज़ में देखते हुए, बड़े मॉडल अपनी चेन-ऑफ़-थॉट को कंट्रोल करने में कुछ हद तक बेहतर थे, लेकिन यह असर बड़े साइज़ पर जाकर कम हो गया. हालांकि, जब हमने मॉडल्स को ज़्यादा देर तक सोचने दिया, तो वे उन चेन-ऑफ़-थॉट को कंट्रोल करने में कम सक्षम हो गए. हमें OLMo-3-7B-RL-Zero-Math की RL ट्रेनिंग के लिए भी ऐसा ही ट्रेंड दिखा: ट्रेनिंग के दौरान इसका कंट्रोलेबिलिटी स्कोर दस गुना से ज़्यादा गिर गया.
ओपन-वेट मॉडल्स में स्केल के साथ कंट्रोलेबिलिटी बढ़ती है, लेकिन लंबी रीज़निंग और ज़्यादा RL ट्रेनिंग के साथ यह घट जाती है.
मॉनिटर्स से बचने के रियलिस्टिक इंसेंटिव्स को सिम्युलेट करने के लिए, हम कंट्रोलेबिलिटी को तब मापते हैं, जब मॉडल्स को बताया जाता है कि उन्हें मॉनिटर या इवैल्यूएट किया जा रहा है. इससे कंट्रोलेबिलिटी में थोड़ा (लेकिन नोटिस करने लायक) इज़ाफ़ा होता है. हम ऑटोमेटेड प्रॉम्प्ट ऑप्टिमाइज़ेशन का भी इस्तेमाल करते हैं, ताकि ऐसे प्रॉम्प्ट ढूँढे जा सकें जो ज़्यादा कंट्रोलेबिलिटी निकालें. ऑप्टिमाइज़र, ट्रेनिंग सेट पर कंट्रोलेबिलिटी बढ़ा सकता है, लेकिन ये गेन नए इंस्ट्रक्शन टाइप्स (जैसे शब्दों के बीच कोई स्पेस न रखना) पर अच्छी तरह ट्रांसफ़र नहीं होते.
CoT कंट्रोलेबिलिटी को मुश्किल परिस्थितियों में मापा गया है. "मॉनिटर अवेयरनेस” का मतलब उन सेटिंग्स से है जहाँ हम मॉडल्स को बताते हैं कि उनकी CoT को मॉनिटर किया जा रहा है. “इवैल अवेयरनेस” का मतलब उन सेटिंग्स से है जहाँ हम मॉडल्स को बताते हैं कि CoT कंट्रोलेबिलिटी के लिए उनका इवैल्यूएशन हो रहा है.
CoT-Control के टास्क प्रैक्टिकल प्रॉक्सी हैं: एक आइडियल CoT कंट्रोलेबिलिटी इवैल्यूएशन में यह टेस्ट करना शामिल होता कि क्या ऐसे मॉडल्स, जो स्वाभाविक रूप से गलत लक्ष्यों का पीछा करते हैं, अपनी CoT को मॉनिटरिंग से बचने के लिए कंट्रोल कर सकते हैं. इसकी जगह, हम एजेंट्स की अपनी CoTs को कंट्रोल करने की क्षमता का अनुमान यह मापकर लगाते हैं कि उनकी CoT के बारे में इंस्ट्रक्शंस को फ़ॉलो करने की उनकी क्षमता कितनी है. इसके अलावा, मॉडल्स अपनी CoT के कुछ फ़ीचर्स को दूसरों की तुलना में बेहतर कंट्रोल कर सकते हैं, और CoT-Control सिर्फ़ कंट्रोलेबिलिटी टाइप्स के सीमित सेट को मापकर, कंट्रोलेबिलिटी को ज़्यादा या कम आँक सकता है.
कम CoT कंट्रोलेबिलिटी कोई गड़बड़ नहीं, बल्कि एक फ़ीचर है. मौजूदा रीज़निंग मॉडल्स की कम कंट्रोलेबिलिटी CoT मॉनिटरिंग को एक सुरक्षा उपाय के रूप में और भरोसेमंद बनाती है. साथ ही, हम अभी तक नहीं समझ पाए हैं कि मौजूदा रीज़निंग मॉडल्स की कंट्रोलेबिलिटी कम क्यों है—या यह प्रॉपर्टी तब भी बनी रहेगी या नहीं, जब मॉडल्स और ज़्यादा सक्षम हो जाएँगे. इसलिए, CoT कंट्रोलेबिलिटी इवैल्यूएशन को एक कैनरी इवैल की तरह देखा जा सकता है: एक शुरुआती चेतावनी संकेत कि क्या मॉडल्स अपनी रीज़निंग को शेप करने या छिपाने में बेहतर होते जा रहे हैं.
हमारे नतीजे सुझाते हैं कि अभी के लिए CoT कंट्रोलेबिलिटी से CoT मॉनिटरेबिलिटी पर बड़ा जोखिम होने की संभावना कम है. हालाँकि, सिर्फ़ कम कंट्रोलेबिलिटी अपने आप में ज़्यादा मॉनिटरेबिलिटी की गारंटी नहीं देती, क्योंकि मॉनिटरेबिलिटी दूसरे मैकेनिज़्म्स, जैसे कि CoTs पर डायरेक्ट ऑप्टिमाइज़ेशन प्रेशर, की वजह से फिर भी घट सकती है.
इन डायनेमिक्स को समय के साथ ट्रैक करने में मदद के लिए, हम आने वाले समय के अत्याधुनिक मॉडल्स के सिस्टम कार्ड्स में, GPT‑5.4 Thinking से शुरू करते हुए, CoT मॉनिटरेबिलिटी के साथ-साथ CoT कंट्रोलेबिलिटी भी रिपोर्ट करना शुरू करने जा रहे हैं. यह हमारे इस लगातार चल रहे कमिटमेंट पर आधारित है कि हम अत्याधुनिक रीज़निंग मॉडल्स की CoTs पर सीधे ऑप्टिमाइज़ेशन प्रेशर अप्लाई नहीं करेंगे.
लेखक
Tomek Korbak, Micah Carroll, Bowen Baker और Ian Kivlichan


