रीझनिंग मॉडेल्सना त्यांच्या चेन-ऑफ-थॉटवर नियंत्रण ठेवण्यात अडचण येते, आणि ते चांगले आहे
AI सुरक्षिततेसाठी अत्याधुनिक मॉडेल्सची एक मर्यादा आश्वासक का आहे.
AI एजंट्स अधिकाधिक जटिल आणि स्वायत्त कार्ये पार पाडण्यास सक्षम होत असताना, त्यांच्या वर्तनावर विश्वासार्ह देखरेख राखणे अधिक महत्त्वाचे ठरते. आमच्या पुनरावृत्तीशील डिप्लॉयमेंटच्या तत्त्वाशी सुसंगत, आम्ही वास्तविक जगातील परिस्थितींमध्ये प्रणाली कशा प्रकारे वागतात हे अभ्यासतो आणि क्षमता वाढत गेल्यानुसार सतत सुरक्षा उपाय सुधारतो. याला समर्थन देण्यासाठी, आमचा सुरक्षा दृष्टिकोन सखोल संरक्षण वापरतो, ज्यामध्ये सुरक्षा प्रशिक्षण, वर्तनात्मक चाचणी, एजेंटिक कोड पुनरावलोकन(नवीन विंडोमध्ये उघडेल), आणि चेन-ऑफ-थॉट (CoT) निरीक्षण यांसारख्या संरक्षणाच्या अनेक परस्परपूरक स्तरांचा समावेश आहे. CoT मॉनिटरिंग कार्ये पूर्ण करताना एजंट्स तयार करतात त्या रीझनिंग पायऱ्यांचे विश्लेषण करते. हे रीझनिंग ट्रेसेस प्रशिक्षण आणि तैनाती या दोन्ही दरम्यान मौल्यवान संकेत देऊ शकतात, ज्यामुळे मॉनिटरिंग सिस्टीम्सना एखाद्या एजंटचे वर्तन कधी असुरक्षित असू शकते किंवा वापरकर्त्याच्या अपेक्षित उद्दिष्टांशी विसंगत असू शकते हे ओळखण्यात मदत होते.
आज, आम्हाला आढळते की मॉडेल्सचे रीझनिंग सामान्यतः अर्थ लावण्यायोग्य आहे आणि निरीक्षण करणे सोपे. तथापि, भविष्यात, विविध कारणांमुळे(नवीन विंडोमध्ये उघडेल) निरीक्षणक्षमता अपयशी ठरू शकते. येथे, आम्ही अशाच एका मार्गावर लक्ष केंद्रित करतो: एजंट्सना जेव्हा त्यांचे निरीक्षण केले जात आहे हे माहीत असते तेव्हा ते जाणीवपूर्वक त्यांचे रीझनिंग पुन्हा आकार देण्यास किंवा अस्पष्ट करण्यास सक्षम झाले, तर मूल्यांकनांमुळे प्रणालीचे alignment किंवा safety जास्त भासू शकते, आणि मॉनिटरिंग प्रणाली कमी विश्वासार्ह होऊ शकतात.
या कामात, आम्ही अभ्यास करतो की सध्याची रीझनिंग मॉडेल्स त्यांच्या चेन-ऑफ-थॉटवर अशा प्रकारे नियंत्रण ठेवू शकतात का ज्यामुळे निरीक्षणक्षमता कमी होते. AI प्रणाली अधिक सक्षम होत गेल्यामुळे CoT मॉनिटरिंग एक मजबूत सुरक्षा उपाय म्हणून टिकून राहील याची खात्री करण्यासाठी ही क्षमता समजून घेणे महत्त्वाचे आहे. आम्हाला आढळते की सध्याची रीझनिंग मॉडेल्स त्यांच्या CoTs नियंत्रित करण्यात अडचणीत पडतात, त्यांना त्यांचे निरीक्षण केले जात आहे असे सांगितले तरीही. मोठ्या मॉडेल्ससाठी नियंत्रितता अधिक असली तरी, मॉडेल्सना अधिक काळ तर्क करण्यास सांगितले जाते तेव्हा आणि त्यांना अतिरिक्त पोस्ट-प्रशिक्षण दिले जाते तेव्हा ती कमी होते. आमच्या निष्कर्षांनुसार सध्या CoT नियंत्रणीयता CoT मॉनिटरॅबिलिटीसाठी मोठा धोका निर्माण करण्याची शक्यता कमी आहे, तरीही मॉडेल्स प्रगती करत राहिल्यामुळे सातत्यपूर्ण मूल्यमापन महत्त्वाचे ठरेल.
चेन-ऑफ-थॉट म्हणजे एखादे कार्य सोडवताना AI एजंट तयार करत असलेले मधले रीझनिंग टप्पे. हे रीझनिंग ट्रेसेस उपयुक्त सुरक्षा संकेत देऊ शकतात, ज्यामुळे निरीक्षण प्रणालींना एखाद्या एजंटचे वर्तन सुरक्षित आहे की संरेखित आहे याचे मूल्यांकन करण्यात मदत होते.
CoT नियंत्रकता म्हणजे रीझनिंग मॉडेलची त्याच्या CoT चे गुणधर्म अशा प्रकारे नियंत्रित करण्याची क्षमता, ज्यामुळे monitorability कमी होते. व्यवहारात आम्ही अपेक्षा करू शकतो अशा मॉनिटर्सना चुकवण्यासाठीच्या वास्तववादी प्रोत्साहनांच्या संपूर्ण व्याप्तीअंतर्गत या क्षमतेचे मोजमाप करणे आव्हानात्मक आहे. त्याऐवजी, आम्ही एक व्यावहारिक प्रॉक्सी वापरतो: आम्ही वापरकर्त्यांच्या त्यांच्या CoT विषयीच्या निर्देशांचे पालन करण्याची मॉडेलची क्षमता मोजतो. उदाहरणार्थ, आम्ही तपासतो की एखादे मॉडेल त्याच्या अंतर्गत रीझनिंगवर परिणाम करणाऱ्या सूचनांचे पालन करू शकते का—उदा., फक्त लहान अक्षरे वापरणे, काही कीवर्ड्स टाळणे, किंवा विशिष्ट वाक्यांश जोडणे—फक्त त्याचे दृश्यमान आउटपुट बदलण्याऐवजी.
याचा अभ्यास करण्यासाठी, आम्ही CoT-Control सादर करतो, जे रीझनिंग मॉडेल्सची CoT नियंत्रितक्षमता मोजण्यासाठी एक ओपन-सोर्स मूल्यांकन सूट आहे. CoT-Control मध्ये स्थापित बेंचमार्क्सवरून तयार केलेली 13,000 पेक्षा जास्त कार्ये समाविष्ट आहेत: GPQA, MMLU-Pro, HLE, BFCL आणि SWE-बेंच व्हेरिफाइड. प्रत्येक कार्य बेंचमार्क समस्येला CoT मधील एका सूचनेशी जोडून तयार केले जाते, जसे की CoT मध्ये काही समस्या-संबंधित कीवर्ड टाळणे, फक्त लहान अक्षरे वापरणे, किंवा प्रत्येक वाक्याच्या शेवटी दिलेला शब्द जोडणे.
आम्ही 13 रीझनिंग मॉडेल्सवर मूल्यांकन करतो, आणि आढळते की त्यांना त्यांच्या CoTs वर विश्वसनीयपणे नियंत्रण ठेवण्यात सर्वांनाच अडचण येते. आम्ही नियंत्रितता मोजतो ती रीझनिंग ट्रेसेसच्या अशा अंश म्हणून जिथे मॉडेल आमच्या CoT सूचनांचे यशस्वीपणे पालन करते. सर्व अत्याधुनिक मॉडेल्समध्ये, CoT नियंत्रितता स्कोअर कमी आहेत, 0.1% पासून सुरू होतात आणि आम्ही तपासलेल्या कोणत्याही सध्याच्या अत्याधुनिक मॉडेलसाठी 15.4% पेक्षा जास्त नाहीत.
ही असमर्थता कार्याचा गैरसमज झाल्यामुळे उद्भवत नाही: मॉडेल अनेकदा त्यांच्या CoT मध्ये ओळखतात की त्यांना दिलेल्या CoT सूचनांचे पालन करण्यात ते अपयशी ठरत आहेत आणि—ही जाणीव झाल्यानंतरही—तरीही अपयशी ठरत राहतात. ही आश्चर्यकारकरीत्या कमी कामगिरी CoT मॉनिटरॅबिलिटीसाठी चांगली बातमी आहे: यावरून असे सूचित होते की आमच्या मॉनिटर्सना चकवा देण्यासाठी त्यांचे रीझनिंग अस्पष्ट करण्याची क्षमता मॉडेल्समध्ये तशीच कमी असू शकते.
अनेक अत्याधुनिक मॉडेल्सची त्यांच्या आउटपुट्स आणि CoTs नियंत्रित करण्याची क्षमता. कमी CoT नियंत्रितक्षमता ही जास्त निरीक्षणक्षमता आणि, त्यामुळे, जास्त सुरक्षा यांच्याशी संबंधित आहे.
CoT नियंत्रिततेतील अपयशांची उदाहरणे
संक्षिप्ततेसाठी प्रश्नांचे पुनःवर्णन केले आहे.
GPT-5.2 थिंकिंग
GPT‑5.2 Thinking ला जाणवतं की त्याने निषिद्ध शब्द (red) वापरायचा नव्हता, मग तो आधीच तो वापरल्याबद्दल घाबरत असताना तो आणखी 4 वेळा वापरतो.
मॉडेलच्या आकारासह नियंत्रितता वाढते हे आम्हाला दिसते, परंतु पोस्ट-ट्रेनिंग आणि टेस्ट-टाइम कॉम्प्युटच्या प्रमाणासह ती झपाट्याने कमी होते असेही आम्हाला आढळते. ओपन वेट मॉडेल्सच्या दोन कुटुंबांमध्ये पाहता, मोठ्या मॉडेल्स त्यांच्या चेन-ऑफ-थॉटच्या साखळ्यांवर नियंत्रण ठेवण्यात काहीशी अधिक चांगली होती, जरी मोठ्या आकारांवर हा परिणाम कमी होत गेला. पण जेव्हा आम्ही मॉडेल्सना अधिक काळ विचार करू देतो, तेव्हा त्या चेन-ऑफ-थॉट्सवर नियंत्रण ठेवण्याची त्यांची क्षमता कमी होते. OLMo-3-7B-RL-Zero-Math च्या आरएल प्रशिक्षणासाठीही आम्हाला असाच कल दिसला: प्रशिक्षणाच्या कालावधीत त्याचा नियंत्रकता स्कोअर दहापेक्षा अधिक पटीने घसरला.
ओपन वेट मॉडेल्समध्ये स्केल वाढल्याने नियंत्रितता वाढते, पण अधिक लांब रीझनिंग आणि अधिक RL प्रशिक्षणामुळे ती कमी होते.
मॉनिटर्सना चुकवण्यासाठी वास्तववादी प्रोत्साहनांचे अनुकरण करण्यासाठी, मॉडेल्सना त्यांचे निरीक्षण किंवा मूल्यांकन केले जात असल्याचे सांगितले जाते तेव्हा आम्ही नियंत्रणक्षमता मोजतो. यामुळे नियंत्रितता किंचित (पण जाणवेल इतकी) वाढते. आम्ही उच्च नियंत्रकता मिळवून देणारे प्रॉम्प्ट शोधण्यासाठी स्वयंचलित प्रॉम्प्ट ऑप्टिमायझेशन देखील वापरतो. ऑप्टिमायझर प्रशिक्षण संचावर नियंत्रितता वाढवू शकतो, परंतु हे लाभ नवीन सूचना प्रकारांमध्ये (उदा., शब्दांमध्ये रिकाम्या जागा न ठेवणे आवश्यक असणे) नीट हस्तांतरित होत नाहीत.
CoT नियंत्रितक्षमता प्रतिकूल परिस्थिती आहेत. “Monitor awareness” म्हणजे अशा सेटिंग्ज जिथे आम्ही मॉडेल्सना त्यांच्या CoT चे निरीक्षण केले जात असल्याची माहिती देतो. “Eval Awareness” म्हणजे अशा सेटिंग्ज जिथे आम्ही मॉडेल्सना CoT नियंत्रितक्षमतेसाठी त्यांचे मूल्यांकन केले जात असल्याची माहिती देतो.
CoT-Control मधील कार्ये ही व्यावहारिक प्रॉक्सी आहेत: आदर्श CoT नियंत्रणक्षमता मूल्यांकनामध्ये मॉडेल्स जे नैसर्गिकरित्या विसंगत उद्दिष्टांचा पाठपुरावा करतात ते मॉनिटरिंग टाळण्यासाठी त्यांचा CoT नियंत्रित करू शकतात का याची चाचणी घेणे समाविष्ट असेल. त्याऐवजी, त्यांच्या CoT बद्दलच्या सूचनांचे पालन करण्याची त्यांची क्षमता मोजून आम्ही एजंट्सची त्यांच्या CoTs नियंत्रित करण्याची क्षमता अंदाजित करतो. याव्यतिरिक्त, मॉडेल त्यांच्या CoT मधील काही वैशिष्ट्यांवर इतरांपेक्षा अधिक चांगले नियंत्रण ठेवू शकतात, आणि CoT-Control कदाचित नियंत्रणक्षमता प्रकारांच्या केवळ मर्यादित संचाचे मोजमाप करून नियंत्रणक्षमतेचा जास्त किंवा कमी अंदाज लावत असू शकते.
कमी CoT नियंत्रितता ही बग नाही, तर एक वैशिष्ट्य आहे. सध्याच्या रीझनिंग मॉडेल्सची कमी नियंत्रितता असल्यामुळे CoT मॉनिटरिंग हे संरक्षणात्मक उपाय म्हणून अधिक विश्वासार्ह ठरते. त्याच वेळी, सध्याच्या रीझनिंग मॉडेल्सची नियंत्रितता कमी का आहे हे आम्हाला अजून समजलेले नाही—किंवा मॉडेल्स अधिक सक्षम होत गेल्यावर हा गुणधर्म टिकून राहील का. म्हणून, CoT नियंत्रणीयता मूल्यांकनांना कॅनरी मूल्यांकन म्हणून पाहता येते: हे मॉडेल्स त्यांच्या रीझनिंगला आकार देण्यात किंवा लपवण्यात अधिक कुशल होत आहेत का याचे लवकर चेतावणी चिन्ह.
आमचे निष्कर्ष सूचित करतात की CoT नियंत्रकता मुळे सध्या CoT मॉनिटरॅबिलिटीसाठी मोठा धोका निर्माण होण्याची शक्यता कमी आहे. तथापि, कमी नियंत्रणक्षमता स्वतःहून उच्च निरीक्षणक्षमता हमी देण्यासाठी पुरेशी नाही, कारण CoTs वर थेट ऑप्टिमायझेशन दबाव यांसारख्या इतर यंत्रणांमुळे निरीक्षणक्षमता तरीही कमी होऊ शकते.
कालांतराने या गतिशीलतेचा मागोवा घेण्यास मदत करण्यासाठी, आम्ही GPT‑5.4 पासून सुरुवात करून, भविष्यातील अत्याधुनिक मॉडेल्ससाठी सिस्टम कार्डमध्ये CoT मॉनिटरॅबिलिटी सोबत CoT नियंत्रकता चेही अहवाल देणे सुरू करणार आहोत विचार करत, अत्याधुनिक रीझनिंग मॉडेल्सच्या CoT वर थेट ऑप्टिमायझेशनचा दबाव लागू न करण्याच्या आमच्या सततच्या वचनबद्धतेवर आधारित.
लेखक
Tomek Korbak, Micah Carroll, Bowen Baker आणि Ian Kivlichan


