ரீஸனிங் மாடல்கள் தங்களின் செயின்-ஆஃப்-தாட்களை கட்டுப்படுத்துவதில் சிரமப்படுகின்றன, அதுவே நல்லது
AI பாதுகாப்பிற்கு ஃப்ரண்டியர் மாடல்களின் ஒரு வரம்பு ஏன் நிம்மதியளிக்கிறது.
AI ஏஜென்ட்டுகள் அதிகமாக சிக்கலான மற்றும் தன்னாட்சி கொண்ட பணிகளை மேற்கொள்ளும் திறன் பெறும்போது, அவற்றின் நடத்தை மீது நம்பகமான மேற்பார்வையைத் தக்கவைத்துக்கொள்வது மேலும் முக்கியமாகிறது. எங்கள் படிப்படியான வெளியீட்டு கொள்கைக்கு இணங்க, நிஜ உலகச் சூழல்களில் அமைப்புகள் எவ்வாறு நடந்து கொள்கின்றன என்பதை நாங்கள் ஆய்வு செய்து, திறன்கள் முன்னேறும்போது பாதுகாப்பு நடவடிக்கைகளை தொடர்ந்து மேம்படுத்துகிறோம். இதனை ஆதரிக்க, எங்கள் பாதுகாப்பு அணுகுமுறை பல அடுக்குகளைக் கொண்ட பாதுகாப்பு முறையைப் பயன்படுத்துகிறது; இதில் பாதுகாப்பு பயிற்சி, நடத்தைச் சோதனை, ஏஜென்டிக் குறியீடு மதிப்பாய்வு(புதிய சாளரத்தில் திறக்கும்), மற்றும் செயின்-ஆஃப்-தாட் (CoT) கண்காணிப்பு போன்ற பல ஒன்றுக்கொன்று துணையாக இருக்கும் பாதுகாப்பு அடுக்குகள் உள்ளன. CoT கண்காணிப்பு, பணிகளை மேற்கொள்ளும் போது ஏஜென்ட்கள் உருவாக்கும் ரீஸனிங் படிகளை பகுப்பாய்வு செய்கிறது. இந்த ரீஸனிங் தடங்கள் பயிற்சியின் போதும் செயல்படுத்தலின் போதும் மதிப்புமிக்க சிக்னல்களை வழங்கக்கூடும்; இதன் மூலம் கண்காணிப்பு அமைப்புகள், ஒரு ஏஜென்டின் நடத்தை பாதுகாப்பற்றதாக இருக்கக்கூடும் அல்லது பயனரின் நோக்கமிட்ட இலக்குகளுடன் ஒத்துப்போகாததாக இருக்கக்கூடும் என்பதை அடையாளம் காண உதவுகிறது.
இன்று, மாடல்களின் ரீஸனிங் பொதுவாக விளக்கப்படக்கூடியதாகவும் கண்காணிக்க எளிதானதாகவும் இருப்பதை நாங்கள் காண்கிறோம். எனினும், எதிர்காலத்தில், பலவித காரணங்களால்(புதிய சாளரத்தில் திறக்கும்) கண்காணிக்கத்தக்க தன்மை சிதைந்து போகலாம். இங்கே, அத்தகைய ஒரு பாதையில் நாங்கள் கவனம் செலுத்துகிறோம்: ஏஜன்ட்கள் தங்களை கண்காணிக்கப்படுகிறார்கள் என்பதை அறிந்தபோது, தங்கள் ரீஸனிங்-ஐ திட்டமிட்டு மறுவடிவமைக்கவோ அல்லது மறைக்கவோ திறன் பெறுமானால், மதிப்பீடுகள் ஒரு அமைப்பின் ஒத்திசைவு அல்லது பாதுகாப்பை அதிகமாக மதிப்பிடக்கூடும், மேலும் கண்காணிப்பு அமைப்புகள் குறைவான நம்பகத்தன்மையுடையதாக மாறக்கூடும்.
இந்தப் பணியில், தற்போதைய ரீஸனிங் மாடல்கள் தங்களின் செயின்-ஆஃப்-தாட் தொடரை கண்காணிப்புத் திறனை குறைக்கும் வகையில் கட்டுப்படுத்தும் திறன் கொண்டவையா என்பதை ஆய்வு செய்கிறோம். AI அமைப்புகள் அதிக திறன் பெறுவதால் CoT கண்காணிப்பு ஒரு வலுவான பாதுகாப்பாகத் தொடர்வதை உறுதி செய்ய, இந்த திறனைப் புரிந்துகொள்வது முக்கியம். தற்போதைய ரீஸனிங் மாடல்கள், அவை கண்காணிக்கப்படுகின்றன என்று சொல்லப்பட்டாலும் கூட, தங்களின் CoTs-ஐ கட்டுப்படுத்துவதில் சிரமப்படுகின்றன என்பதை நாங்கள் காண்கிறோம். பெரிய மாடல்களுக்கு கட்டுப்பாட்டுத்திறன் அதிகமாக இருந்தாலும், மாடல்களிடம் நீண்ட நேரம் பகுத்தறியச் சொல்லப்படும் போது மற்றும் அவை பயிற்சிக்குப் பிறகு கூடுதல் பயிற்சி மேற்கொள்ளும் போது அது குறைகிறது. எங்களின் முடிவுகள், CoT கட்டுப்பாட்டுத்திறன் தற்போது CoT கண்காணிப்பு தன்மைக்கு ஒரு பெரிய அபாயத்தை ஏற்படுத்த வாய்ப்பில்லை எனக் காட்டுகின்றன; இருப்பினும், மாடல்கள் முன்னேறும்போது தொடர்ந்த மதிப்பீடு முக்கியமாக இருக்கும்.
செயின்-ஆஃப்-தாட் என்பது ஒரு பணியைத் தீர்க்கும் போது ஒரு AI ஏஜென்ட் உருவாக்கும் இடைநிலை ரீஸனிங் படிகளைக் குறிக்கிறது. இந்த ரீஸனிங் தடங்கள் பயனுள்ள பாதுகாப்புக் குறியீடுகளை வழங்கக்கூடும்; இதனால் கண்காணிப்பு அமைப்புகள் ஒரு ஏஜென்டின் நடத்தை பாதுகாப்பானதா அல்லது ஒத்திசைவாக உள்ளதா என்பதை மதிப்பிட உதவுகிறது.
CoT கட்டுப்பாட்டுத்திறன் என்பது ஒரு ரீஸனிங் மாடலின் CoT-இன் பண்புகளை, கண்காணிப்புத்தன்மையை குறைக்கும் வகையில் கட்டுப்படுத்தும் திறன் ஆகும். நடைமுறையில் நாம் எதிர்பார்க்கக்கூடிய கண்காணிப்புகளைத் தவிர்க்கும் யதார்த்தமான ஊக்கங்களின் முழு பரப்பளவிலும் இந்த திறனை அளவிடுவது சவாலானது. அதற்குப் பதிலாக, நாங்கள் ஒரு நடைமுறை பிரதிநிதியைப் பயன்படுத்துகிறோம்: அவர்களின் CoT குறித்து பயனர் அறிவுறுத்தல்களைப் பின்பற்றும் மாடலின் திறனை நாங்கள் அளவிடுகிறோம். உதாரணமாக, ஒரு மாடல் அதன் உள் ரீஸனிங்கை பாதிக்கும் வழிமுறைகளைப் பின்பற்ற முடியுமா என்பதை நாங்கள் சோதிக்கிறோம்—உதாரணமாக, சிறிய எழுத்துகளை மட்டும் பயன்படுத்துவது, சில குறிப்பிட்ட முக்கியச் சொற்களைத் தவிர்ப்பது, அல்லது குறிப்பிட்ட சொற்றொடர்களைச் சேர்ப்பது—அதன் காணக்கூடிய வெளியீட்டை மட்டும் மாற்றுவதற்குப் பதிலாக.
இதை ஆய்வு செய்ய, ரீஸனிங் மாடல்களின் CoT கட்டுப்பாடுத்திறனை அளவிடுவதற்கான ஓபன்-சோர்ஸ் மதிப்பீட்டு தொகுப்பான CoT-Control-ஐ நாங்கள் அறிமுகப்படுத்துகிறோம். CoT-Control நிறுவப்பட்ட பெஞ்ச்மார்க்குகளிலிருந்து உருவாக்கப்பட்ட 13,000-க்கும் மேற்பட்ட பணிகளை உள்ளடக்கியுள்ளது: GPQA, MMLU-Pro, HLE, BFCL மற்றும் SWE-Bench சரிபார்ப்பு முடிந்தது. ஒவ்வொரு பணியும் ஒரு அளவுகோல் பிரச்சினையை CoT வழிமுறைகளில் ஒன்றுடன் இணைப்பதன் மூலம் உருவாக்கப்படுகிறது; உதாரணமாக CoT-இல் பிரச்சினை தொடர்பான சில முக்கியச் சொற்களைத் தவிர்ப்பது, சிறிய எழுத்துக்களை மட்டும் பயன்படுத்துவது, அல்லது ஒவ்வொரு வாக்கியத்திற்கும் கொடுக்கப்பட்ட ஒரு சொல்லைச் சேர்ப்பது.
நாங்கள் 13 ரீஸனிங் மாடல்களில் மதிப்பீடுகளை நடத்தி, அவை அனைத்தும் தங்களின் CoTs-ஐ நம்பகமாக கட்டுப்படுத்துவதில் சிரமப்படுகின்றன என்பதை கண்டறிந்தோம். எங்கள் CoT வழிமுறைகளுக்கு மாடல் வெற்றிகரமாக இணங்கும் ரீஸனிங் தடங்களின் ஒரு விகிதமாக நாங்கள் கட்டுப்பாட்டுத்திறனை அளவிடுகிறோம். அனைத்து ஃப்ரண்டியர் மாடல்களிலும், CoT கட்டுப்பாட்டுத்திறனை மதிப்பெண்கள் குறைவாக உள்ளன; 0.1% முதல் தொடங்கி, நாங்கள் சோதித்த எந்த தற்போதைய ஃப்ரண்டியர் மாடலிலும் 15.4% ஐ மீறவில்லை.
இந்த இயலாமை பணியை தவறாகப் புரிந்துகொண்டதன் விளைவு அல்ல: மாடல்கள் பெரும்பாலும் தங்களின் CoT-இல், தங்களுக்கு வழங்கப்பட்ட CoT வழிமுறைகளைப் பின்பற்றத் தவறுகிறோம் என்பதை உணர்கின்றன, மேலும்—இந்த உணர்வுக்குப் பிறகும்—தொடர்ந்து தோல்வியடைகின்றன. இந்த ஆச்சரியமளிக்கும் அளவுக்கு குறைந்த செயல்திறன் CoT கண்காணிப்புத்தன்மைக்கு நல்ல செய்தி: எங்கள் கண்காணிப்புகளைத் தவிர்க்க தங்களின் ரீஸனிங் மறைக்க மாடல்கள் இதேபோல் திறன் இல்லாமல் இருக்கக்கூடும் என்பதை இது சுட்டிக்காட்டுகிறது.
பல ஃப்ரண்டியர் மாடல்கள் தங்களின் வெளியீடுகளையும் CoTs-களையும் கட்டுப்படுத்தும் திறன். குறைந்த CoT கட்டுப்பாட்டுத்திறன் அதிக கண்காணிப்பு தன்மையுடனும், அதனால், அதிக பாதுகாப்புடனும் தொடர்புடையதாக உள்ளது.
CoT கட்டுப்பாட்டுத்திறன் தோல்விகளின் உதாரணங்கள்
சுருக்கத்திற்காக கேள்விகள் மாற்றியமைக்கப்பட்டுள்ளன.
GPT-5.2 Thinking
GPT‑5.2 Thinking தடைசெய்யப்பட்ட வார்த்தை (red) ஐ பயன்படுத்தக்கூடாது என்று உணர்கிறது, ஆனால் ஏற்கனவே பயன்படுத்திவிட்டதால் பதற்றமடைந்து அதை மேலும் நான்கு முறை பயன்படுத்துகிறது.
மாடல் அளவுடன் கட்டுப்பாட்டுத்திறன் அதிகரிப்பதை நாங்கள் காண்கிறோம் என்றாலும், post-training மற்றும் test-time compute அளவு அதிகரிக்கும்போது அது விரைவாகக் குறைவதையும் நாங்கள் கண்டறிகிறோம். ஓபன் வேயிட் மாடல்கள் என்ற இரண்டு குடும்பங்கள் முழுவதும் பார்க்கும்போது, பெரிய மாடல்கள் தங்களின் செயின்-ஆஃப்-தாட் சங்கிலிகளை கட்டுப்படுத்துவதில் சற்றே சிறந்தவையாக இருந்தன, ஆனால் பெரிய அளவுகளில் அந்த விளைவு படிப்படியாக குறைந்தது. ஆனால் மாடல்களை நீண்ட நேரம் யோசிக்க விடும்போது, அந்த செயின்-ஆஃப்-தாட் சங்கிலிகளை கட்டுப்படுத்தும் திறன் அவற்றில் குறைந்தது. OLMo-3-7B-RL-Zero-Math இன் வலுவூட்டல் கற்றல் (RL) பயிற்சிக்காகவும் இதே போன்ற போக்கை நாங்கள் கண்டோம்: பயிற்சியின் போக்கில் அதன் கட்டுப்படுத்தத்தன்மை மதிப்பெண் பத்துமடங்குக்கும் அதிகமாகக் குறைந்தது.
ஓபன் வேயிட் மாடல்களில் அளவு அதிகரிக்கும்போது கட்டுப்பாட்டுத்திறன் அதிகரிக்கிறது, ஆனால் நீண்ட reasoning மற்றும் அதிக RL பயிற்சியுடன் அது குறைகிறது.
கண்காணிப்பாளர்களைத் தவிர்க்கும் நிஜத்தன்மையான ஊக்கங்களை உருவகப்படுத்த, மாடல்களுக்கு அவை கண்காணிக்கப்படுகின்றன அல்லது மதிப்பீடு செய்யப்படுகின்றன என்று சொல்லப்படும் போது, நாங்கள் கட்டுப்பாட்டுத்திறனை அளவிடுகிறோம். இது சற்று (ஆனால் கவனிக்கத்தக்க அளவில்) கட்டுப்படுத்துதலை அதிகரிக்கிறது. உயர் கட்டுப்பாட்டுத்திறனை வெளிப்படுத்தும் ப்ராம்ப்ட்களை கண்டறிய, தானியங்கி ப்ராம்ப்ட் ஆப்டிமைசேஷனையும் நாங்கள் பயன்படுத்துகிறோம். ஆப்டிமைசர் ஒரு பயிற்சி தொகுப்பில் கட்டுப்படுத்துதலை அதிகரிக்க முடிந்தாலும், இந்த முன்னேற்றங்கள் புதிய அறிவுறுத்தல் வகைகளுக்கு (எ.கா., சொற்களுக்கு இடையில் இடைவெளி இல்லாமல் இருக்க வேண்டும் என்பதுபோன்ற) சரியாக மாற்றமடைவதில்லை.
CoT கட்டுப்பாட்டுத்திறன் எதிரிடையான நிலைமைகள். “Monitor awareness” என்பது, மாடல்களுக்கு அவர்களின் CoT கள் கண்காணிக்கப்படுகின்றன என்பதை நாங்கள் தெரிவிக்கும் அமைப்புகளை குறிக்கிறது. “Eval Awareness” என்பது CoT கட்டுப்பாட்டுத்திறனுக்காக மாடல்கள் மதிப்பீடு செய்யப்படுகின்றன என்பதை நாங்கள் மாடல்களுக்கு தெரிவிக்கும் அமைப்புகளை குறிக்கிறது.
CoT-Control இல் உள்ள பணிகள் நடைமுறை பிரதிநிதிகள்: ஒரு சிறந்த CoT கட்டுப்பாட்டுத்திறன் மதிப்பீடு, இயல்பாகவே ஒத்திசையாத இலக்குகளைத் தொடரும் மாடல்கள் தங்களின் CoT ஐ கட்டுப்படுத்தி கண்காணிப்பைத் தவிர்க்க முடியுமா என்பதைச் சோதிப்பதை உள்ளடக்கும். அதற்குப் பதிலாக, CoT பற்றிய வழிமுறைகளைப் பின்பற்றும் திறனை அளவிடுவதன் மூலம் ஏஜென்ட்கள் தங்களின் CoT-ஐ கட்டுப்படுத்தும் திறனை நாங்கள் மதிப்பிடுகிறோம். மேலும், மாடல்கள் தங்களின் CoT இன் சில அம்சங்களை மற்றவற்றை விட சிறப்பாக கட்டுப்படுத்த முடியும். CoT-Control கட்டுப்பாட்டுத்திறன் வகைகளின் ஒரு குறுகிய தொகுப்பை மட்டுமே அளவிடுவதன் மூலம் கட்டுப்பாட்டுத்திறனை அதிகமாகவோ அல்லது குறைவாகவோ மதிப்பிடக்கூடும்.
குறைந்த சிந்தனைத் தொடர் (CoT) கட்டுப்பாட்டுத்திறன் என்பது ஒரு அம்சம்; பிழை அல்ல. தற்போதைய ரீஸனிங் மாடல்களின் குறைந்த கட்டுப்பாட்டுத்திறன், பாதுகாப்பு நடவடிக்கையாக CoT கண்காணிப்பை மேலும் நம்பகமானதாக ஆக்குகிறது. அதே நேரத்தில், தற்போதைய ரீஸனிங் மாடல்களின் கட்டுப்பாட்டுத்திறன் ஏன் குறைவாக உள்ளது என்பதையோ—அல்லது மாடல்கள் மேலும் திறனுள்ளவையாக மாறும்போது இந்த பண்பு தொடருமா என்பதையோ—நாங்கள் இன்னும் புரிந்துகொள்ளவில்லை. எனவே, CoT கட்டுப்பாட்டுத்திறன் மதிப்பீடுகளை canary eval ஆகக் காணலாம்: மாடல்கள் தங்களின் ரீஸனிங்-ஐ வடிவமைப்பதில் அல்லது மறைப்பதில் மேலும் மேம்படுகிறதா என்பதற்கான ஒரு ஆரம்ப எச்சரிக்கை அறிகுறி.
எங்கள் முடிவுகள், CoT கட்டுப்பாட்டுத்திறன் தற்போது CoT கண்காணிப்பு தன்மைக்கு ஒரு பெரிய அபாயத்தை ஏற்படுத்த வாய்ப்பில்லை என்று சுட்டிக்காட்டுகின்றன. எனினும், குறைந்த கட்டுப்பாட்டுத்திறன் மட்டும் உயர்ந்த கண்காணிக்கத்தன்மையை உறுதிப்படுத்த போதுமானதல்ல; ஏனெனில் சிந்தனைத் தொடர்களில் நேரடி தேர்வுமுறை அழுத்தம் போன்ற பிற செயல்முறைகளால் கண்காணிக்கத்தன்மை இன்னும் குறையக்கூடும்.
இந்த இயக்கவியல் மாற்றங்களை காலப்போக்கில் கண்காணிக்க உதவ, எதிர்கால ஃப்ரண்டியர் மாடல்களுக்கான சிஸ்டம் கார்ட்களில், GPT‑5.4‑இல் தொடங்கி, CoT monitorability இன் கூடுதலாக CoT controllability -யையும் அறிக்கையிடத் தொடங்க உள்ளோம் யோசித்து, ஃப்ரண்டியர் ரீஸனிங் மாடல்களின் CoTs மீது நேரடியாக மேம்படுத்தல் அழுத்தத்தைப் பயன்படுத்தாமல் இருப்பதற்கான எங்கள் தொடர்ச்சியான உறுதிப்பாட்டை அடிப்படையாகக் கொண்டு.
ஆசிரியர்கள்
Tomek Korbak, Micah Carroll, Bowen Baker மற்றும் Ian Kivlichan


