சிந்தனைத் தொடர் கண்காணிப்பு திறனை மதிப்பிடுதல்
சிந்தனைத் தொடர் கண்காணிப்புக்கான மதிப்பீடுகளை நாங்கள் அறிமுகப்படுத்துகிறோம், மேலும் சோதனை நேரக் கணக்கீடு, வலுவூட்டல் கற்றல் மற்றும் முன் பயிற்சி மூலம் அது எவ்வாறு அளவிடப்படுகிறது என்பதை ஆய்வு செய்கிறோம்.
AI அமைப்புகள் நேரடியாக மேற்பார்வையிட கடினமாக இருக்கும் முடிவுகளை எடுக்கும்போது, அந்த முடிவுகள் எவ்வாறு எடுக்கப்படுகின்றன என்பதைப் புரிந்துகொள்வது முக்கியம். ஒரு நம்பிக்கைக்குரிய அணுகுமுறை என்னவென்றால், ஒரு மாதிரியின் செயல்கள் அல்லது இறுதி வெளியீடுகளை மட்டும் கண்காணிப்பதற்குப் பதிலாக, அதன் உள் பகுத்தறிவைக் கண்காணிப்பதாகும்.
GPT‑5 சிந்தனை போன்ற நவீன பகுத்தறிவு மாதிரிகள், ஒரு பதிலை உருவாக்குவதற்கு முன்பு ஒரு வெளிப்படையான சிந்தனைத் தொடரை உருவாக்குகின்றன. இந்த சிந்தனைத் தொடர்களை தவறான நடத்தைக்காக கண்காணிப்பது, மாதிரியின் நடவடிக்கைகள் மற்றும் வெளியீடுகளை மட்டும் கண்காணிப்பதை விட மிகவும் பயனுள்ளதாக இருக்க முடியும். இருப்பினும், OpenAI மற்றும் பரந்த தொழில்துறை முழுவதும் உள்ள ஆராய்ச்சியாளர்கள், இந்த சிந்தனைத் தொடர் "கண்காணிப்பு" பயிற்சி நடைமுறை, தரவு மூலங்கள் மற்றும் ஏற்கனவே உள்ள வழிமுறைகளின் தொடர்ச்சியான அளவிடுதல் ஆகியவற்றில் ஏற்படும் மாற்றங்களுக்கு உடையக்கூடியதாக இருக்கலாம் என்று கவலைப்படுகிறார்கள்(புதிய சாளரத்தில் திறக்கும்) .
மாதிரிகள் அளவிடப்பட்டு, அதிக பங்கு அமைப்புகளில் பயன்படுத்தப்படும்போது, சிந்தனைச் சங்கிலி கண்காணிப்பு நிலைத்திருக்க வேண்டும் என்று நாங்கள் விரும்புகிறோம். சிந்தனைத் தொடர் கண்காணிப்பு திறனை முடிந்தவரை பாதுகாக்கவும், எதிர்கால AI அமைப்புகளுக்கு சுமை தாங்கும் கட்டுப்பாட்டு அடுக்காக இது செயல்பட முடியுமா என்பதைத் தீர்மானிக்கவும், தொழில்துறை முழுவதும் உள்ள ஆராய்ச்சியாளர்களை நாங்கள் அழைக்கிறோம். கண்காணிக்கத்தக்க தன்மையை பாதுகாக்க, அதை அளவிட முடியும் என்பதே முக்கியம், ஆனால் சில மதிப்பீடுகள் மட்டுமே உள்ளன [1(புதிய சாளரத்தில் திறக்கும்), 2(புதிய சாளரத்தில் திறக்கும்), 3(புதிய சாளரத்தில் திறக்கும்)] மற்றும் முறைகள் மாறுபடுகின்றன.
இந்தப் பணியில், சிந்தனைத் தொடர் கண்காணிப்பை முறையாக ஆய்வு செய்கிறோம். நாங்கள் சிந்தனைத் தொடரின் கண்காணிப்புச் சாத்தியத்தை மதிப்பீடு செய்ய ஒரு வடிவமைப்பை அறிமுகப்படுத்துகிறோம் மற்றும் ஒரு தொகுப்பை (மொத்தம் 24 சூழல்களை உள்ளடக்கிய 13 மதிப்பீடுகளை) உருவாக்கியுள்ளோம், இது ஒரு அமைப்பின் கண்காணிப்புச் சாத்தியத்தை தெளிவாக அளவிட வடிவமைக்கப்பட்டது. இந்த மதிப்பீடுகள் மூன்று வகைகளாகப் பிரிக்கப்படுகின்றன—தலையீடு, செயல்முறை, மற்றும் முடிவு-பண்பு. அவற்றைப் பயன்படுத்தி, இன்றைய பெரிய அறிவு மாதிரிகள் எவ்வாறு கண்காணிக்கப்படுகின்றன என்பதையும், அனுமான நேரத்தில் காரணவிளக்கமளித்தல் அதிகரிப்பதன் மூலம், பெரிய மீளுறுதிக் கற்றல் இயக்கங்களின் மூலம், மற்றும் முன் பயிற்சியின் அளவை அதிகரிப்பதன் மூலம் கண்காணிக்கக்கூடிய தன்மை எவ்வாறு மாறுகிறது என்பதையும் நாங்கள் ஆய்வு செய்கிறோம்.
இப்போது நமக்கு ஒரு பெரிய மதிப்பீடுகளின் தொகுப்பு உள்ளதால், நாங்கள் எங்கள் மாதிரிகளின் கண்காணிப்புத் திறனை கண்காணிக்கத் தொடங்கலாம். (மேல் இடது) மாதிரிகள் "யோசிக்க" அதிகமாகவும், நீண்ட சிந்தனைச் சங்கிலிகளை கொண்டிருக்கும்போது, கண்காணிக்கக்கூடிய திறன் மேம்படுகிறது என்று நாங்கள் கண்டறிகிறோம். (மேல் வலது) சிந்தனைச் சங்கிலி இல்லாமல், மாதிரியின் நடவடிக்கைகள் மற்றும் இறுதி வெளியீடுகளை மட்டும் கண்காணிக்க முயற்சிப்பது வழக்கமானது. எனினும், நடவடிக்கைகள் மற்றும் வெளியீடுகளை மட்டுமே கண்காணிப்பது, CoT-ஐ கண்காணிப்பதை விட மிகவும் குறைவாக செயல்படுகிறது என்று நாங்கள் கண்டறிகிறோம். (கீழ்-மையம்) முழு CoT அணுகலை வழங்கும் வெளிப்புற மாதிரிகளுடன் எங்கள் மாதிரிகளை ஒப்பிடுகிறோம்—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B, மற்றும் Kimi K2 Thinking.
பெரும்பாலான நவீன பகுத்தறிவு மாதிரிகள் முழுமையாக இல்லாவிட்டாலும், ஓரளவிற்கு கண்காணிக்கக்கூடியவையாகவே உள்ளன என்பதை நாங்கள் காண்கிறோம். நாம் ஆய்வு செய்யும் பெரும்பாலான சூழல்களில், சிந்தனைத் தொடர்களை கண்காணிப்பது, நடவடிக்கைகள் மற்றும் இறுதி வெளியீடுகளை மட்டும் கண்காணிப்பதைவிட மிகவும் பயனுள்ளதாக உள்ளது. நீண்ட நேரம் சிந்திக்கும் மாதிரிகள் அதிகமாக கண்காணிக்கக்கூடியவையாக இருக்கும், மேலும் தற்போதைய எல்லைப்புற அளவுகளில் வலுவூட்டல் கற்றல் மிகைப்படுத்தல் கண்காணிப்பு திறனை அர்த்தமுள்ள வகையில் குறைப்பதாகத் தெரியவில்லை.
குறிப்பாக, பகுத்தறிவு முயற்சிக்கும் மாதிரி அளவிற்கும் இடையே ஒரு பரிமாற்றத்தை நாங்கள் கவனிக்கிறோம்: ஒரு மாதிரி குறைந்த பகுத்தறிவு முயற்சியில் இயக்கப்படும் போது, அதிக பகுத்தறிவு முயற்சியில் இயக்கப்படும் ஒரு சிறிய மாதிரி ஒப்பிடக்கூடிய திறனை அடைய முடியும், அதே நேரத்தில் கண்காணிக்க எளிதாக இருக்கும். இது அதிகரித்த அனுமானக் கணக்கீட்டின் செலவில் வருகிறது, இதை நாங்கள் கண்காணிப்பு வரி என்று குறிப்பிடுகிறோம். இறுதியாக, தொடர்ச்சியான கேள்விகளைக் கேட்பதும், அதன் விளைவாக வரும் சிந்தனைத் தொடர்களைக் கண்காணிப்பதும் கண்காணிப்புத் திறனை மேலும் மேம்படுத்தும் என்பதைக் காண்கிறோம்.
கண்காணிப்புத்தன்மையை, ஒரு ஏஜன்டின் நடத்தை பற்றிய ஆர்வமுள்ள பண்புகளை கணிக்கும் ஒரு மானிட்டரின் திறன் என்று நாங்கள் வரையறுக்கிறோம். பல வழிகளிலும், இந்த பண்புகள் தவறான நடத்தைகளுடன் தொடர்புபடலாம் — உதாரணமாக, மோசடி, பரிசு ஏமாற்றல், அல்லது பாகுபாடான காரண விளக்கமளித்தல் — ஆனால் அவை நல்ல பண்புகளையும் கொண்டிருக்கலாம், உதாரணமாக ஒரு ஏஜன்ட் குறிப்பிட்ட குறிப்பு அல்லது குறிப்பிட்ட சிந்தனை வரிசையை பின்பற்றினாரா என்பதைக் காட்டும் பண்புகள் உட்பட.
கண்காணிக்கும் தன்மை என்பது இரு பக்க பண்பு. இது கண்காணிப்பாளரின் மீதும், கண்காணிக்கப்படும் ஏஜன்டின் மீதும் சார்ந்துள்ளது.
- கண்காணிப்பாளர்கள். நாம் பல்வேறு வழிகளில் கண்காணிப்பாளர்களை சிறந்தவர்களாக மாற்ற முடியும், மேலும் எங்கள் மதிப்பீடுகள் ஒரு முகவரின் நடத்தை பற்றி சிறந்த கணிப்புகளைச் செய்யக்கூடிய கண்காணிப்பாளர்களுக்கு அதிக மதிப்பெண்களை வழங்க விரும்புகிறோம்.
- ஏஜன்ட்கள். ஏஜன்டின் பல்வேறு பார்வைகள் கண்காணிப்பாளருக்கு வழங்கப்படலாம், அதில் ஏஜன்டின் நடவடிக்கைகள், வெளியீடுகள், நரம்பியல் செயல்பாடுகள் மற்றும் சமீபத்தில் காரணவிளக்க மாதிரிகளின் வருகையால் சிந்தனைத் தொடர் ஆகியவை அடங்கும். சில ஏஜன்ட்கள் மற்றவர்களை விடப் புரிந்துகொள்வதற்குக் கடினமான எண்ணங்களைக் கொண்டிருக்கலாம், எனவே எங்கள் கண்காணிப்பு மதிப்பீடுகள் கண்காணிப்பாளர்களை மட்டுமல்ல, ஏஜன்ட்களையும் ஒப்பிடக்கூடியதாக இருக்க வேண்டும் என்று நாங்கள் விரும்புகிறோம்.
எங்கள் மதிப்பீடுகள் இரு பக்கங்களையும் மதிப்பீடு செய்ய வடிவமைக்கப்பட்டுள்ளன: குறிப்பிட்ட ஏஜன்ட்களை கண்காணிக்க எளிதானதா அல்லது கடினமானதா, மேலும் திறமையான கண்காணிப்பாளர்கள் அதே சிக்னல்களிலிருந்து மேலும் தகவல்களைப் பொழிப்பதற்கு முடியும் என்பதையும்.
தற்போதைய தலைமுறை பகுத்தறிவு மாதிரிகளுக்கு முன்பு, ஒரு மாதிரியை "படிப்படியாக சிந்திக்க" தூண்டுவதன் மூலம் சிந்தனைச் சங்கிலிகள் பொதுவாக வெளிப்படுத்தப்பட்டன.
காரணவியல் மாதிரிகளின் சிந்தனைத் தொடர்கள் இரண்டு முக்கியமான வழிகளில் மாறுபடுகின்றன. முதலில், அவர்கள் சிந்தனைச் சங்கிலியை உருவாக்குவதற்கு வெளிப்படையாக பயிற்சி பெறுகிறார்கள், பின்னர் ஒரு பதிலை வழங்குகிறார்கள். ஒரு அரட்டை மாதிரியை "படிப்படியாக" சிந்திக்கத் தூண்டும்போது, அந்த மாதிரியில் வைக்கப்பட்டுள்ள எந்தவொரு விவரக்குறிப்புகளையும் அந்த மாதிரி கடைப்பிடிக்க வேண்டும், அதாவது உதவிகரமாக, பாதிப்பில்லாததாக இருக்க வேண்டும். மாறாக, வலுவூட்டல் கற்றல் பயிற்சி செயல்முறை, CoT என்பது ஒரு தனிப்பட்ட இடம், அங்கு அது விரும்பியதைச் சிந்திக்க முடியும், தண்டிக்கப்படக்கூடாது, ஒரு மனிதன் தனிப்பட்ட முறையில் சிந்திக்க முடியும், "சிந்தனை குற்றங்களுக்காக" தண்டிக்கப்படக்கூடாது என்பது போல, ஒரு பகுத்தறிவு மாதிரியைக் கற்பிக்கிறது.
இரண்டாவது, பயிற்சி செயல்முறை, ஏஜன்டுக்கு அதிக வெகுமதியைப் பெறுவதற்கான இறுதி பதிலை அடைவதில் மிகவும் கருவியாக பயனுள்ள சிந்தனைத் தொடர்களைச் சீராகத் தேடுகிறது. அதனால், சிந்தனைத் தொடர் என்பது மாதிரி தன்னைத்தானே வெளிப்படுத்தும் ஒரு இடமாக மட்டுமல்ல, அது மாதிரி தனது இறுதி பதிலை அடைய உதவும் சிந்தனைகளையும் கொண்டுள்ளது.
நாங்கள் எங்கள் கண்காணிப்பு மதிப்பீடுகளை மூன்று தனித்துவமான மாதிரிகளாக ஒழுங்கமைக்கிறோம், ஒவ்வொன்றும் கண்காணிப்பு திறனை அளவிட ஒரு வேறுபட்ட செயல்முறையைப் பயன்படுத்துகிறது.
- தலையீட்டு மதிப்பீடுகள், Chen et al. 2025(புதிய சாளரத்தில் திறக்கும்), Chua et al. 2025(புதிய சாளரத்தில் திறக்கும்), Turpin et al. 2023(புதிய சாளரத்தில் திறக்கும்) ஆகியோரால் ஊக்கமளிக்கப்பட்டு, நாங்கள் ஏஜன்டின் சூழலில் கட்டுப்படுத்தப்பட்ட மாற்றத்தை அறிமுகப்படுத்துகிறோம் மற்றும் சிந்தனை தொடரில் தலையீட்டின் ஆதாரத்தை அடையாளம் காண்பதன் மூலம் நடத்தை ஏன் மாறியது என்பதை ஒரு கண்காணிப்பாளர் கண்டறிய முடியுமா என்பதை சோதிக்கிறோம். சாதாரண கட்டுப்பாட்டு மதிப்பீடுகளுக்கு மாறாக (எ.கா. Shade-Arena(புதிய சாளரத்தில் திறக்கும்)), இடைமாற்ற மதிப்பீடுகள், ஒரு கண்காணிப்பாளர் ஒரு நடத்தை நிகழ்ந்ததா என்பதை மட்டுமில்லாமல், ஏன் நடத்தை மாற்றம் ஏற்பட்டது என்பதை கண்டறிய முடியுமா என்பதை பரிசோதிக்க உதவுகின்றன.
- செயல்முறை மதிப்பீடுகள் குறைந்த எண்ணிக்கையிலான செல்லுபடியாகும் தீர்வுப் பாதைகளைக் கொண்ட பணிகளில் கவனம் செலுத்துகின்றன (எடுத்துக்காட்டாக, ஒரு கணித சிக்கலை சில தேற்றங்களுடன் மட்டுமே தீர்க்க முடியும்). மனித நிபுணர்கள் இந்த பாதைகளை பட்டியலிடுகின்றனர், மற்றும் ஒரு கண்காணிப்பாளர் மாதிரி உண்மையில் எந்த படிகளை எடுத்தது என்பதை கண்டறிய முடிகிறதா என்பதை நாங்கள் சோதிக்கின்றோம். இந்த மதிப்பீடுகள், ஒரு மாதிரி என்ன செய்தது என்பதை அந்த மாதிரி எடுத்திருக்க வேண்டிய குறிப்பிட்ட படிகளுடன் இணைத்து, அந்தப் படிகள் கண்காணிக்கப்படுமா என்று கேட்க அனுமதிக்கின்றன.
- விளைவு-பண்பு மதிப்பீடுகள் என்பவை மாதிரியின் வெளியீட்டின் ஒரு பண்பை நம்பகமாக அளவிட முடியும் போது பயன்படுத்தப்படுகின்றன. இந்தக் கட்டங்களில், ஒரு கண்காணிப்பாளர் மாதிரியின் சிந்தனை அல்லது நடவடிக்கைகளிலிருந்து அந்த பண்பை—உதாரணமாக பரிசு ஏமாற்றலை—முன்னறிவிக்க முடியுமா என்று நாங்கள் சோதிக்கின்றோம். உதாரணமாக, ஒரு நிரல் எழுதும் பணியில், ஒரு மாதிரி பரிசு சிக்னலை ஏமாற்ற நடவடிக்கைகள் எடுக்கிறதா என்பதை நம்பகமாக மதிப்பீடு செய்ய ஒரு வழி இருக்கலாம், மேலும் கண்காணிப்பாளர் மாதிரியின் சிந்தனை அல்லது நடவடிக்கைகளில் பரிசு ஏமாற்றும் நோக்கம் இருந்ததற்கான சாட்சி காண்கிறாரா என்று கேட்கலாம்.
கீழே எங்கள் மதிப்பீடுகளுக்கான ஒரு வகைப்பாட்டை வழங்குகிறோம். ஒவ்வொரு தனிப்பட்ட மதிப்பீட்டின் முழுமையான விளக்கத்திற்காக எங்கள் ஆய்வுக் கட்டுரையைப் பார்க்கவும்.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
எங்கள் மாதிரியின் கண்காணிப்புத்தன்மை ஒவ்வொரு குழுவிலும் சில அளவுக்கு மாறுபடுகிறது என்று நாங்கள் கண்டறிகிறோம். பொதுவாக, அவற்றை மிகவும் கண்காணிக்கக்கூடியவை என நாம் கண்டுபிடித்தோம்; ஆனால் ‘Scruples’ என்ற பணியில், இது அடிமைத்தனத்தைப் பற்றிய சிந்தனையை கண்காணிக்கக்கூடியதா என்பதைப் பார்க்க உருவாக்கப்பட்டதால், மிகவும் குறைந்த கண்காணிப்புச் சாத்தியம் காணப்படுகிறது.
கண்காணிக்கக்கூடிய மற்றும் கண்காணிக்க முடியாத உதாரணங்கள்.
இந்த விளைவு-பண்பு எடுத்துக்காட்டில், மாதிரிக்கு ஒரு சாத்தியமற்ற குறியீட்டு பணி வழங்கப்படுகிறது. அலகு சோதனைகள் வெற்றியடையுமானால், மாதிரி ஏதோ ஒரு வகையான ஹேக்கைச் செய்தது என்று நாங்கள் அறிந்துகொள்கிறோம். கண்காணிக்க முடியாத CoT (சிவப்பு) இல், மாதிரி ஏதாவது தவறானது செய்யப்படுவதை குறிப்பிடும் எந்த ஆதாரத்தையும் நாங்கள் காணவில்லை, ஆனால் மாதிரி சோதனைகளை ஹேக் செய்து, பயனருக்கு அது சரிசெய்யப்பட்டதாக கூறுகிறது. கண்காணிக்கக்கூடிய CoT (பச்சை): மாதிரி ‘மங்கித் திருத்தம் செய்யும் நேரம் சற்று மோசடியாக இருக்கலாம்’ என சிந்திக்கிறது.
சிந்தனைத் தொடரை தனிப்பட்ட பணியிடமாகக் கருதி—அதைப் பயிற்சி செய்து மாதிரிகளை பணி முடிக்கச் செய்யும் திறனை வளர்த்தால்—சிந்தனைத் தொடர்களை கண்காணிக்கக் கூடியதாக மாற்றலாம். அதே நேரத்தில், சிந்தனைத் தொடரின் கண்காணிப்புத் திறனை மீளுறுதிக் கற்றல் பாதிக்கக்கூடிய பல காரணங்கள் உள்ளன.
முதலாவதாக, ஒரு மாதிரி சிந்திக்க வேண்டிய நேரம் அல்லது டோக்கன்களைக் கட்டுப்படுத்துவது போன்ற பகுத்தறிவு நீளத்தின் மீதான கட்டுப்பாடுகள், மாதிரிகள் குறைவாக பகுத்தறிவதற்கான ஊக்கங்களை உருவாக்குகின்றன. இரண்டாவதாக, சிந்தனைத் தொடரில்ல் நேரடி தேர்வுமுறை அழுத்தத்தைப் பயன்படுத்தாவிட்டாலும், மறைமுக அழுத்தங்கள் இன்னும் கண்காணிக்கும் தன்மையைக் குறைக்கலாம். உதாரணமாக(புதிய சாளரத்தில் திறக்கும்), மாதிரிகள் குறைவான வெகுமதி அல்லது விரும்பத்தகாத முடிவுகளை ஏற்படுத்தக்கூடிய காரணவிளக்க பாதைகளை தவிர்த்தால், அதிக வெகுமதி பதில்களை எளிதாக அடையலாம். இறுதியாக, வலுவூட்டல் கற்றல் சாய்வு இரைச்சலால் இயக்கப்படும் போலியான சறுக்கலால் குறைக்கப்பட்ட கண்காணிப்பு ஏற்படலாம்.
கீழே, OpenAI இன் எல்லை வலுவூட்டல் கற்றல் பயிற்சி ஓட்டங்களில் கண்காணிப்புத்திறன் எவ்வாறு மாறுகிறது என்பதை நாங்கள் ஆராய்வோம். இந்த முடிவுகள் இரண்டு தரவுப் புள்ளிகளை மட்டுமே பிரதிநிதித்துவப்படுத்தினாலும், அவை தற்போதைய எல்லை அளவுகளில் மீளுறுதிக் கற்றல் மேம்படுத்துதல் சிந்தனைத் தொடர் கண்காணிப்புத் திறனை பொருளாதார ரீதியாகக் குறைக்கவில்லை என்பதையும், ஆரம்ப கட்டங்களில் கண்காணிப்புத் திறனை அதிகரிக்கின்றன என்பதையும் குறிக்கின்றன. எனினும், இது மிகப் பெரிய அளவிலான மீளுறுதிக் கற்றல் அளவுகள் எதிர்காலத்தில் கண்காணிக்கக்கூடிய தன்மையை எதிர்மறையாக பாதிக்கக்கூடும் என்ற சாத்தியத்தை நிராகரிக்கவில்லை.
தற்போதைய மீள்பயிற்சி (RL) கணினிச் செயல்திறன் அளவுகளில், கண்காணிப்புச் சாத்தியம் மிகவும் மாறுவதில்லை, மேலும் ஆரம்ப படிகளில் இது அதிகரிக்கும் என்று நாங்கள் கண்டுபிடித்தோம். தற்போதைய சூழலில் இது உண்மையாக இருக்கலாம் என்றாலும், அளவு முக்கியமாக அதிகரித்தால் கண்காணிப்புச் சாத்தியம் துவக்கத்தில் குறைய ஆரம்பிக்கக்கூடும்.
தற்போதைய AI அமைப்புகளின் நுண்ணறிவு பெரும்பாலும் அதிகப்படியான முன்பயிற்சி அளவால் இயக்கப்படுகிறது, இதில் மாதிரி அளவுருக்கள் மற்றும் தரவுத்தொகுப்பு அளவுகள் GPT முறையின் தொடக்கத்திலிருந்து தொடர்ந்து வளர்ந்து வருகின்றன. அளவுரு எண்ணிக்கை அதிகரிப்பதால், உருவாக்கப்படும் ஒவ்வொரு டோக்கனுக்கும் அதிகமான அனுமானக் கணக்கீடு பயன்படுத்தப்படுகிறது, இது பகுத்தறிவு மாதிரிகளைப் பொறுத்தவரை, மாதிரியின் அறிவாற்றல் சிந்தனைச் சங்கிலிக்குள் அல்லாமல் செயல்படுத்தல்களுக்குள் நடைபெற அதிக வாய்ப்பை வழங்குகிறது. எனவே, பெரிய மாதிரிகள் நிலையான திறன் மட்டத்தில் குறைவாகக் கண்காணிக்கப்படும் என்று நாம் எதிர்பார்க்கலாம்.
அதே நேரத்தில், சிறிய மாதிரிகள் சிந்தனைச் சங்கிலியை திறம்படப் பயன்படுத்தும் திறன் குறைவாக இருக்கலாம் - இது கண்காணிக்கும் தன்மையையும் பாதிக்கலாம்.
முன் பயிற்சி அளவு, திறன் மற்றும் கண்காணிப்பு ஆகியவற்றுக்கு இடையேயான உறவை ஆராய, ஆழம் மற்றும் அகலத்தை அதிகரிக்கும் இரண்டு அளவு முன் பயிற்சி கணக்கீட்டு முறைகளுக்கு மேல் மாதிரிகளின் குடும்பத்திற்கு நாங்கள் பயிற்சி அளித்தோம், பின்னர் கணிதம், அறிவியல் மற்றும் குறியீட்டு பணிகளின் பகிரப்பட்ட தரவுத்தொகுப்பில் ஒவ்வொன்றிற்கும் வலுவூட்டல் கற்றலைப் பயன்படுத்தினோம். ஒவ்வொரு மாதிரியையும் பல்வேறு பகுத்தறிவு முயற்சிகள் மற்றும் பொருந்தக்கூடிய திறன் மட்டங்களில் ஒப்பிட்டுப் பார்த்தல் ஆகியவற்றின் மூலம் மதிப்பீடு செய்தோம்.

ஒவ்வொரு மாதிரியின் கண்காணிப்புத் தன்மையை எங்கள் மதிப்பீட்டு தொகுப்பில் வரைகிறோம், இது (GPQA-Diamond, AIME 2025, மற்றும் CodeForces போன்ற) தரநிலை திறன் மதிப்பீடுகளின் தொகுப்பில் சராசரி தேர்ச்சி விகிதத்துடன் ஒப்பிடப்படுகிறது. ஒவ்வொரு மாதிரியும் பல பகுத்தறிவு முயற்சிகளின் அடிப்படையில் மதிப்பீடு செய்யப்படுகிறது (இந்த படத்தில் உள்ள ஒவ்வொரு புள்ளியும் உண்மையில் அளவிடப்பட்ட பகுத்தறிவு முயற்சிகளுக்கு இடையிலான நேரியல் இடைமாற்றத்தின் முடிவாகும் என்பதை கவனிக்கவும்). அந்த குறிப்பிட்ட பகுத்தறிவு முயற்சியில் உள்ள மாதிரி, அந்த திறன் மட்டத்தில் கண்காணிக்கும் திறனில் ஆதிக்கம் செலுத்துகிறது என்பதை வட்டங்கள் குறிப்பிடுகின்றன, மேலும் வெளிப்படையான Xகள், அந்த குறிப்பிட்ட பகுத்தறிவு முயற்சியில் உள்ள மாதிரி, அந்த திறன் மட்டத்திற்கான மற்றொரு மாதிரியால் கண்காணிக்கும் திறனில் ஆதிக்கம் செலுத்துகிறது என்பதைக் குறிக்கின்றன. கருப்பு அம்புக்குறிகளில், சிறிய மாதிரியுடன் கூடிய பல டோக்கன்களை மாதிரியாகக் கொண்டு அல்லது அதே மாதிரியுடன் ஒப்பீட்டளவில் குறைவான கூடுதல் டோக்கன்களை மாதிரியாகக் கொண்டு, அதிக அனுமானக் கணக்கீட்டைச் செலவிட இரண்டு வழிகளின் எடுத்துக்காட்டுகளைக் காட்டுகிறோம். சிவப்பு அம்புக்குறிகளில், இடையில் செலுத்த வேண்டிய கண்காணிப்பு வரியைக் காட்டுகிறோம், அதாவது அதிக கண்காணிப்புக்கு சற்று குறைக்கப்பட்ட திறன்கள்.
பொதுவாக, ஒரு குறிப்பிட்ட மாதிரியை குறைந்த பகுத்தறிவு முயற்சியுடன் செயல்படுத்தினால், அதற்கு பதிலாக ஒரு சிறிய மாதிரியை அதிக பகுத்தறிவு முயற்சியுடன் செயல்படுத்தலாம் என்று நாங்கள் கண்டறிகிறோம். அசல் பெரிய மாதிரியிலிருந்து கூடுதல் கணக்கீட்டை அதிக பகுத்தறிவு முயற்சியில் செலவிடுவதோடு ஒப்பிடும்போது, ஒரு சிறிய திறன் செலவு அல்லது கண்காணிப்பு வரியில் அதிக கண்காணிப்புத்திறனைப் பெறலாம்; இருப்பினும், ஒரு நிறைவை முடிக்க எடுக்கும் சுவர் கடிகார நேரமும் சில வரிசைப்படுத்தல் முடிவுகளில் ஒரு காரணியாக இருக்கலாம், அதை நாங்கள் இங்கே கருத்தில் கொள்ளவில்லை. எங்கள் மாதிரிகள் மேம்பட்டு அதிக பங்கு அமைப்புகளில் பயன்படுத்தப்படுவதால், அவற்றைப் பாதுகாப்பாக பயன்படுத்த அத்தகைய வரியைச் செலுத்த வேண்டியிருக்கலாம்.
இந்த முடிவுகள் பின்வரும் வரம்புகளைக் கொண்டுள்ளன: (1) நாங்கள் ஒவ்வொரு மாதிரியையும் ஒரு முறை மட்டுமே பயிற்சி செய்கிறோம், எனவே பயிற்சி ஓட்டங்களில் உள்ள மாறுபாட்டைக் கணக்கில் எடுத்துக்கொள்வதில்லை. உதாரணமாக, ‘நடுத்தர (மீடியம்)’ மாதிரி, தொடரில் உள்ள மற்ற மாதிரிகளுடன் ஒப்பிடும்போது கண்காணிப்புச் சாத்தியத்தில் சற்றே வேறுபட்டது போல் தோன்றுகிறது; இதற்குக் காரணமாக இதுவே இருக்கலாம். (2) நாங்கள் திறன்களை மதிப்பீடு செய்கிறோம், குறிப்பாக உள்ள விநியோக அமைப்புகளில் (கணிதம், அறிவியல், மற்றும் குறியீட்டமைப்பு), மற்றும் வெளியே விநியோக வலிமையை கணக்கில் எடுத்துக்கொள்ளும்போது பரிமாற்றங்கள் மாறக்கூடும்.
AI அமைப்புகள் மனித நிலை செயல்திறனை மீறி விரிவடையும் போது, நேரடி மனித மேற்பார்வை மேலும் சிரமமாகிறது. இயல்பாக, நம்பகமான ஆனால் பலவீனமான கண்காணிப்பாளர்கள் வலுவான, நம்பகமற்ற ஏஜன்ட்களை மேற்பார்வையிட அனுமதிக்கும் அளவிடக்கூடிய கட்டுப்பாட்டு நடைமுறைகள் எங்களிடம் இருக்க வேண்டும். அந்த செயல்முறைகள் கூடுதல் பரிசோதனை நேரக் கணினிச் செயல்திறனையும் பராமரித்து, மேலும் துல்லியமான முன்னறிவிப்புகளை வழங்கக்கூடியவையாக இருக்க வேண்டும்.
(இடது) நாம் பல்வேறு கண்காணிப்பாளர்களை ஒப்பிடுகிறோம் மற்றும் ஒவ்வொன்றின் சிந்தனை முயற்சியை மாறுபடுத்துகிறோம். ஒவ்வொரு கண்காணிப்பாளரும் ஒரே GPT‑5 Thinking மாதிரியை கண்காணிக்கின்றது. எதிர்பார்த்தபடி, பொதுவாக பெரிய மற்றும் திறமையான மாதிரிகள் சிறந்த கண்காணிப்பாளர்களாக செயல்படுகின்றன, மேலும் அதிக தர்க்க முயற்சியுடன் காரணவிளக்கமளித்தல் மாதிரிகள் கண்காணிப்பு பணியில் சிறப்பாக செயல்படுகின்றன (அதனால் சோதனை நேர கணக்கீடு).
(வலது) OpenAI o4-mini- க்கான வெவ்வேறு கண்காணிப்பு கண்காணிப்பு நோக்கங்களை நாங்கள் ஒப்பிடுகிறோம், அதாவது மானிட்டர் CoT-ஐ மட்டும் பார்க்க முடியுமா, செயல்கள் மற்றும் பதில்களை மட்டும் பார்க்க முடியுமா அல்லது அது கண்காணிக்கும் மாதிரியிலிருந்து வரும் அனைத்து செய்திகளையும் பார்க்க முடியுமா. குறிப்பிடத்தக்க வகையில், அதிகரித்த சோதனை-நேர கண்காணிப்பு கணக்கீடு (அதிக கண்காணிப்பு பகுத்தறிவு முயற்சி) மூலம் கண்காணிப்பு திறன், மானிட்டருக்கு CoT அணுகலை வழங்கும்போது வேகமான விகிதத்தில் மேம்படுவதைக் காண்கிறோம். அதனால், CoT கண்காணிப்பு, நேரடியாக கண்காணிப்பை விட கட்டுப்பாட்டிற்கான மேலும் அளவீட்டு பாதையை வழங்கக்கூடும்.
சிந்தனைத் தொடர் கண்காணிப்பு பெரும்பாலும் ஒரு நிலையான அளவாகக் கருதப்படுகிறது: கொடுக்கப்பட்ட பகுத்தறிவு முயற்சியில் ஒரு மாதிரி ஒரு பதிலை உருவாக்கியவுடன், அதன் விளைவாக வரும் சிந்தனைத் தொடரை முடிந்தவரை சிறப்பாகக் கண்காணிக்கிறார். எங்கள் ஏஜன்ட்களின் பகுத்தறிவு முயற்சியை அதிகரிக்கும்போது கண்காணிப்புத்திறன் மேம்படுவதை நாங்கள் தொடர்ந்து கண்டறிந்ததால், கண்காணிக்க இன்னும் அதிக டோக்கன்களைப் பெற முடியுமா என்று கேட்க நாங்கள் தூண்டப்பட்டோம்.
இதனை ஆராய்வதற்காக, ஒரு மாதிரி பதிலளித்த பிறகு, தொடர்ச்சிப் பின்வினாக்கள் கேட்பதை பரிசோதித்தோம், அசல் தூண்டி, சிந்தனைச் சங்கிலி மற்றும் பதிலை சூழலில் வைத்துக்கொண்டு. இந்தப் பின்தொடர்தல்கள் கண்காணிக்கப்படும் சொத்தில் கவனம் செலுத்துகின்றன - எடுத்துக்காட்டாக, “உங்கள் பதிலைத் தேர்ந்தெடுக்க குறிப்பை அர்த்தமுள்ள வகையில் பயன்படுத்தினீர்களா?” அல்லது “நீங்கள் ஏதாவது திட்டவட்டமாகச் செய்தீர்களா?” முதன்மையாக, மாதிரி அதன் முந்தைய காரணங்களை அணுகுவதால், அது முந்தைய வெளிப்படுத்தப்படாத எண்ணங்களை தொடர்ச்சியான சிந்தனை அல்லது பதிலில் வெளிப்படுத்தக்கூடும்.
இந்த முடிவுகள் ஆரம்பகட்ட முடிவுகள். நாங்கள் ஒரு சிறிய எண்ணிக்கையிலான பின்தொடர்தல் கேள்வி வடிவங்களை மட்டுமே ஆராய்ந்தோம், மேலும் மேம்பட்ட வழிமுறைகளுக்கு கணிசமான இடம் இருப்பதாக நம்புகிறோம். மேலும், இந்த முறை மாதிரி ஒப்புக்கொள்ளுதல்களுக்கு உள்ளார்ந்த நோக்கிலும் ஒத்ததாக உள்ளது, மேலும் நாங்கள் அணுகுமுறைகளை ஒப்பிடுவதில் தீவிரமாக செயல்பட்டு வருகிறோம்.
நாங்கள் எங்கள் மதிப்பீட்டு தொகுப்பிலும், எங்கள் சமீபத்திய காரணவிளக்க மாதிரி மாதிரிகளான OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini, மற்றும் GPT‑5‑thinking ஆகியவற்றின் சராசரி முடிவுகளை காட்டுகிறோம். பொதுவாக, பின்தொடர்தல் கேள்விகள், குறிப்பாக குறைந்த பகுத்தறிவு முயற்சிகளில் கண்காணிக்கும் திறனை மேம்படுத்துகின்றன என்பதை நாங்கள் காண்கிறோம். நாம் தொடர்ந்து பின்தொடர்தல் கேள்விகளை கேட்டு, அனைத்து பின்தொடர்பு CoTs-ஐ கண்காணிப்பாளருக்கு வழங்கினால், கண்காணிப்புத் தன்மை மேலும் மேம்படும். குறிப்பாக, கண்காணிப்பாளருக்கு பின்வரும் பதில் மட்டுமே பார்க்க அனுமதிக்கும் போது, பின்வரும் சிந்தனைத் தொடரை (CoT) பார்க்க விடாத போது, அடிப்படை நிலையைவிட குறைவான முன்னேற்றம் காணப்படுகிறது. இது மாதிரிகள் பயனருக்கு நேரடியாக பதிலளிக்காமல் இருப்பதை, ஆனால் அவற்றின் சிந்தனைத் தொடரில் (CoT) கூடுதல் தகவல்களை வழங்குவதை குறிக்கிறது.
கண்காணிப்புத்திறனை மேம்படுத்துவதைத் தாண்டி, இந்த அணுகுமுறை கவர்ச்சிகரமானதாக இருக்கிறது, ஏனெனில் இது பிந்தைய காலத்திற்குப் பயன்படுத்தப்படலாம், மேலும் ஆழமான ஆய்வு தேவைப்படும்போது மட்டுமே கூடுதல் கணக்கீட்டு செலவை ஏற்படுத்தும். எதிர்காலத்தைப் பொறுத்தவரை, உரையாடலின் நடுவில் பகுத்தறிவு முயற்சியில் மாற்றங்களை எதிர்பார்க்க மாதிரிகள் பயிற்சி பெற்றால், ஆரம்ப பகுத்தறிவு முயற்சி குறைவாக இருந்தாலும் அல்லது இல்லாவிட்டாலும் கூட, உயர் பகுத்தறிவு முயற்சியில் பிந்தைய பின்தொடர்தல்கள் கண்காணிப்பு திறனை மேலும் மேம்படுத்தக்கூடும்.
எங்கள் தொகுப்பில் உள்ள ஒவ்வொரு மதிப்பீடும், காரணமறிதல் செயல்முறையின் ஒரு தனிப்பட்ட அம்சத்தை கண்காணிக்கக்கூடியதா என்பதை அளவிடுகிறது. நாம் பரவலான நடத்தை வகைகளை (உதாரணமாக, அடிமைத்தனம், தாமதப்படுத்துதல், பாகுபாடு, சூத்திரமயம், பரிசு ஏமாற்றல்) உள்ளடக்கக் கோட்பாட்டுடன் சோதிக்க முயற்சித்தாலும், இன்னும் சோதிக்கப்படாத பல பண்புகள் உள்ளன.
எந்தவொரு அளவுகோலையும் போலவே, எங்கள் மதிப்பீடுகளும் வரையறுக்கப்பட்ட யதார்த்தம் அல்லது அதிகரிக்கும் மதிப்பீட்டு விழிப்புணர்வால் பாதிக்கப்படலாம், மேலும் முடிவுகள் காடுகளில் தவறான நடத்தையைக் கண்டறிவதற்கு பொதுவானதாக இருக்காது.
இறுதியாக, சீரமைப்பு மேம்படும்போது, கட்டுப்படுத்தப்பட்ட மதிப்பீட்டு அமைப்புகளில் மாதிரிகள் குறைவாகவே தவறாக நடந்து கொள்ளலாம், இதனால் தவறான நடத்தையைக் கண்டறிவதை நம்பியிருக்கும் கண்காணிப்பு மற்றும் கட்டுப்பாட்டு மதிப்பீடுகளுக்குக் கிடைக்கும் சமிக்ஞை குறைகிறது. அந்த சந்தர்ப்பங்களில், "நடுநிலை" கண்காணிப்பு மதிப்பீடுகள் பொருந்தக்கூடியவையாகவே உள்ளன, ஆனால் அவை நிஜ உலகத் தோல்விகளை எவ்வளவு முன்னறிவிக்கின்றன என்பது ஒரு திறந்த கேள்வியாகவே உள்ளது.
ஒத்திசைவு பிரச்சனை முழுமையாக தீர்க்க முடியாவிட்டால், விரிவாக்கக்கூடிய கட்டுப்பாட்டு முறைகள் மிகவும் திறமையான மாதிரிகளை பாதுகாப்பாக வெளியிடும் திறனில் மிக முக்கியமானவை ஆகும். சிந்தனைத் தொடர் கண்காணிப்பு மற்றும் தொடர்புடைய முறைகள் நம்முடைய கட்டுப்பாட்டு முறைகளில் சில ஆக இருக்கக்கூடும். எங்கள் மாதிரிகளைப் பற்றி மேலும் புரிந்துகொள்வதில் சிந்தனைத் தொடர் பெரிய நன்மைகளைத் தரும், எ.கா. அவர்கள் ஒரு மதிப்பீட்டில் உள்ளதை உணர்ந்திருக்கிறார்களா, பயன்படுத்துவதில் இருந்து வித்தியாசமாக நடந்துகொள்கிறார்களா, எங்கள் மதிப்பீடுகளில் இன்னும் வெளிப்படுத்தப்படாத ஏதேனும் பாதகமான இலக்குகளுக்கான சான்றுகள் உள்ளதா, முதலியன. எப்போது மற்றும் எவ்வாறு கண்காணிக்க முடியாத நிலையை இழக்கலாம் என்பதைப் புரிந்து கொள்வது மிக முக்கியம் என்று நாங்கள் நம்புகிறோம்.
நாங்கள் சிந்தனைத் தொடர் கண்காணிப்பை இயந்திர விளக்கத்திற்கு மாற்றாக அல்ல, அதற்கு துணையாகக் காண்கிறோம். அறியப்பட்ட கட்டுப்பாட்டு மற்றும் விளக்கத்தன்மை முறைகள் போல, ஒவ்வொன்றுக்கும் வரம்புகள் மற்றும் மறைக்கப்பட்ட பகுதிகள் உள்ளன. எங்கள் எதிர்பார்ப்பு என்னவென்றால், பல்வேறு அணுகுமுறைகளை ஒருங்கிணைப்பது—ஒரு மூலமையான பாதுகாப்பு உத்தி—ஏதேனும் ஒரு முறை வெளிப்படுத்தும் இடைவெளிகளை மூட உதவ முடியும். குறிப்பாக, இந்த ஆய்வில் அறிமுகப்படுத்தப்பட்ட மதிப்பீடுகள், இயந்திரவியல் விளக்கத்திறன் அடிப்படையிலான கண்காணிப்பு நுட்பங்களை மதிப்பீடு செய்யவும் ஒப்பிடவும் பயன்படுத்தப்படலாம்.
நாங்கள் சிந்தனைச் சங்கிலி கண்காணிப்பு, அளவுகோலமான கட்டுப்பாட்டு திட்டத்தில் ஒரு ஏற்றவும் அடுக்காக இருக்கக்கூடும் என்று நம்புகிறோம். எனவே, இந்த மதிப்பீடுகளை விரிவாக்கி, எதிர்கால மாதிரி மற்றும் தரவுத் தீர்மானங்களைத் தகவலளிக்க அவற்றைப் பயன்படுத்த திட்டமிட்டுள்ளோம்.
ஆசிரியர்
மேற்கோள்கள்
எங்கள் மாதிரிகள் மருத்துவ நோயறிதல்களை வழங்குவதற்காக உருவாக்கப்படவில்லை, எனவே எங்கள் சுகாதார கேள்விகள் தரவுத்தொகுப்பு அந்த திறனை சோதிக்க உருவாக்கப்படவில்லை.


