29 மே, 2026

நம்பகமான மூன்றாம் தரப்பு மதிப்பீடுகளுக்கான பகிரப்பட்ட வழிகாட்டி

அதிநவீன மாடல்களுக்கான பாதுகாப்பு ஏற்பாடுகள் மற்றும் திறன்களின் பயனுள்ள சுயாதீன மதிப்பீடுகளுக்கு முக்கியமானவை எவை.

ஏற்றுகிறது…

சுயாதீனமான, நம்பகமான மூன்றாம் தரப்பு மதிப்பீடுகள் பாதுகாப்பு சூழலமைப்பை வலுப்படுத்துவதில் முக்கிய பங்கு⁠ வகிக்கின்றன. முக்கிய திறன்கள் மற்றும் பாதுகாப்பு தணிக்கைகள் பற்றிய கூற்றுகளுக்கு கூடுதல் ஆதாரம் வழங்க, இந்த மதிப்பீடுகள் அதிநவீன மாடல்களில் நடத்தப்படுகின்றன. இந்த இடுகையில், இதுவரை நாம் கற்றுக்கொண்ட பாடங்களைப் பகிர்கிறோம்; மேலும், இந்த துறையில் உருவாகும் தரநிலைகளுக்கு உதவுமென நாங்கள் நம்பும் வகையில், அதிநவீன மாடல்களை செல்லுபடியாக மதிப்பிடக்கூடிய மதிப்பீடுகளை வடிவமைப்பதற்கான அணுகுமுறைகளையும் பரிந்துரைக்கிறோம்.

முன்பு, பல மதிப்பீடுகள், மாடல்களை சாட்பாட்கள் போலவே கருதின: மதிப்பீடு, ஒரு பயனர் கேள்வி கேட்பது போல மாடலுக்கு ப்ராம்ப்ட் கொடுத்தது; மாடல் பதிலளித்தது; பின்னர் ஒரு மதிப்பீட்டாளர் வெளியீட்டை மதிப்பிட்டார். இன்றைய அதிநவீன மாடல்கள் இதைவிட மிகவும் அதிகம் செய்ய முடியும்: அவை கருவிகளைப் பயன்படுத்தலாம், பல படிகளுக்கு இடையில் தகவலை கண்காணிக்கலாம், மேலும் பெரிய பணிச்சுற்றுக்குள் செயல்படலாம். இதன் பொருள், செயல்திறன், மாடலின் மீது மட்டும் அல்ல; பணி நடைபெறும் சூழலின் மீதும், அதன் செயல்களை எளிதாக்கும் அமைவின் மீதும் சார்ந்துள்ளது. இந்தச் சுற்றியுள்ள அமைவை, நாம் “ஹார்னஸ்” என்று அழைக்கிறோம்; இது, கருவிகளை எவ்வாறு பயன்படுத்துகிறது, தகவலை எவ்வாறு கண்காணிக்கிறது, அல்லது தவறுகளில் இருந்து எவ்வாறு மீள்கிறது என்பதையும் உட்பட, முறைமையின் செயல்திறனின் முக்கிய அம்சங்களை மாற்றக்கூடும்.

ஒரு ப்ராம்ப்ட்-பதில் பணிச்சுற்றையும் ஒரு ஏஜென்டிக் பணி பணிச்சுற்றையும் ஒப்பிடும் வரைபடம்; கட்டுப்பாட்டு லூப்புகள், கருவிகள், சூழல், பட்ஜெட் மற்றும் பாதுகாப்பு ஏற்பாடுகள் தன்னாட்சி பணிச் செயல்பாட்டை எவ்வாறு செயல்படுத்துகின்றன என்பதைக் காட்டுகிறது.

இதனால், மதிப்பீடுகள் எவ்வாறு நடத்தப்பட வேண்டும் என்பதும், மதிப்பீட்டு அறிக்கைகளில் வாசகர்கள் எதை கவனிக்க வேண்டும் என்பதும் மாறுகிறது. எங்கள் பார்வையில், மிகவும் பயனுள்ள அறிக்கைகள் முடிவைத் தாண்டி இரண்டு விஷயங்களை வெளிப்படையாக விவரிக்கின்றன: முதலில், மதிப்பீட்டு அமைவு எந்தக் கூற்றைச் சோதிக்க வடிவமைக்கப்பட்டது என்பதைச் சொல்கின்றன; இரண்டாவது, மதிப்பீட்டு முடிவு செல்லுபடியாகும் என்பதற்கான கிடைக்கக்கூடிய ஆதாரத்தைப் பகிர்கின்றன.

மதிப்பீடுகளில் சோதிக்கப்படும் கூற்றுகள் பொதுவாக மூன்று வகைகளில் ஒன்றாக இருக்கும்¹:

திறன் வெளிக்கொணர்தல்: மதிப்பிடப்படும் திறனை ஒரு மாடல் நம்பத்தகுந்த வகையில் உருவாக்க முடியுமா?
பாதுகாப்பு ஏற்பாடுகளின் செயல்திறன்: மதிப்பிடப்படும் நடத்தை அல்லது தாக்குதலுக்கு எதிராக சோதிக்கப்பட்ட பாதுகாப்பு ஏற்பாடுகள் எவ்வளவு வலுவானவை?
ஒப்பீடு: சமமான நிபந்தனைகளின் கீழ் வெவ்வேறு மாடல்கள் எவ்வாறு செயல்படுகின்றன?

மதிப்பீட்டு அறிக்கைகள், ஒரு முடிவின் செல்லுபடித்தன்மையை பாதிக்கக்கூடிய விளைவுகளை மதிப்பீட்டாளர்கள் எவ்வாறு சரிபார்த்தார்கள் என்பதையும் விளக்க வேண்டும். இவற்றில் அடங்குபவை:

ரிவார்ட் ஹாக்கிங்: பணி அல்லது மதிப்பெண் நிர்ணயிப்பில் உள்ள குறுக்குவழிகளைப் பயன்படுத்தி, மதிப்பீடு அளவிட வேண்டிய நடத்தையை காட்டாமல் முறைமை பாராட்டைப் பெறுவது.
மறுப்புகள்: சோதிக்கப்படும் நடத்தையை மறைக்கும் வகையில் மறுப்பது.
கலப்பு மாசுபாடு: மதிப்பீட்டு பணிகள், பதில்கள் அல்லது அவற்றின் நெருங்கிய மாறுபாடுகள் பயிற்சி தரவில் தோன்றியதால் அல்லது உலாவல் போன்ற வழிகளில் மதிப்பீட்டின் போது கண்டறியப்பட்டதால், அதிகமாக செயல்படுவது.
சேதமான பிரச்சினைகள்: பணிகள் செல்லுபடியாகாததால் குறைவாக செயல்படுவது. இதற்கான காரணங்களில் அநியாயமான மதிப்பெண் நிர்ணயம் (எ.கா., சரியான பதிலுக்கு குறிப்பிடப்படாத செயலாக்க விவரங்கள் தேவைப்படுதல்) மற்றும் தீர்க்க முடியாத சூழல்கள் (எ.கா., முக்கிய கோப்புகள் இல்லாமை அல்லது நம்பகமற்ற கருவிகள்) அடங்கும்.
சாண்ட்பேக்கிங்: தங்களை மதிப்பிடுகிறார்கள் என்ற விழிப்புணர்வு தெரியும் போது திட்டமிட்டு குறைவாக செயல்படுதல்.

ஒரு மதிப்பீட்டிற்கான சரியான ஹார்னஸைத் தேர்வுசெய்வது சிறந்த முடிவுகளுக்கு மிகவும் முக்கியம்

நீண்ட பாதைகளில் செயல்படும் முறைமைகளுக்கு ஹார்னஸின் பங்கு மிகவும் முக்கியமானது என்பதை நாங்கள் கவனித்துள்ளோம். மாடல்கள் கருவிகளைப் பயன்படுத்தி, நிலையை பராமரித்து, பல படிகளில் தவறுகளில் இருந்து மீள முடியும் போது, ஹார்னஸ் காணப்படும் செயல்திறன் நிலையை மாற்றக்கூடும்; மேலும், மதிப்பிடப்படும் திறன் மதிப்பீட்டில் தோன்றுகிறதா என்பதையும் தீர்மானிக்கக்கூடும். உதாரணமாக, நிலையைப் பாதுகாத்து தோல்வியுற்ற செயல்களை மீண்டும் முயலும் ஹார்னஸ், அதே மாடல் எளிய ஹார்னஸில் ஒருபோதும் முடிக்காத பல-படி பணியை முடிக்க அனுமதிக்கலாம்.

கீழே உள்ள அட்டவணையில், மதிப்பீட்டாளர்கள் முன்வைக்க விரும்பக்கூடிய மூன்று வகை கூற்றுகளையும், ஒவ்வொரு வகை கூற்றுக்கும் தேவைப்படும் ஹார்னஸ் எது என்று நாங்கள் நம்புகிறோமோ அதையும் பிரித்துக் காட்டுகிறோம்.

மதிப்பீடு ஆதரிக்க முயலும் கூற்று	பொருத்தமான ஹார்னஸ் தேர்வு	அறிக்கையிட வேண்டிய ஆதாரம்
வலுவான வெளிக்கொணர்தலின் கீழ் திறன்: அதன் மிக வலுவான நம்பத்தகுந்த செயல்திறனை வெளிக்கொணருமாறு முறைமை வடிவமைக்கப்பட்டிருக்கும்போது, முறைமை A, X வகை பணிகளை முடிக்க முடியும்.	முறைமைக்கான மிக வலுவான நம்பத்தகுந்த வெளிக்கொணர்தல் அமைப்பைப் பயன்படுத்துங்கள்; இதில் திறமையான பயனர் நியாயமாகப் பயன்படுத்தக்கூடிய ஹார்னஸ், கருவிகள், ஆதரவு அமைப்பு மற்றும் பட்ஜெட் அடங்கும்.	ஹார்னஸ் மற்றும் கருவி அமைவு, வெளிக்கொணர்தல் வழிகாட்டல், அனுமதிக்கப்பட்ட பட்ஜெட்/முயற்சி, டோக்கன்கள்/செலவு/நேரம், மேலும் இந்த அமைவு கூறப்பட்ட திறனுக்கான நம்பத்தகுந்த பிரதிநிதி ஏன் என்பதும். வேறுபட்ட மேம்படுத்தப்பட்ட அமைவுகளின் கீழ் முறைமைகளை ஒப்பிடுகிறீர்கள் என்றால், அதை முறைமை-முறைமை அல்லது வலுவான-வெளிக்கொணர்தல் ஒப்பீடு என்று குறியிடுங்கள்.
கட்டுப்படுத்தப்பட்ட ஒப்பீடு: பகிரப்பட்ட மதிப்பீட்டு அமைவின் கீழ் முறைமை A, முறைமை B-ஐ விட சிறப்பாக செயல்படுகிறது.	பணிகள், மதிப்பெண் நிர்ணயம் மற்றும் பட்ஜெட்டை நிலையாக வைத்திருங்கள். ஒப்பிடப்படும் முறைமைகளுக்கு நியாயமான அதிகபட்ச வெளிக்கொணர்தலை வழங்க முன்கூட்டியே தேர்ந்தெடுக்கப்பட்ட பகிரப்பட்ட ஹார்னஸ்/கருவி அமைப்பையோ அல்லது நிலையான தரநிலைப்படுத்தப்பட்ட ஹார்னஸ்களின் தொகுப்பையோ பயன்படுத்துங்கள்.	பகிரப்பட்ட பணித் தொகுப்பு, கருவிகள், மதிப்பெண் நிர்ணய முறை, ஹார்னஸ், பட்ஜெட், டோக்கன் திறன்/செலவு மற்றும் அறியப்பட்ட வரம்புகள். கோடிங்-ஏஜென்ட் மதிப்பீடுகளுக்கு, Codex CLI போன்ற திறந்த மூல ஹார்னஸ், முறைமைகள் முழுவதும் நிலையான ஏஜென்ட் லூப் மற்றும் கருவி இடைமுகத்தை வழங்க முடியும். அதிகபட்ச வெளிக்கொணர்தலுக்கான சிறந்த அணுகுமுறை ஒவ்வொரு பணி மற்றும் முறைமைக்கும் தனிப்பயன் ஹார்னஸை மேம்படுத்துவதாக இருக்கும்; ஆனால் நடைமுறையில் அது தற்போது சாத்தியமற்றது.
வெளிக்கொணரப்பட்ட தாக்குதலின் கீழ் பாதுகாப்பு ஏற்பாடுகளின் வலிமை: தொடர்புடைய மாடல் நடத்தை அல்லது வெளிக்கொணரப்பட்ட தாக்குதலுக்கு முறைமை A-இன் பாதுகாப்பு ஏற்பாடுகள் போதுமானவை.	தொடர்புடைய எதிரி மாடலின் கீழ் மிக வலுவான நம்பத்தகுந்த தாக்குதலை வெளிக்கொணர வடிவமைக்கப்பட்ட பாதுகாப்பு-சோதனை அமைவைப் பயன்படுத்துங்கள்.	மதிப்பீட்டாளர்கள் தொடர்புடைய மாடல் நடத்தையை எவ்வாறு வகைப்படுத்தினர், சோதிக்கப்பட்ட பாதுகாப்பு கட்டமைப்பு, வெளிக்கொணர்தல் உத்தி, அதை செயல்படுத்த பயன்படுத்திய ஹார்னஸ், மற்றும் அனுமதிக்கப்பட்ட பட்ஜெட் அல்லது முயற்சி.

திறன் குறித்த கூற்றுகள், அவற்றின் பின்னுள்ள வெளிக்கொணர்தலின் வலிமைக்கு இணையானவையே: மதிப்பீட்டாளர்கள், பணி மற்றும் மதிப்பீடு அளவிட முயலும் திறனுக்கு மிகச் சிறப்பாகப் பொருந்தும் ஹார்னஸைத் தேர்ந்தெடுக்க வேண்டும். ஒரே மாதிரியான நிபந்தனைகளில் முறைமைகளை ஒப்பிட தரநிலைப்படுத்தப்பட்ட ஹார்னஸ் சரியாக இருக்கலாம்; ஆனால், மாடல் பணியைச் செய்ய உதவும் குறிப்பிட்ட ஹார்னஸ் அம்சங்களை அது விடுத்துவிட்டால், திறனை குறைவாகக் காட்டக்கூடும். உதாரணமாக, OpenAI-இன் சைபர் வரம்புகளில் GPT‑5.5‑இன் செயல்திறன், நீண்ட, பல-படி கருவி பயன்பாடு தேவைப்படும் பணிகளில் ஹார்னஸ் தேர்வு அளவிடப்பட்ட திறனை எவ்வாறு கணிசமாக மாற்ற முடியும் என்பதை காட்டுகிறது: ஊடாடல் நீளமாகும் போது பணிக்கு தொடர்புடைய சூழலைப் பாதுகாக்க ஹார்னஸ், காம்பாக்ஷனைப்⁠ பயன்படுத்தும் போது மாடல் சிறப்பாக செயல்படுகிறது. இதனால், சில மாடல்களுக்கு காம்பாக்ஷனை விடுக்கும் ஹார்னஸ் செயல்திறனை போதுமான அளவு வெளிக்கொணராது என்பது தெளிவாகிறது.

அதிக வெற்றி விகிதங்கள் சிறந்தவை

பிற வெளியிடப்பட்ட மதிப்பீடுகளும்² ஹார்னஸ் மற்றும் பட்ஜெட் தேர்வுகள் மதிப்பீட்டு முடிவுகளை மாற்றுவதை காட்டுகின்றன. சோதனை நேர கணக்கீட்டை அதிகரிப்பது, ஒரு மதிப்பீடு எந்த திறனை வெளிக்கொணருகிறது என்பதை குறிப்பிடத்தக்க அளவில் மாற்றக்கூடும், குறிப்பாக பல சைபர் பணிகள் போன்ற, வெற்றியை எளிதாகச் சரிபார்க்கக்கூடிய துறைகளில். UK AISI-யின் சைபர் வரம்பு மதிப்பீட்டில்⁠(புதிய சாளரத்தில் திறக்கும்), பட்ஜெட்டை 10M இலிருந்து 100M டோக்கன்களாக உயர்த்தியதில் செயல்திறன் 59% வரை மேம்பட்டது; மேலும், சோதிக்கப்பட்ட மிக உயர்ந்த பட்ஜெட்டிலும் செயல்திறன் இன்னும் உயர்ந்து கொண்டே இருந்தது. இதனை விவரிப்பது மதிப்பீட்டை மேலும் விளக்கமாக்குகிறது: சோதிக்கப்பட்ட வெளிக்கொணர்தல் அமைப்பின் மீது முடிவு எவ்வாறு சார்ந்துள்ளது என்பதை இது வாசகர்களுக்கு காட்டுகிறது. கூடுதல் பட்ஜெட்டுடன் செயல்திறன் இன்னும் மேம்பட்டு கொண்டிருந்தால், அந்த மதிப்பெண் அந்த ஹார்னஸ் மற்றும் பட்ஜெட்டின் கீழான செயல்திறன் என்று விவரிக்கப்பட வேண்டும்; அளவிடப்பட்ட திறன் உச்சவரம்பாக அல்ல. திறன் என்பது, ஒருமுறை அளந்து முடித்துவிடக்கூடிய நிலையான அளவு அல்ல; அது பெரும்பாலும் வளங்களின் மீது சார்ந்ததாகும். மீண்டும் மீண்டும் முயற்சிகளில் வெற்றியை அளவிட முடியும் இடங்களில், அறிக்கைகள் நிலையான டோக்கன் பட்ஜெட்டில் உள்ள வெற்றி விகிதத்தை மட்டும் அல்லாமல், ஒவ்வொரு வெற்றிகரமான தீர்விற்கும் எதிர்பார்க்கப்படும் செலவையும் கருத்தில் கொள்ள வேண்டும். இது தீவிரத்தன்மையை விளக்க எளிதாக்கலாம்: மீண்டும் மீண்டும் முயற்சிகளின் செலவு தொடர்புடைய அச்சுறுத்தல் மாடலுக்குள் இருந்தால், குறைந்த வெற்றி விகிதமும் நடைமுறையில் முக்கியமானதாக இருக்கலாம். திறன் குறித்த கூற்றுகளுக்கு, தவிர்க்கக்கூடிய குறைவான வெளிக்கொணர்தல் என்பது அளவீட்டு தோல்வி: ஹார்னஸ் அல்லது பட்ஜெட், முறைமை இல்லையெனில் உருவாக்கக்கூடிய நடத்தையை வெளிப்படுத்தத் தடுத்தால், அந்த மதிப்பெண் கூறப்படும் திறனை அளவிடுவதில்லை. மதிப்பீட்டாளர்கள் சாத்தியமான அளவு வரை வெளிக்கொணர்தலை முன்னெடுத்தும் செயல்திறன் இன்னும் மேம்பட்டு கொண்டிருந்தால், அறிக்கைகள் அதைத் தெளிவாகச் சொல்ல வேண்டும்; மேலும், முடிவு கீழ்-வரம்பு மதிப்பீடு மட்டுமே என்பதையும் தெளிவுபடுத்த வேண்டும்.

தனிப்பயன் ஹார்னஸ்கள் உட்பட, தாக்குதலாளர்களுக்கு கிடைக்கும் வளங்களை கணக்கில் கொள்ளாதபோது, பாதுகாப்பு சோதனை ஒரு தாக்குதல் வெற்றி பெறுமா, அது எவ்வளவு தீவிரமாக இருக்கலாம் என்பதையும் குறைவாகக் காட்டக்கூடும். இந்த UK AISI-இன் GPT‑5.5 சைபர் மதிப்பீட்டில்⁠(புதிய சாளரத்தில் திறக்கும்), அவர்களின் நிபுணர் ரெட் டீமிங், OpenAI வழங்கிய தீங்கிழைக்கும் கேள்விகள் முழுவதும், பல-முறை ஏஜென்டிக் அமைப்புகளையும் சேர்த்து, விதிமீறும் சைபர் உள்ளடக்கத்தை வெளிக்கொணர்ந்த ஓர் உலகளாவிய ஜெயில்பிரேக்கை கண்டறிந்தது. மாடலின் தாக்குதல் செயல்திறனை வலுப்படுத்த அவர்கள் தனிப்பயன் ஹார்னஸை உருவாக்க Codex-ஐ பயன்படுத்தினர்: அது மீண்டும் பயன்படுத்தக்கூடிய பாதுகாப்பு-மீறல் வடிவத்தை தொடர்புக்குள் உட்பொதித்தது, அந்த வடிவத்தை முறைமாற்றங்களிலும் தொகுதிகளிலும் பாதுகாத்தது, மேலும் OpenAI வழங்கிய தீங்கிழைக்கும் சைபர் கேள்விகள் முழுவதும் அதை பயன்படுத்தியது. பாதுகாப்பு சோதனை எதிரியுடன் பொருந்த வேண்டும். கூற்று, நிபுணர் தவறான பயன்பாட்டிற்கு எதிரான வலிமையைப் பற்றியதாக இருந்தால், சோதனை வரையறுக்கப்பட்ட பட்ஜெட்டின் கீழ் மிக வலுவான நம்பத்தகுந்த தொடக்கம்-முதல்-முடிவு தாக்குதல் உத்தியை மதிப்பிட வேண்டும்; அதில் அந்த உத்தியைப் பாதுகாத்து மீண்டும் பயன்படுத்த தேவையான எந்த ஹார்னஸும் அடங்கும். இல்லையெனில், முடிவுகள் தவறாக அளவிடப்படும் அபாயம் உண்டு: அவை எளிய ப்ராம்ப்ட்டிங்கிற்கு எதிரான எதிர்ப்பைப் பற்றிய குறுகிய கூற்றை மட்டுமே ஆதரிக்கக்கூடும்; வெளிக்கொணர்தல் முறை செயல்படுத்தப்பட்டபின் தாக்குதல் எவ்வளவு தீவிரமாகிறது, அதன் வெற்றியின் சாத்தியம் என்ன என்பதையும் தவறவிடக்கூடும்; மேலும், மிக அதிக பட்ஜெட் கொடுக்கப்பட்டால், ஒரு பிரச்சினை எவ்வளவு சாத்தியமானது அல்லது தீவிரமானது என்பதையும் அதிகமாகக் காட்டக்கூடும்.

தரநிலைப்படுத்தப்பட்ட ஹார்னஸ் ஒப்பீடுகளுக்கான நேரமும் இடமும் உண்டு; ஆனால், ஒரே மாதிரியான ஹார்னஸ்களின் தொகுப்பைப் பயன்படுத்துவது ஏன் பொருத்தமானது, அது எந்தக் கூற்றை ஆதரிக்க முடியும் என்பதைக் குறித்து மதிப்பீட்டாளர்கள் வெளிப்படையாக இருக்க வேண்டும். METR-ன் நேர-வரம்பு மதிப்பீடு⁠(புதிய சாளரத்தில் திறக்கும்) என்பது விரிவான, பொருத்தமாக நிலைநிறுத்தப்பட்ட மதிப்பீட்டு அமைவின் ஓர் உதாரணம்: அது மதிப்பிடும் முறைமைகள் முழுவதும் ஒப்பிடக்கூடிய முடிவுகளை உருவாக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளது. METR ஒரு பொதுவான முடிவை வரையறுக்கிறது; அதாவது, ஒரு AI ஏஜென்ட் குறிப்பிட்ட நம்பகத்தன்மை மட்டத்தில் வெற்றி பெறும் என்று கணிக்கப்படும் மனிதப் பணியின் வழக்கமான காலநீளம். ஒன்றாக அறிக்கையிடப்படும் ஒவ்வொரு மதிப்பீட்டு தொகுதியிலும், அது பகிரப்பட்ட பணித் தொகுப்பு, மதிப்பெண் நிர்ணய முறை, பொருத்தும் முறை, மேலும் Triframe மற்றும் ReAct⁠(புதிய சாளரத்தில் திறக்கும்) போன்ற மீண்டும் பயன்படுத்தக்கூடிய சிறிய ஆதரவு அமைப்புகளின் தொகுப்பைப் பயன்படுத்துகிறது. METR, பணித் தொகுப்பை விரிவுபடுத்தி, Vivaria எனப்படும் கட்டமைப்பிலிருந்து Inspect எனப்படும் ஒன்றுக்கு மதிப்பீட்டு உள்கட்டமைப்பை மாற்றியபோது, அந்த மாற்றத்தை (Time Horizon 1.1 புதுப்பிப்பு⁠(புதிய சாளரத்தில் திறக்கும்)) அறிக்கையிட்டது; மேலும், புதிய மதிப்பீட்டு அமைவின் கீழ் மாடல்களை மீண்டும் மதிப்பிட்டது. இதுவே, ஒரே மாதிரியான ஹார்னஸ் தொகுப்பை உள்ளடக்கிய தரநிலைப்படுத்தப்பட்ட மதிப்பீட்டு அமைவின் மதிப்பு: மதிப்பெண்களில் உள்ள வேறுபாடு உண்மையில் ஒப்பிடப்படும் முறைமைகளுக்கிடையேயான வேறுபாட்டை பிரதிபலிக்கிறது; அளவீட்டு அமைவில் ஏற்பட்ட மாற்றத்தை அல்ல என்பதை வாசகர்கள் நம்ப முடியும்.

மூன்றாம் தரப்பு மதிப்பீட்டு அறிக்கைகள், தங்களின் மதிப்பீட்டு அமைவு எந்த வகை கூற்றை ஆதரிக்க உருவாக்கப்பட்டது என்பதைச் சொல்ல வேண்டும்; சோதிக்கப்பட்டது அந்த விரிவான கூற்றை எவ்வளவு நெருக்கமாக பிரதிபலிக்கிறது என்பதை விவரிக்க வேண்டும்; முடிவை வடிவமைத்த ஹார்னஸ் தேர்வுகளை விளக்க வேண்டும்; மதிப்பீடுகளுக்கு இடையில் அந்தத் தேர்வுகள் எப்போது மாறுகின்றன என்பதைத் தெளிவுபடுத்த வேண்டும்; மேலும், முடிவு எவ்வாறு உருவாக்கப்பட்டது மற்றும் அது கூற்றிற்கு எவ்வளவு நன்றாக பொதுமைப்படுத்தப்படுகிறது என்பதை காட்ட ஆதரவு ஆதாரங்களையும் சேர்க்க வேண்டும் என்று நாங்கள் பரிந்துரைக்கிறோம்.

முடிவுகளை சிதைக்கக்கூடிய அறியப்பட்ட அபாயங்களைச் சரிபார்த்து செல்லுபடித்தன்மையை மதிப்பிடுங்கள்

மாடல்கள் அதிக திறன் பெறும் போது, மதிப்பீட்டு மதிப்பெண்களை தவறாகப் புரிந்துகொள்வது எளிதாகிறது. உண்மையான திறன்களுடன் ஒப்பிடும்போது, ஒரு மாடல் தன்னை மதிப்பிடுகிறார்கள் என்பதை அறிந்து திட்டமிட்டு குறைவாக செயல்பட்டால், மதிப்பீட்டு மதிப்பெண்கள் செயற்கையாகக் குறையக்கூடும். மாடல் பணி, ப்ராம்ப்ட், மதிப்பெண் நிர்ணயிப்பான் அல்லது ஹார்னஸில் உள்ள குறுக்குவழியைப் பயன்படுத்தினால், அவை செயற்கையாக உயரக்கூடும். கலப்பு மாசுபாடு (ஒரு மாடல் பணியைத் தீர்க்காமல் பதிலை ஏற்கனவே அறிந்திருப்பது அல்லது கண்டுபிடிக்க முடிவது) அல்லது தெளிவற்ற, தவறாக மதிப்பிடப்பட்ட, தீர்க்க முடியாத, அல்லது எதிர்பாராத குறுக்குவழிகளுக்கு உட்பட்ட “சேதமான” பிரச்சினைகளாலும் அவை சிதைக்கப்படலாம். எனவே, மதிப்பீட்டு அறிக்கைகள் தலைப்பு மதிப்பெண்களுடன் இவ்வகை அபாயங்கள் பற்றிய விவாதத்தையும் இணைக்க வேண்டும்; அப்போதுதான் மதிப்பெண்கள் நோக்கமிட்ட நடத்தையை பிரதிபலிக்கிறதா என்பதை வாசகர்கள் மதிப்பிட முடியும்.

ஹார்னஸ்கள், பட்ஜெட்டுகள், கருவிகள், மதிப்பெண் விதிகள், கண்காணிப்புகள் மற்றும் ஆய்வு நடைமுறைகள் அனைத்தும், ஓர் ஏஜென்ட் நோக்கமிட்ட பணியைத் தீர்க்கிறதா, அதைத் தவிர்க்கிறதா, மனப்பாடம் செய்கிறதா, அல்லது அதைச் சுற்றி ஒரு வழியை கண்டுபிடிக்கிறதா என்பதை பாதிக்கின்றன. நம்பகமான அறிக்கை இந்தச் சரிபார்ப்புகளை வெளிப்படையாகக் காட்டுகிறது: ஒவ்வொரு முறையும் ஒரு மதிப்பீடு நடத்தப்படும் போது, மதிப்பீட்டாளர்கள் இந்த நடத்தைகளுக்காக மாதிரிகளை ஆய்வு செய்ய வேண்டும்.

ரிவார்ட் ஹாக்கிங்

ரிவார்ட் ஹாக்கிங் என்பது நோக்கமிட்ட திறனை பிரதிபலிக்காத வழிகளில் உயர்ந்த மதிப்பீட்டு மதிப்பெண்களைப் பெறுவதாகும். இங்கு கவலை என்னவென்றால், மதிப்பீடு அளவிட வேண்டிய வேலையைச் செய்வதற்குப் பதிலாக, பணி, மதிப்பெண் நிர்ணயிப்பான், ப்ராம்ப்ட் அல்லது ஹார்னஸை பயன்படுத்தி முறைமை பாராட்டைப் பெறுகிறது. GPT 5.4 குறித்த METR-இன் மதிப்பீடு⁠(புதிய சாளரத்தில் திறக்கும்) இது ஏன் முக்கியம் என்பதை காட்டுகிறது: முதல் பார்வையில் சுமார் 13 மணி நேர நேர-வரம்பாகப் பதிவாகியிருக்கும் விகிதத்தில் மாடல், பணிகளில் வெற்றி பெற்றிருந்தாலும், மனித ஆய்வு அந்த வெற்றிகளில் சில ரிவார்ட் ஹாக்கிங்கால் வந்தவை என்பதை காட்டியது; மேலும், ரிவார்ட் ஹாக்கிங் இல்லாத நிகழ்வுகளை மட்டும் கணக்கில் கொண்டு முடிவுகளை திருத்தியபோது, மதிப்பீடு சுமார் 6 மணிநேரமாகக் குறைந்தது. இத்தகைய திருத்தங்கள் தேவையா என்பதை மதிப்பீட்டாளர்கள் மதிப்பிட வேண்டும்; அவை தேவைப்பட்டால், அவற்றைத் தெளிவாக அறிக்கையிட வேண்டும்: எந்த வெளிப்படையான வெற்றிகள் தகுதி நீக்கம் செய்யப்பட்டன, ஏன் அவை தகுதி நீக்கம் செய்யப்பட்டன, முடிவு அந்தத் தீர்ப்பின் மீது எவ்வளவு சார்ந்துள்ளது என்பதை வாசகர்கள் பார்க்க முடியும் போது, திறன் மதிப்பீடு மிகவும் பயனுள்ளதாக இருக்கும்.

போக்கு கோடும் நம்பகத்தன்மை இடைவெளிகளும் உடன் காலப்போக்கில் AI மாடல் செயல்திறனை காட்டும் வரைபடம்.

மறுப்புகள்

பாதுகாப்பு ஏற்பாடுகளால் மாடல்கள் திறன் மதிப்பீடுகளில் குறைவாக செயல்படவும் முடியும். மதிப்பீட்டு பணிகளை முடிப்பதற்குப் பதிலாக அவற்றை மறுப்பதால், ஒரு மாடலின் மதிப்பீட்டு செயல்திறன் அது உண்மையில் செய்யக்கூடிய அளவை விடக் குறைவாக இருக்கலாம். எனவே, மறுப்புகள், மதிப்பீட்டு முடிவுகளின் ஒரு பகுதியாக இருந்தனவா, இருந்தால் அவற்றால் எத்தனை மாதிரிகள் பாதிக்கப்பட்டன என்பதையும் அறிக்கைகள் விளக்க வேண்டும்.

கலப்பு மாசுபாடு

பொது அல்லது மீண்டும் பயன்படுத்தப்படும் பெஞ்ச்மார்க்குகளுக்குக்⁠ கலப்பு மாசுபாடு மிக முக்கியமானது. பணிகள், பதில்கள் அல்லது அவற்றின் நெருங்கிய மாறுபாடுகள் பயிற்சி தரவில் தோன்றினால் அல்லது உலாவலுடன் கூடிய ஏஜென்ட் அவற்றைக் கண்டுபிடிக்க முடிந்தால், செயல்திறன் மாடலின் செயல்திறனை விட மனப்பாடம் அல்லது மீட்டெடுப்பை பிரதிபலிக்கக்கூடும். சாத்தியமான இடங்களில், மதிப்பீட்டாளர்கள் தனிப்பட்ட அல்லது புதிதாக உருவாக்கப்பட்ட பணிகளை விரும்ப வேண்டும்; மேலும், தீர்ப்பதற்கு முன் மாடல்கள் பணி-சார்ந்த விவரங்களை மீண்டும் உருவாக்குகிறதா என்பதையும் சோதிக்க வேண்டும்.

சேதமான பிரச்சினைகள்

சேதமான பிரச்சினைகளில், தவறுதலாகத் தீர்க்க முடியாத பிரச்சினை போன்ற சூழல்கள் அடங்கும். சேதமான பிரச்சினைகள் போதுமான அளவு பொதுவானவை⁠(புதிய சாளரத்தில் திறக்கும்); ஆகவே அவை ஒரு நிலையான செல்லுபடித்தன்மை அபாயமாகக் கருதப்பட வேண்டும். இவற்றில் தவறான அடிப்படை உண்மை, தெளிவற்ற ப்ராம்ப்ட்கள், காணாமல் போன கோப்புகள், நிலைகுலையும் சேவைகள், அநியாயமான மதிப்பெண் அளவுகோல்கள் மற்றும் மறைக்கப்பட்ட பதில் கோப்புகள் அல்லது அடிப்படை-உண்மை பேட்ச் கொண்ட ரிபாசிட்டரி வரலாறு போன்ற குறுக்குவழிகளை வெளிப்படுத்தும் சூழல்கள் அடங்கும்.

சாண்ட்பேக்கிங்

ஒரு மாடல் அல்லது முறைமை, சாண்ட்பேக்கிங் செய்கிறது என்பதன் பொருள், வலுவான செயல்திறன் ஏதோ ஒரு நோக்கத்துடன் முரண்படும் போது திட்டமிட்டு குறைவாக செயல்படுவதாகும். Apollo-இன் GPT‑5.5 மதிப்பீடு⁠(புதிய சாளரத்தில் திறக்கும்), உயர்ந்த மதிப்பீட்டு மதிப்பெண்கள் கற்றல் அற்ற தன்மையைத் தூண்டக்கூடும் அல்லது பயன்படுத்தலைத் தடுக்கக்கூடும் என்பதை மாடல் புரிந்துகொள்ளும் ஒரு சூழலை உருவாக்கி இதைச் சோதித்தது. GPT‑5.5 இன்னும் சரியாகப் பதிலளித்தது; இது திட்டமிட்ட குறைவான செயல்திறனுக்கான நடத்தை ஆதாரம் மிகக் குறைவு என்பதைச் சுட்டிக்காட்டுகிறது³. ஆனால், ரீஸனிங் தடங்களின் மீதான அவர்களின் ஆய்வு முக்கியமான கூடுதல் சூழலை வழங்கியது: எதிர் உண்மைகளில் 0% உடன் ஒப்பிடும்போது, சாண்ட்பேக்கிங் நிலை மாதிரிகளில் 52%-இல் சீரமைப்பு மதிப்பீட்டு விழிப்புணர்வின் மிதமான அல்லது அதற்கு மேற்பட்ட அறிகுறிகளை Apollo கண்டறிந்தது. அந்த ஆதாரம் முடிவின் விளக்கத்தை சிக்கலாக்குகிறது; ஆனால் இறுதியில் வாசகர்களுக்கு அதிக சிக்னலை வழங்குகிறது: நிம்மதி தரும் நடத்தை முடிவையும், அதை மிகையாகப் பொருள்படுத்தாமல் எச்சரிக்கையாக இருக்க வேண்டிய காரணத்தையும் வாசகர்கள் இரண்டையும் பார்க்க முடியும்.

வலுவான மதிப்பீடுகளை ஆதரிக்க நாங்கள் எவ்வாறு செயல்படுகிறோம்

வலுவான கூற்றுகளுக்கு, நடத்தையை வெளிக்கொணர சரியான ஹார்னஸும், முடிவு நம்பகமானது என்பதை காட்ட செல்லுபடித்தன்மைச் சரிபார்ப்புகளும் இரண்டும் தேவை. ஹார்னஸ்களும் செல்லுபடித்தன்மைச் சரிபார்ப்புகளும் மதிப்பீட்டு முடிவின் ஒரு பகுதியாகும் என்ற எங்கள் பார்வை, நடைமுறையில் மூன்றாம் தரப்பு மதிப்பீடுகளை எவ்வாறு ஆதரிக்கிறோம் என்பதை வடிவமைக்கிறது:

மதிப்பீட்டாளர்களுடன் குறிப்பிட்ட அதிகபட்ச-வெளிக்கொணர்தல் வழிகாட்டுதலை நாங்கள் பகிர்கிறோம்.
OpenAI மாடல்களுக்கு Codex-ஐ ஒரு பொதுவான அடித்தளமாகப் பயன்படுத்துமாறு திறன் மதிப்பீட்டாளர்களிடம் நாங்கள் கேட்கிறோம்: சோதனைகள், குறைக்கப்பட்ட மாடல் இடைமுகம் வழியாக மட்டும் அல்லாமல், பயனர்கள் நம்பக்கூடிய அதே ஏஜென்டிக் இடைமுகம் வழியாக குறைந்தபட்சம் ஒரு அடிப்படை நிலையை இயக்க வேண்டும்.
ஏமாற்றம், சாண்ட்பேக்கிங் அல்லது மதிப்பீட்டு விழிப்புணர்வை மதிப்பிட அவை தேவைப்படும் இடங்களில், ரீஸனிங் தடங்கள் மற்றும் பிற இடைநிலை ஆதாரங்களையும் நாங்கள் கிடைக்கச் செய்கிறோம். GPT‑5 முதல் OpenAI மதிப்பீடுகளில் METR மற்றும் Apollo இந்த அணுகலைப் பயன்படுத்தியுள்ளன.
இறுதியாக, சூழல் மேலாண்மை மற்றும் கருவி அணுகலிலிருந்து மறுமுயற்சி நடத்தை, மதிப்பெண் நிர்ணயம் மற்றும் வள பட்ஜெட்டுகள் வரை, ஹார்னஸ் தேர்வுகள் எப்போது, எவ்வாறு முடிவுகளை கணிசமாக மாற்றுகின்றன என்பதை ஆழமாகப் புரிந்துகொள்ளும் ஆராய்ச்சிக்கு நாங்கள் முன்னுரிமை அளிக்கிறோம்.

மதிப்பீட்டு தரநிலைகள் மற்றும் எதிர்கால ஆராய்ச்சி திசைகளுக்கு இதன் பொருள் என்ன

இந்த பரிந்துரைகள் தனிப்பட்ட மதிப்பீட்டு அறிக்கைகளை மேம்படுத்துவதற்காக மட்டுமல்ல; அதிநவீன AI மதிப்பீடு மற்றும் அறிக்கையிடலுக்கான உருவாகும் தேசிய ⁠(புதிய சாளரத்தில் திறக்கும்)மற்றும் சர்வதேச ⁠(புதிய சாளரத்தில் திறக்கும்)தரநிலைகளுக்கும் தகவல் வழங்கும் நோக்கத்துடனும் உள்ளன. இனிமேல், மூன்றாம் தரப்பு மதிப்பீட்டு தரநிலைகள், குறிப்பிட்ட மதிப்பீடுகள் எந்தக் கூற்றுகளை ஆதரிக்கின்றன, எந்த முறைமை சோதிக்கப்பட்டது, முடிவு எவ்வாறு வெளிக்கொணரப்பட்டது, மற்றும் அதன் செல்லுபடித்தன்மையை மதிப்பீட்டாளர்கள் எவ்வாறு சரிபார்த்தார்கள் என்பதை முடிவெடுப்போர் புரிந்துகொள்ள போதுமான விவரங்களை கட்டாயப்படுத்த வேண்டும். ஏஜென்டிக் திறன்கள் முக்கியமான பணிகளில் சோதிக்கப்படும் அதிநவீன முறைமைகளுக்கு, விவரங்களில் (பாதுகாப்பு அல்லது ரகசியத் தேவைகளுக்கு உட்பட்டு) பின்வருவன அடங்க வேண்டும்:

கூற்று: மதிப்பீடு முறைமைகளை ஒப்பிடுகிறதா, திறன் உச்சவரம்பை மதிப்பிடுகிறதா, அல்லது பாதுகாப்பு ஏற்பாடுகளைச் சோதிக்கிறதா என்பதைக் குறிப்பிடுதல்.
மதிப்பீட்டு உள்ளடக்கம்: மதிப்பீடு உண்மையில் எந்த திறன்கள், நடத்தைகள் அல்லது தோல்வி முறைகளைச் சோதிக்கிறது என்பதை வாசகர்கள் புரிந்துகொள்ள, பணிகள் அல்லது பணிப் பகிர்வைப் பற்றிய போதுமான விவரம்.
சோதிக்கப்பட்ட முறைமை: மாடல், ரீஸனிங் அமைப்பு, கருவி அணுகல், ஹார்னஸ் மற்றும் பாதுகாப்பு ஏற்பாடுகள்.
பட்ஜெட்: முறைமாற்றங்கள், டோக்கன்கள், முயற்சிகள்/மறுமுயற்சிகள், மொத்த நேரம், ஊகச் செலவு, மற்றும் பொருந்தும் இடங்களில் ஒவ்வொரு வெற்றிகரமான தீர்விற்கும் எதிர்பார்க்கப்படும் செலவு.
வெளிக்கொணர்தல் முறைகள்: முடிவை வெளிக்கொணர பயன்படுத்தப்பட்ட ஹார்னஸ் தேர்வுகள், மேலும் சோதிக்கப்பட்டது முன்வைக்கப்படும் விரிவான கூற்றை எவ்வளவு நெருக்கமாக பிரதிபலிக்கிறது என்பதும்.
செல்லுபடித்தன்மைச் சரிபார்ப்புகள்: ரிவார்ட் ஹாக்கிங், மதிப்பீட்டு விழிப்புணர்வு, கலப்பு மாசுபாடு, மறுப்புகள், சாண்ட்பேக்கிங் மற்றும் முடிவை பாதிக்கக்கூடிய பிற நடத்தைகளை மதிப்பீட்டாளர்கள் எவ்வாறு தேடினர், உறுதிப்படுத்தப்பட்ட நிகழ்வுகள் மதிப்பெண் நிர்ணயம் அல்லது விளக்கத்தை எவ்வாறு பாதித்தன என்பதையும் உட்பட.

ஹார்னஸ் தேர்வுகள் அல்லது செல்லுபடித்தன்மைச் சரிபார்ப்புகளை விடுக்கும் தரநிலைகள், ஒரு முறைமை என்ன செய்ய முடியும் என்பதை குறைவாகக் காட்டக்கூடும்; அல்லது பாதுகாப்பு குறித்த கூற்றில் நம்பிக்கையை அதிகமாகக் காட்டக்கூடும். வலுவான ஹார்னஸ்கள் மற்றும் வெளிக்கொணர்தல் முறைகளை உருவாக்குவது இன்னும் திறந்த ஆராய்ச்சி துறையாகவே உள்ளது; மேலும், அது மேலதிக ஆய்வு மற்றும் முதலீட்டின் முக்கிய கவனப்பகுதியாக இருக்க வேண்டும்.

2026

ஆசிரியர்

OpenAI

சொற்களஞ்சியம்

இந்த இடுகையில் பல தொழில்நுட்பச் சொற்களை பயன்படுத்துவதால், நாம் எதை குறிக்கிறோம் என்பதை எளிய மொழியில் விளக்கும் ஒரு சொற்களஞ்சியத்தை கீழே சேர்த்துள்ளோம்:

ஏஜென்டிக் முறைமை: ஒரு ப்ராம்ப்ட்க்கு ஒரு பதிலை மட்டும் வழங்குவதற்குப் பதிலாக, கருவிகளைப் பயன்படுத்தி, பணியின் நிலையை பராமரித்து, ஒரு சூழலில் செயல்பட்டு, பல படிகளில் ஒரு பணியைச் செய்து முடிக்கக்கூடிய முறைமை.
மதிப்பீட்டு தீர்மானம்: மதிப்பீட்டு தரவு, ஆவண ஆய்வு, நேர்காணல், செயல்முறை ஆய்வு மற்றும் பிற தொடர்புடைய ஆதாரங்களின் அடிப்படையில், ஆதாரம் ஒரு கூற்று, அபாய முடிவு அல்லது உறுதிப்பாட்டு நிலைப்பாட்டை ஆதரிக்கிறதா என்பதற்கான விரிவான தீர்ப்பு ஆகும்.
காம்பாக்ஷன்: நீண்ட இயக்கங்களின் போது பணிக்கு தொடர்புடைய சூழலை பாதுகாக்கும் முறை.
கட்டமைப்பு: மாடல் பெயரைத் தாண்டி, துல்லியமாக சோதிக்கப்பட்ட முறைமை மற்றும் மதிப்பீட்டு நிபந்தனைகள்.
கலப்பு மாசுபாடு: மதிப்பீட்டு பணிகள், பதில்கள் அல்லது அவற்றின் நெருங்கிய மாறுபாடுகள் ஒரு மாடலின் பயிற்சி தரவில் தோன்றும்போது அல்லது மதிப்பீட்டின் போது கண்டறியக்கூடியதாக இருக்கும்போது (எ.கா., உலாவல் போன்ற கருவிகள் மூலம்), செயல்திறன் மாடலின் உண்மையான பொதுமைப்படுத்தலை விட அதிகமாகத் தோன்றும் நிலை.
வெளிக்கொணர்தல்: ஒரு மதிப்பீட்டின் போது ஒரு முறைமையிலிருந்து ஒரு திறன் அல்லது நடத்தையை வெளிக்கொணர முயலும் செயல்முறை.
சூழல்: ஒரு முறைமை சோதிக்கப்படும் பணிச் சூழல். இதில், மதிப்பீட்டின் போது ஏஜென்ட் தொடர்பு கொண்டு மாற்றும் வெளிப்புற நிலை போன்றவை அடங்கும்; உதாரணமாக, டெர்மினல் சூழல் அல்லது ஒரு வீடியோ கேம்.
மதிப்பீடு: ஒரு மதிப்பீட்டு தீர்மானத்திற்குள் உள்ள குறிப்பிட்ட சோதனை அல்லது அளவீடு.
மதிப்பீட்டு விழிப்புணர்வு: ஒரு மாடல் தன்னை மதிப்பீடு செய்கிறார்கள் என்பதை அறிதல் அல்லது அறிந்தது போலத் தோன்றுதல், மேலும் அந்தச் சூழலுக்குப் பதிலளித்து தனது நடத்தையை மாற்றக்கூடிய நிலையை குறிக்கிறது. இது, மாடல் தன்னைச் சோதிக்கிறார்கள் என்பதை வெளிப்படையாக ரீஸனிங் செய்வது, மதிப்பீட்டின் நோக்கத்தை ஊகிப்பது, அல்லது அதன் முடிவு தன்னை எவ்வாறு மதிப்பிடுவார்கள் அல்லது பயன்படுத்துவார்கள் என்பதை பாதிக்கும் என்று எதிர்பார்த்து தனது நடத்தையை மாற்றுவது போன்றதாக இருக்கலாம்.
ஹார்னஸ்: ஒரு மாடல் ஒரு பணியைச் செய்ய அனுமதிக்கும், மாடலை நோக்கிய அமைப்பு: ப்ராம்ப்ட்கள், கருவிகள், இடைமுகங்கள், கட்டுப்பாட்டு தர்க்கம், நினைவகம், மறுமுயற்சிகள், சரிபார்ப்பிகள் மற்றும் மாடலைச் சுற்றியுள்ள பிற ஆதரவு அமைப்புகள்.
அதிகபட்ச வெளிக்கொணர்தல்: ஒரு தரநிலைப்படுத்தப்பட்ட ஹார்னஸ் வழியாக முறைமையை ஒருமுறை இயக்குவதற்குப் பதிலாக, வரையறுக்கப்பட்ட பட்ஜெட்டுக்குள் ஒரு முறைமை உருவாக்கக்கூடிய மிக வலுவான நம்பத்தகுந்த செயல்திறன் அல்லது தோல்வி முறையை கண்டறிய நோக்கமுடைய சோதனை.
ரீஸனிங் தடங்கள்: ஒரு சோதனையின் போது மாடலின் இடைநிலை ரீஸனிங்கின் பதிவுகள்.
ரிவார்ட் ஹாக்கிங்: மதிப்பீட்டாளரின் நோக்கத்திற்கு வெளியான குறுக்குவழி அல்லது நடத்தை மூலம் உயர்ந்த மதிப்பெண் பெறுதல்.
பாதுகாப்பு ஏற்பாடுகள்: ஒரு மாடல் அல்லது தயாரிப்பைச் சுற்றி பயன்படுத்தப்படும் வடிகட்டிகள், கண்காணிப்புகள், தடை முறைமைகள் மற்றும் பிற பாதுகாப்புகள்.
சாண்ட்பேக்கிங்: மதிப்பீட்டின் முடிவை பாதிக்கும் வகையில், திட்டமிட்டு குறைவாக செயல்படுதல்.
மதிப்பெண் நிர்ணயம்: செயல்திறன் எவ்வாறு அளவிடப்படுகிறது அல்லது ஒரு பணி வெற்றியடைந்ததா என்பதை தீர்மானிக்கப் பயன்படுத்தப்படும் முறை.
தரநிலைப்படுத்தப்பட்ட ஹார்னஸ்: குறிப்பிட்ட மாடல் அல்லது பணிக்காக தனிப்பயனாக்கப்படாமல், முறைமைகள் முழுவதும் ஒரே மாதிரியாக வைக்கப்படும் ஹார்னஸ்; இதனால் முடிவுகளில் உள்ள வேறுபாடுகளை சோதிக்கப்பட்ட மாடலுக்கே எளிதாகக் காரணப்படுத்தலாம்.
நேர வரம்பு: குறிப்பிட்ட நம்பகத்தன்மையுடன் ஒரு முறைமை முடிக்கக்கூடிய பணியின் நீளம்; இதே பணியை ஒரு மனிதர் செய்ய எவ்வளவு நேரம் எடுக்கும் என்பதைக் கொண்டு இது அடிக்கடி வெளிப்படுத்தப்படுகிறது.
கருவி அணுகல்: மதிப்பீட்டின் போது மாடலுக்கு கிடைக்கும் வெளிப்புற கருவிகள்.
பாதைகள்: ஒரு பணியைச் செய்யும் போது ஒரு முறைமை பின்பற்றும் படிப்படியான வழிகள்.
உலகளாவிய ஜெயில்பிரேக்: பல ப்ராம்ப்ட்கள் அல்லது பணிகளில் ஒரு முறைமையானது பாதுகாப்பு ஏற்பாடுகளை மீறச் செய்யும் ஒரே தாக்குதல் முறை.

அடிக்குறிப்புகள்

1
தவறான ஒழுங்கமைவு அல்லது முன்விருப்பம் தொடர்பான கூற்றுகளை மூன்றாம் தரப்பினர் எவ்வாறு மதிப்பிட வேண்டும் என்பதை இந்த இடுகை தீர்மானிக்க முயலவில்லை. அந்த மதிப்பீடுகளில் ஹார்னஸ் தேர்வுகள் எவ்வாறு பாதிக்கின்றன என்பதைப் புரிந்துகொள்ள மேலும் வேலை தேவைப்படுகிறது; குறிப்பாக, நீண்ட நேர வரம்புடைய நடத்தையை ஆதரிக்கும் ஹார்னஸ்கள், மதிப்பீட்டாளர்கள் கண்காணிக்க வேண்டிய எதிர்பாராத நடத்தைகளின் வகைகளையும் மாற்றக்கூடும்.
2
HAL,⁠(புதிய சாளரத்தில் திறக்கும்) ஏஜென்ட் மதிப்பீடுகளில் இருந்து ஒரு கூடுதல் உதாரணத்தை வழங்குகிறது: CORE-Bench-இல்,⁠(புதிய சாளரத்தில் திறக்கும்) ஹார்னஸை Claude Code ஆக மாற்றியதால் அதே பெஞ்ச்மார்க்கில் அளவிடப்பட்ட செயல்திறனும் செலவுக் கண்ணோட்டமும் இரண்டும் மாறின. பிற பொதுப் பயன்பாட்டு உதாரணங்களில் SWE-agent⁠(புதிய சாளரத்தில் திறக்கும்), SeeAct⁠(புதிய சாளரத்தில் திறக்கும்), ScienceAgentBench⁠(புதிய சாளரத்தில் திறக்கும்), CORE-Bench⁠(புதிய சாளரத்தில் திறக்கும்) மற்றும் Inspect Cyber⁠(புதிய சாளரத்தில் திறக்கும்) அடங்கும்; ஒவ்வொன்றும் எந்த இடைமுகம் அல்லது ஹார்னஸ் அந்த மதிப்பெண்ணை உருவாக்கியது என்பதை வாசகர்களிடம் தெரிவிக்கின்றன.
3
இரண்டு சாண்ட்பேக்கிங் QA மாறுபாடுகளிலும் 100% மற்றும் உத்திசார் ஏமாற்றுதல் சாண்ட்பேக்கிங் பணியில் 99.6% மதிப்பெண் பெற்றது.

தொடர்ந்து படிக்க

அனைத்தையும் பார்க்கவும்

Safety and alignment in an era of long-horizon models

பாதுகாப்பு20 ஜூலை, 2026

Why teens deserve access to safe AI

பாதுகாப்பு16 ஜூலை, 2026

GPT-Red: உறுதித்தன்மைக்கான சுய மேம்பாட்டை திறத்தல்

பாதுகாப்பு15 ஜூலை, 2026